PADICAT - PADICAT

PADICAT
PADICAT BN.jpg
URL http://www.padicat.cat/

PADICAT akronim oznaczający Patrimoni Digital de Catalunya w języku katalońskim ; lub Digital Heritage of Catalonia , w języku angielskim, to Web Archive of Catalonia.

Utworzony w 2005 roku przez Biblioteca de Catalunya , instytucję publiczną odpowiedzialną za gromadzenie, ochronę i dystrybucję dziedzictwa bibliograficznego, a co za tym idzie - dziedzictwa cyfrowego. Posiada współpracę technologiczną z Centrum Usług Naukowych i Akademickich Katalonii (CESCA) w celu zachowania i udostępniania starych wersji stron internetowych publikowanych w Internecie . Biblioteca de Catalunya jako osoba odpowiedzialna za PADICAT jest członkiem Międzynarodowego Konsorcjum Ochrony Internetu (IIPC).

Historia

Strona internetowa PADICAT 2011

PADICAT powstał w 2005 roku podążając za trendem tworzenia archiwów internetowych przez inne biblioteki narodowe oraz jako odpowiedź na publikację przez UNESCO wytycznych dotyczących ochrony dziedzictwa cyfrowego . Działa wiele archiwów internetowych . Najsłynniejszy rozpoczął się w 1996 roku: szwedzki Kulturarw3; australijska Pandora i najpopularniejsze repozytorium Internet Archive .

Analiza tych i innych projektów pozwoliła zaplanować projekt PADICAT, podążając za powszechnym na świecie trendem hybrydowego modelu funkcjonowania, uzupełniającego regularne ujęcie całej domeny geograficznej ( w tym przypadku domeny .cat ), z wybiórcze działania i rozszerzyć te relacje na różne wydarzenia społeczne, które generują intensywną aktywność w sieci ( na przykład kampanie wyborcze ) lub za pomocą pakietów tematycznych ( muzea Katalonii, kataloński folk-rock w Internecie itp.). PADICAT uzupełnia to wszystko o wkład użytkowników za pośrednictwem zalecanych stron internetowych.

W czerwcu 2005 roku Biblioteca de Catalunya rozpoczęła wstępną fazę planowania, w której przeprowadzono analizę projektów pod kątem istniejących zasobów, agentów zaangażowanych w tworzenie stron internetowych Katalonii oraz kwestii prawnych, które określają praktyki, które chcą robić.

W oparciu o parametry określone przez Biblioteca de Catalunya, 21 lipca 2006 r. Zaczęto automatycznie gromadzić strony internetowe, które mogą być częścią cyfrowego dziedzictwa Katalonii. W dniu 11 września 2006 r., Zbiegając się z obchodami Narodowego Dnia Katalonii , została otwarta dla publiczności strona internetowa PADICAT zawierająca około trzydziestu stron internetowych.

Okres 2006–2008 obejmuje fazę produkcji, pilotaż planu projektu, fazę operacyjną PADICAT: systematyczne przechwytywanie stron internetowych Katalonii.

W latach 2009–2011 Biblioteca de Catalunya powinna znajdować się w optymalnej sytuacji, w której ten system - pionier w Hiszpanii i punkt odniesienia w Europie - będzie działał z pełną wydajnością. Ponadto zawarliśmy umowy o współpracy z ponad 450 wszelkiego rodzaju instytucjami i zagwarantowaliśmy otwarty dostęp online do wszystkich zbiorów. 11 września 2011 r., Ponownie zbiegając się z Narodowym Dniem Katalonii i piątą rocznicą powstania swojej strony internetowej, PADICAT otworzył nową wersję strony internetowej, aby uzyskać dostęp do wszystkich zdeponowanych treści.

W listopadzie 2012 PADICAT zachował 58 122 stron internetowych, 249 609 przeszukiwań, 349 milionów plików i 13 TB miejsca na dysku. Wszystkie z nich są dostępne bezpłatnie.

Misja i funkcjonowanie

Misja i cele

Misją PADICAT jest zbieranie, przetwarzanie i zapewnianie dostępu do cyfrowego dziedzictwa Katalonii, które powstało w Internecie. Jej cele to:

  • Masowa kompilacja domeny .cat dzięki umowie z Fundació puntCat .
  • Systematyczna archiwizacja stron internetowych organizacji i firm katalońskich.
  • Promuj kierunki badań poprzez tematyczną integrację zasobów cyfrowych związanych z określonymi wydarzeniami w katalońskim życiu publicznym, takimi jak kampanie polityczne w Internecie, zjawisko muzyczne online lub muzea w Internecie.

Po jego narodzinach (2005-2006), fazie wzrostu (2007-2008) i konsolidacji (2009-2011), od 2012 r. Chce się usystematyzować jego zdolność do wzrostu, w celu włączenia 75 700 wersji około 32 000 witryn internetowych rocznie, z:

  • Dwuletnia kompilacja z 30 000 zasobów .cat domeny.
  • Dwuletnie zestawienie z 550 zasobów z ponad 450 organizacji objętych umową o współpracy.
  • Dwuletnia kompilacja na podstawie zasobów zalecanych przez użytkowników.
  • Codzienna kompilacja znacznej części 30 seryjnych publikacji online.

Ponadto istnieją cztery stałe obszary pracy:

  • Definiowanie strategii ochrony dziedzictwa cyfrowego powstałego w Internecie. PADICAT dostarcza okresowe raporty o katalońskich witrynach internetowych; wykrywa, które formaty mają problemy z nieczytelnością; i identyfikuje najczęściej używane języki itp.
  • Promowanie kierunków badawczych poprzez tworzenie zbiorów monograficznych z udziałem ekspertów z każdej dziedziny.
  • Tworzenie i utrzymywanie cyfrowego archiwum seriali poprzez usystematyzowane przechwytywanie cyfrowych seriali internetowych. Teraz składa się z reprezentatywnej próbki o rodzaju i zawartości, wybranej spośród urodzonych cyfrowych, bez analogicznego odpowiednika.
  • Współpraca z innymi archiwami internetowymi, bibliotekami, archiwami i muzeami w celu zapewnienia skutecznej odpowiedzi na wyzwania związane z ochroną zasobów cyfrowych i dostępem do jej zasobów.

Funkcjonowanie

Oprogramowanie

Schemat przepływu pracy oprogramowania PADICAT

PADICAT to system oparty na implementacji kilku programów, które umożliwiają gromadzenie, przechowywanie, porządkowanie, konserwację i stały dostęp do stron internetowych. Później, w fazie analizy i testów oprogramowania, określono, które oprogramowanie Heritrix jest stosowane w większości projektów związanych z pozyskiwaniem zasobów cyfrowych. Jest to opłata za oprogramowanie za kompilację stron internetowych, które widzi użytkownik podczas surfowania po Internecie i przechowywanie ich w skompresowanych plikach z rozszerzeniem ARC lub WARC . Następnie oprogramowanie Heritrix jest uzupełniane przez NutchWax lub przez połączenie z Hadoop i Wayback , wykonując proces indeksowania skompilowanych informacji, które pozwolą na użycie tego indeksu do lokalizacji zasobów kolekcji z interfejsów zapytań: Wera, który umożliwia wyszukiwanie na podstawie słów kluczowych poprzez wygenerowane indeksy przez NutchWax ; i Wayback, który umożliwia przeglądanie adresów URL w indeksach generowanych przez Hadoop i ten sam Wayback.

Został wykorzystany oprogramowanie Web Curator Tool, opracowane przez National Library of New Zealand i British Library , jako system zarządzania dokumentami, który pozwala na przypisanie metadanych do znacznej części kolekcji, w celu zintegrowania w przyszłości środków depozytu w celu wyszukiwania w innych katalogi z Biblioteca de Catalunya lub innych instytucji. Obecnie strony internetowe są katalogowane za pomocą CAT, oprogramowania specjalnie opracowanego przez techników CESCA na potrzeby projektu.

Sprzęt komputerowy

Serwery PADICAT w CESCA

Jeśli chodzi o sprzęt obsługujący system, istnieje sześć węzłów HP ProLiant DL360 G4p, które pobierają opłaty za zadania związane z gromadzeniem i indeksacją stron internetowych. Za wyszukiwanie i przeglądanie wyników w interfejsie WWW odpowiada klaster Linux o wysokiej dostępności, z równoważeniem obciążeń żądań i tolerancją błędów w przypadku technicznej awarii węzłów integrujących platformę. Kabina NetApp FAS3170 udostępnia tym węzłom 19 TB pojemności dysku za pośrednictwem NFS.

Węzły są połączone światłowodem z siecią pamięci masowej (SAN) i uzupełnione o system zapisu robota do backupu danych.

Ma obejmować zdeponowane treści w PADICAT to COFRE (COnservem per al Futur Recursos Electrònics), system o wysokim poziomie bezpieczeństwa stworzony dla Biblioteca de Catalunya

Bibliografia

Linki zewnętrzne