Zdeněk Hruška - Archivematica a projekty ve světě

Post on 24-Jan-2017

863 views 0 download

transcript

Archivematica:

projekty

ve světě

LTP-workshopNárodní archiv ČR, 1. 12. 2015

Zdeněk Hruška

Projekt LTP-pilotMoravská zemská knihovna

Archivematica – výhody

❏ Nízkonákladové řešení❏ Open source❏ Spolupráce s Artefactual Systems ❏ Budována na základě OAIS❏ Variabilita nasazení❏ Modularita❏ Neustálý vývoj❏ Komunita

Řada projektů v paměťových institucích severní Ameriky a západní Evropy.

City of Vancouver Archives

❏ 1. uživatelé Archivematiky (AM)❏ Městský archiv – příjem dat od úřadů a soukromých

institucích; data z olympijských a paralympijských her ve Vancouveru 2010 (různé formáty, cca 20 TB).

❏ AM - nástroj pro ingest, mikroslužby provádějí:❏ testy na malware❏ kontrola integrity❏ extrakce metadat❏ identifikace, charakterizace a normalizace formátů

City of Vancouver Archives

❏ AIP a DIP postoupeny dále: AIP -> archivní úložiště DIP -> AtoM

❏ Formátová politika – normalizace dat do formátů vhodných pro dlouhodobou ochranu.

❏ Data v exotických formátech nebo formátech, nemající vhodnou alternativu jsou ukládány

v původních formátech a LTP probíhá dle možností.

Simon Fraser University Archives

❏ 2011 – pilotní projekt na otestování AM

❏ Důraz na SIP -> DIP -> AtoM, formáty kancelářských balíků, obrázky a audio

❏ Doporučení k dalšímu rozvoji Archivematicy – oblast GUI, workflow, dávkového zpracování, zpracování chyb, správy a systémové administrace

Simon Fraser University Archives

❏ Uchovávání elektronické pošty z e-mailového klienta Zimbra (cca 10 000 e-mailů)

❏ konverze formátu Zimbra do Maildir: ❏ Zimbra - proprietární X Maildir - jednotlivé zprávy❏ otagování pomocí Muse – (ne)zpřístupňování zpráv

❏ Repozitář závěrečných prací❏ AM je zodpovědná pouze za vytváření archivních

balíčků (uložení řešeno pomocí LOCKSS)

Simon Fraser University Archives

❏ Repozitář vědeckých dat – Islandora; LTP řeší AM + další systémy

❏ Více instalací AM i AtoMu (pipelines) – import různých typů dat (AM) a pro různé uživatele (AtoM)

❏ vlastní dotazovací nástroj AIP Query Tool:statistiky balíčků AIP (druhy a počty formátů nebo velikost a počty uložených objektů).

❏ analýza potřeb dalšího rozvoje Archivematicy a AtoMu

Simon Fraser University Archives

https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf

University of British Columbia Library

Spolupráce s Artefactual Systems:

❏ Pilotní projekty, testování AM❏ Projekt archivování webu a napojení na DSpace

❏ AM slouží pro příjem dat a vytváření SIP, DIP a AIP AIP -> LOCKSS, lokální úložištěDIP -> AtoM

University of British Columbia Library

Institucionální repozitář (cIRcle):

❏ DSpace - propojený s Archivematicou

❏ Export z DSpace -> import do AM

❏ několik instalací AM (pipelines) - různé druhy dat

❏ Co největší integrace pipelines (propojení s webovými stránkami univerzity) - rychlost, jednoduchost, efektivita workflow

Columbia University

2011– 2013 zpracování Archives of the Ford Foundation - International Fellowships Program

❏ Uložení a LTP dat z programu; 3,6 TB dat a 350 000 souborů;

❏ 245 různých formátů souborů (kancelářské dokumenty, audio a video, databáze, e-maily, web, průzkumy, rozhovory, statistické zprávy, datasety, …)

❏ dlouhé názvy souborů a souborových cest (více než 260 znaků)

❏ 10 jazyků a 7 nerománských znakových sad (včetně arabštiny a indštiny)

❏ nedostatek popisných metadat

Columbia University

❏ omezený přístup k některým datům:veřejně dostupná datainterně dostupná datadata s omezením přístupu až do roku 2075

❏ Převod formátů na vhodné pro LTP, extrakce dat ze zip a rar

❏ AM pro příjem SIP (přiřazení UUID, virová kontrola, normalizace názvů souborů, formátová identifikace, extrakce metadat a generování souborů METS

❏ AIP -> uloženo, DIP -> Fedora

Council of Prairie and Pacific University Libraries – COPPUL

❏ Společné projekty, vyjednávání s dodavateli softwaru, elektronických databází, …

❏ Zkušenosti se sdílenou archivací dokumentů - projekt SPAN (Shared Print Archive Network), distribuce papírových výtisků odborných periodik

❏ Lokální sítě LOCKSS (archivace závěrečných prací, článků, digitalizované i digital-born dokumenty, …)

❏ Zapojení v původní (globální) LOCKSS síti a projektu Portico,

Archive-It pro archivaci webu

Council of Prairie and Pacific University Libraries – COPPUL

❏ 2013 - spolupráce COPPUL a Artefactual Systems.

❏ AM jako služba (Digital Preservation as a Service)

❏ COPPUL - propagace, vstup nových členů a financování vstupních nákladů.

❏ Artefactual Systems - správa účtů a serverů, instalace, školení a technická podpora uživatelů.

❏ Univerzita Britské Kolumbie (EduCloud) - servery a úložný prostor

Council of Prairie and Pacific University Libraries – COPPUL

❏ Tři úrovně služby:

❏ bronzová: identifikace a validace, pravidelné kontroly checksums, 400 GB; 5500 $/rok

❏ stříbrná: + normalizace vstupních dat, uložení balíčků AIP v zabezpečeném úložišti, generování PREMIS a METS , 1 TB; 7500 $/rok

❏ zlatá: + generování DIP balíčků a upload do AtoMu, 2 TB; 12500 $/rok

Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)

❏ Regionální superpočítačové centrum - 5 PB dat na discích a 100 PB na páskách.

❏ Budování a testování LTP systému, řada open source nástrojů:

❏ Archivematica, iRODS a Islandora

❏ AM slouží pro příjem dat – identifikace, charakterizace a normalizace formátů

❏ DIP -> Fedora/Islandora

❏ AIP -> archivní úložiště (iRODS)

Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)

❏ Administrace dat - propojení Islandory a iRods, AIP na páskách, DIP uložené online.

❏ Různé druhy daty od partnerských institucí -> mírná úprava AM, schopnost doplňovat potřebná metadata do METS v AIP.

❏ ZIB sponzoruje naprogramování re-ingestu balíčku AIP - úprava/změna metadat, zachování UUID a existující PREMIS (AM ver. 1.5)

Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)

ArchivesDirect

❏ Artefactual Systems + DuraSpace -> DPaaS

❏ říjen 2014 - únor 2015 pilotní projekt AM v cloudu, vybrané univerzity v USA

❏ veřejně - březen 2015, jako ArchivesDirect

ArchivesDirect

❏ DuraCloud - správa dat a jejich kopií v cloudu

❏ AM - příjem dat, obohacování o metadata a normalizace

❏ Nepokrývá správu dat na úložišti, neřídí počet ani umístění kopií, nekontroluje integritu

❏ DuraCloud + AM = pokus o eliminaci slabých stránek

❏ 9 999 $/rok – 1 instalace AM, školení a trénink, 1TB

❏ Amazon S3 a Amazon Glacier

Zdeněk HruškaMoravská zemská knihovna

zdenek.hruska@mzk.cz

Děkuji za pozornost!

Použité zdroje

č

Použité zdroje