Date post: | 24-Jan-2017 |
Category: |
Technology |
Upload: | ltp-portal-cz |
View: | 863 times |
Download: | 0 times |
Archivematica:
projekty
ve světě
LTP-workshopNárodní archiv ČR, 1. 12. 2015
Zdeněk Hruška
Projekt LTP-pilotMoravská zemská knihovna
Archivematica – výhody
❏ Nízkonákladové řešení❏ Open source❏ Spolupráce s Artefactual Systems ❏ Budována na základě OAIS❏ Variabilita nasazení❏ Modularita❏ Neustálý vývoj❏ Komunita
Řada projektů v paměťových institucích severní Ameriky a západní Evropy.
City of Vancouver Archives
❏ 1. uživatelé Archivematiky (AM)❏ Městský archiv – příjem dat od úřadů a soukromých
institucích; data z olympijských a paralympijských her ve Vancouveru 2010 (různé formáty, cca 20 TB).
❏ AM - nástroj pro ingest, mikroslužby provádějí:❏ testy na malware❏ kontrola integrity❏ extrakce metadat❏ identifikace, charakterizace a normalizace formátů
City of Vancouver Archives
❏ AIP a DIP postoupeny dále: AIP -> archivní úložiště DIP -> AtoM
❏ Formátová politika – normalizace dat do formátů vhodných pro dlouhodobou ochranu.
❏ Data v exotických formátech nebo formátech, nemající vhodnou alternativu jsou ukládány
v původních formátech a LTP probíhá dle možností.
Simon Fraser University Archives
❏ 2011 – pilotní projekt na otestování AM
❏ Důraz na SIP -> DIP -> AtoM, formáty kancelářských balíků, obrázky a audio
❏ Doporučení k dalšímu rozvoji Archivematicy – oblast GUI, workflow, dávkového zpracování, zpracování chyb, správy a systémové administrace
Simon Fraser University Archives
❏ Uchovávání elektronické pošty z e-mailového klienta Zimbra (cca 10 000 e-mailů)
❏ konverze formátu Zimbra do Maildir: ❏ Zimbra - proprietární X Maildir - jednotlivé zprávy❏ otagování pomocí Muse – (ne)zpřístupňování zpráv
❏ Repozitář závěrečných prací❏ AM je zodpovědná pouze za vytváření archivních
balíčků (uložení řešeno pomocí LOCKSS)
Simon Fraser University Archives
❏ Repozitář vědeckých dat – Islandora; LTP řeší AM + další systémy
❏ Více instalací AM i AtoMu (pipelines) – import různých typů dat (AM) a pro různé uživatele (AtoM)
❏ vlastní dotazovací nástroj AIP Query Tool:statistiky balíčků AIP (druhy a počty formátů nebo velikost a počty uložených objektů).
❏ analýza potřeb dalšího rozvoje Archivematicy a AtoMu
Simon Fraser University Archives
https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf
University of British Columbia Library
Spolupráce s Artefactual Systems:
❏ Pilotní projekty, testování AM❏ Projekt archivování webu a napojení na DSpace
❏ AM slouží pro příjem dat a vytváření SIP, DIP a AIP AIP -> LOCKSS, lokální úložištěDIP -> AtoM
University of British Columbia Library
Institucionální repozitář (cIRcle):
❏ DSpace - propojený s Archivematicou
❏ Export z DSpace -> import do AM
❏ několik instalací AM (pipelines) - různé druhy dat
❏ Co největší integrace pipelines (propojení s webovými stránkami univerzity) - rychlost, jednoduchost, efektivita workflow
http://diginit.sites.olt.ubc.ca/files/2012/07/UBCLibrary-PersistentDigitalCollectionsPlan-ProjectReportCondensed-1.pdf
Columbia University
2011– 2013 zpracování Archives of the Ford Foundation - International Fellowships Program
❏ Uložení a LTP dat z programu; 3,6 TB dat a 350 000 souborů;
❏ 245 různých formátů souborů (kancelářské dokumenty, audio a video, databáze, e-maily, web, průzkumy, rozhovory, statistické zprávy, datasety, …)
❏ dlouhé názvy souborů a souborových cest (více než 260 znaků)
❏ 10 jazyků a 7 nerománských znakových sad (včetně arabštiny a indštiny)
❏ nedostatek popisných metadat
Columbia University
❏ omezený přístup k některým datům:veřejně dostupná datainterně dostupná datadata s omezením přístupu až do roku 2075
❏ Převod formátů na vhodné pro LTP, extrakce dat ze zip a rar
❏ AM pro příjem SIP (přiřazení UUID, virová kontrola, normalizace názvů souborů, formátová identifikace, extrakce metadat a generování souborů METS
❏ AIP -> uloženo, DIP -> Fedora
Council of Prairie and Pacific University Libraries – COPPUL
❏ Společné projekty, vyjednávání s dodavateli softwaru, elektronických databází, …
❏ Zkušenosti se sdílenou archivací dokumentů - projekt SPAN (Shared Print Archive Network), distribuce papírových výtisků odborných periodik
❏ Lokální sítě LOCKSS (archivace závěrečných prací, článků, digitalizované i digital-born dokumenty, …)
❏ Zapojení v původní (globální) LOCKSS síti a projektu Portico,
Archive-It pro archivaci webu
Council of Prairie and Pacific University Libraries – COPPUL
❏ 2013 - spolupráce COPPUL a Artefactual Systems.
❏ AM jako služba (Digital Preservation as a Service)
❏ COPPUL - propagace, vstup nových členů a financování vstupních nákladů.
❏ Artefactual Systems - správa účtů a serverů, instalace, školení a technická podpora uživatelů.
❏ Univerzita Britské Kolumbie (EduCloud) - servery a úložný prostor
Council of Prairie and Pacific University Libraries – COPPUL
❏ Tři úrovně služby:
❏ bronzová: identifikace a validace, pravidelné kontroly checksums, 400 GB; 5500 $/rok
❏ stříbrná: + normalizace vstupních dat, uložení balíčků AIP v zabezpečeném úložišti, generování PREMIS a METS , 1 TB; 7500 $/rok
❏ zlatá: + generování DIP balíčků a upload do AtoMu, 2 TB; 12500 $/rok
Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
❏ Regionální superpočítačové centrum - 5 PB dat na discích a 100 PB na páskách.
❏ Budování a testování LTP systému, řada open source nástrojů:
❏ Archivematica, iRODS a Islandora
❏ AM slouží pro příjem dat – identifikace, charakterizace a normalizace formátů
❏ DIP -> Fedora/Islandora
❏ AIP -> archivní úložiště (iRODS)
Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
❏ Administrace dat - propojení Islandory a iRods, AIP na páskách, DIP uložené online.
❏ Různé druhy daty od partnerských institucí -> mírná úprava AM, schopnost doplňovat potřebná metadata do METS v AIP.
❏ ZIB sponzoruje naprogramování re-ingestu balíčku AIP - úprava/změna metadat, zachování UUID a existující PREMIS (AM ver. 1.5)
Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
ArchivesDirect
❏ Artefactual Systems + DuraSpace -> DPaaS
❏ říjen 2014 - únor 2015 pilotní projekt AM v cloudu, vybrané univerzity v USA
❏ veřejně - březen 2015, jako ArchivesDirect
ArchivesDirect
❏ DuraCloud - správa dat a jejich kopií v cloudu
❏ AM - příjem dat, obohacování o metadata a normalizace
❏ Nepokrývá správu dat na úložišti, neřídí počet ani umístění kopií, nekontroluje integritu
❏ DuraCloud + AM = pokus o eliminaci slabých stránek
❏ 9 999 $/rok – 1 instalace AM, školení a trénink, 1TB
❏ Amazon S3 a Amazon Glacier
Použité zdroje
●
●
●
●
●
●
●
č
Použité zdroje
●
●
●
●
●
●
●