+ All Categories
Home > Technology > Zdeněk Hruška - Archivematica a projekty ve světě

Zdeněk Hruška - Archivematica a projekty ve světě

Date post: 24-Jan-2017
Category:
Upload: ltp-portal-cz
View: 863 times
Download: 0 times
Share this document with a friend
24
Archivematica: projekty ve světě LTP-workshop Národní archiv ČR, 1. 12. 2015 Zdeněk Hruška Projekt LTP-pilot Moravská zemská knihovna
Transcript
Page 1: Zdeněk Hruška - Archivematica a projekty ve světě

Archivematica:

projekty

ve světě

LTP-workshopNárodní archiv ČR, 1. 12. 2015

Zdeněk Hruška

Projekt LTP-pilotMoravská zemská knihovna

Page 2: Zdeněk Hruška - Archivematica a projekty ve světě

Archivematica – výhody

❏ Nízkonákladové řešení❏ Open source❏ Spolupráce s Artefactual Systems ❏ Budována na základě OAIS❏ Variabilita nasazení❏ Modularita❏ Neustálý vývoj❏ Komunita

Řada projektů v paměťových institucích severní Ameriky a západní Evropy.

Page 3: Zdeněk Hruška - Archivematica a projekty ve světě

City of Vancouver Archives

❏ 1. uživatelé Archivematiky (AM)❏ Městský archiv – příjem dat od úřadů a soukromých

institucích; data z olympijských a paralympijských her ve Vancouveru 2010 (různé formáty, cca 20 TB).

❏ AM - nástroj pro ingest, mikroslužby provádějí:❏ testy na malware❏ kontrola integrity❏ extrakce metadat❏ identifikace, charakterizace a normalizace formátů

Page 4: Zdeněk Hruška - Archivematica a projekty ve světě

City of Vancouver Archives

❏ AIP a DIP postoupeny dále: AIP -> archivní úložiště DIP -> AtoM

❏ Formátová politika – normalizace dat do formátů vhodných pro dlouhodobou ochranu.

❏ Data v exotických formátech nebo formátech, nemající vhodnou alternativu jsou ukládány

v původních formátech a LTP probíhá dle možností.

Page 5: Zdeněk Hruška - Archivematica a projekty ve světě

Simon Fraser University Archives

❏ 2011 – pilotní projekt na otestování AM

❏ Důraz na SIP -> DIP -> AtoM, formáty kancelářských balíků, obrázky a audio

❏ Doporučení k dalšímu rozvoji Archivematicy – oblast GUI, workflow, dávkového zpracování, zpracování chyb, správy a systémové administrace

Page 6: Zdeněk Hruška - Archivematica a projekty ve světě

Simon Fraser University Archives

❏ Uchovávání elektronické pošty z e-mailového klienta Zimbra (cca 10 000 e-mailů)

❏ konverze formátu Zimbra do Maildir: ❏ Zimbra - proprietární X Maildir - jednotlivé zprávy❏ otagování pomocí Muse – (ne)zpřístupňování zpráv

❏ Repozitář závěrečných prací❏ AM je zodpovědná pouze za vytváření archivních

balíčků (uložení řešeno pomocí LOCKSS)

Page 7: Zdeněk Hruška - Archivematica a projekty ve světě

Simon Fraser University Archives

❏ Repozitář vědeckých dat – Islandora; LTP řeší AM + další systémy

❏ Více instalací AM i AtoMu (pipelines) – import různých typů dat (AM) a pro různé uživatele (AtoM)

❏ vlastní dotazovací nástroj AIP Query Tool:statistiky balíčků AIP (druhy a počty formátů nebo velikost a počty uložených objektů).

❏ analýza potřeb dalšího rozvoje Archivematicy a AtoMu

Page 8: Zdeněk Hruška - Archivematica a projekty ve světě

Simon Fraser University Archives

https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf

Page 9: Zdeněk Hruška - Archivematica a projekty ve světě

University of British Columbia Library

Spolupráce s Artefactual Systems:

❏ Pilotní projekty, testování AM❏ Projekt archivování webu a napojení na DSpace

❏ AM slouží pro příjem dat a vytváření SIP, DIP a AIP AIP -> LOCKSS, lokální úložištěDIP -> AtoM

Page 10: Zdeněk Hruška - Archivematica a projekty ve světě

University of British Columbia Library

Institucionální repozitář (cIRcle):

❏ DSpace - propojený s Archivematicou

❏ Export z DSpace -> import do AM

❏ několik instalací AM (pipelines) - různé druhy dat

❏ Co největší integrace pipelines (propojení s webovými stránkami univerzity) - rychlost, jednoduchost, efektivita workflow

Page 12: Zdeněk Hruška - Archivematica a projekty ve světě

Columbia University

2011– 2013 zpracování Archives of the Ford Foundation - International Fellowships Program

❏ Uložení a LTP dat z programu; 3,6 TB dat a 350 000 souborů;

❏ 245 různých formátů souborů (kancelářské dokumenty, audio a video, databáze, e-maily, web, průzkumy, rozhovory, statistické zprávy, datasety, …)

❏ dlouhé názvy souborů a souborových cest (více než 260 znaků)

❏ 10 jazyků a 7 nerománských znakových sad (včetně arabštiny a indštiny)

❏ nedostatek popisných metadat

Page 13: Zdeněk Hruška - Archivematica a projekty ve světě

Columbia University

❏ omezený přístup k některým datům:veřejně dostupná datainterně dostupná datadata s omezením přístupu až do roku 2075

❏ Převod formátů na vhodné pro LTP, extrakce dat ze zip a rar

❏ AM pro příjem SIP (přiřazení UUID, virová kontrola, normalizace názvů souborů, formátová identifikace, extrakce metadat a generování souborů METS

❏ AIP -> uloženo, DIP -> Fedora

Page 14: Zdeněk Hruška - Archivematica a projekty ve světě

Council of Prairie and Pacific University Libraries – COPPUL

❏ Společné projekty, vyjednávání s dodavateli softwaru, elektronických databází, …

❏ Zkušenosti se sdílenou archivací dokumentů - projekt SPAN (Shared Print Archive Network), distribuce papírových výtisků odborných periodik

❏ Lokální sítě LOCKSS (archivace závěrečných prací, článků, digitalizované i digital-born dokumenty, …)

❏ Zapojení v původní (globální) LOCKSS síti a projektu Portico,

Archive-It pro archivaci webu

Page 15: Zdeněk Hruška - Archivematica a projekty ve světě

Council of Prairie and Pacific University Libraries – COPPUL

❏ 2013 - spolupráce COPPUL a Artefactual Systems.

❏ AM jako služba (Digital Preservation as a Service)

❏ COPPUL - propagace, vstup nových členů a financování vstupních nákladů.

❏ Artefactual Systems - správa účtů a serverů, instalace, školení a technická podpora uživatelů.

❏ Univerzita Britské Kolumbie (EduCloud) - servery a úložný prostor

Page 16: Zdeněk Hruška - Archivematica a projekty ve světě

Council of Prairie and Pacific University Libraries – COPPUL

❏ Tři úrovně služby:

❏ bronzová: identifikace a validace, pravidelné kontroly checksums, 400 GB; 5500 $/rok

❏ stříbrná: + normalizace vstupních dat, uložení balíčků AIP v zabezpečeném úložišti, generování PREMIS a METS , 1 TB; 7500 $/rok

❏ zlatá: + generování DIP balíčků a upload do AtoMu, 2 TB; 12500 $/rok

Page 17: Zdeněk Hruška - Archivematica a projekty ve světě

Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)

❏ Regionální superpočítačové centrum - 5 PB dat na discích a 100 PB na páskách.

❏ Budování a testování LTP systému, řada open source nástrojů:

❏ Archivematica, iRODS a Islandora

❏ AM slouží pro příjem dat – identifikace, charakterizace a normalizace formátů

❏ DIP -> Fedora/Islandora

❏ AIP -> archivní úložiště (iRODS)

Page 18: Zdeněk Hruška - Archivematica a projekty ve světě

Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)

❏ Administrace dat - propojení Islandory a iRods, AIP na páskách, DIP uložené online.

❏ Různé druhy daty od partnerských institucí -> mírná úprava AM, schopnost doplňovat potřebná metadata do METS v AIP.

❏ ZIB sponzoruje naprogramování re-ingestu balíčku AIP - úprava/změna metadat, zachování UUID a existující PREMIS (AM ver. 1.5)

Page 19: Zdeněk Hruška - Archivematica a projekty ve světě

Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)

Page 20: Zdeněk Hruška - Archivematica a projekty ve světě

ArchivesDirect

❏ Artefactual Systems + DuraSpace -> DPaaS

❏ říjen 2014 - únor 2015 pilotní projekt AM v cloudu, vybrané univerzity v USA

❏ veřejně - březen 2015, jako ArchivesDirect

Page 21: Zdeněk Hruška - Archivematica a projekty ve světě

ArchivesDirect

❏ DuraCloud - správa dat a jejich kopií v cloudu

❏ AM - příjem dat, obohacování o metadata a normalizace

❏ Nepokrývá správu dat na úložišti, neřídí počet ani umístění kopií, nekontroluje integritu

❏ DuraCloud + AM = pokus o eliminaci slabých stránek

❏ 9 999 $/rok – 1 instalace AM, školení a trénink, 1TB

❏ Amazon S3 a Amazon Glacier

Page 22: Zdeněk Hruška - Archivematica a projekty ve světě

Zdeněk HruškaMoravská zemská knihovna

[email protected]

Děkuji za pozornost!

Page 23: Zdeněk Hruška - Archivematica a projekty ve světě

Použité zdroje

č

Page 24: Zdeněk Hruška - Archivematica a projekty ve světě

Použité zdroje


Recommended