Český webový archiv

transcript

Webarchivčeský webový archiv

Mgr. Jaroslav Kvasnica

Webová archivace

“Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in

an archive for future researchers, historians, and the public.”

Co stojí za to archivovat?

“more is more, less is less”

“hoarding is not a strategy”

Co stojí za to archivovat?

• V dnešní době můžeme jen hádat.

• Lidstvo nikdy nedokáže kategorizovat všechna data na světě.

Základní typologie akvizice

celoplošné sklízení

kvantita > kvalita

výběrové sklízení

kvalita > kvantita

Celoplošné sklízení

1. všechno, celý web (Internet Archive)2. předem definovaná část webu (národní web, TLD)

• semínka nevybírají kurátoři • důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně

automatizovaně• nutnost definovat výsek, který chceme sklízet (všichni

nemůžou být IA)

Výběrové sklízení

• semínka připravují kurátoři

• důraz na kvalitu: obsahovou, technickou (QA)

• na základě tématu, události

• důležité: jednoznačně definovat kritéria akvizice

IIPC collaborative collection

• World War I. - 10 webových archivů - 1692 semínek

• Europan Refugee Crisis - 11. členů - 500 semínek

• https://archive-it.org/home/IIPC

• nový projekt: Online News Around the World

Instantní archivace

• news, social media

• technicky náročné (výpočetní výkon, nárok na kurátory)

• často se využívá technologie RSS

• aplikovaná spíše při zvláštních událostech

instantní archivace - příklad

“(…) a Ukrainian separatist leader also known as Strelkov, or someone acting on his behalf, posted a message on VKontakte, a Russian social-media

site: “We just downed a plane, an AN-26.” (An Antonov 26 is a Soviet-built military cargo plane.)

The post includes links to video of the wreckage of a plane; it appears to be a Boeing 777. (…)”

http://www.newyorker.com/magazine/2015/01/26/cobweb

WebarchivČeský webový archiv, více

Historie Webarchivu

• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)

• 2001 - první archivované webové stránky

• 2005 - pravidelné sklízení obsahu

• 2007 - vstup do IIPC

Profil archivu

• stáří archivu: 3. 9. 2001

• ~ 250 TB

• frekvence sklízení: 1x|2x|6x|12x/rok

• hloubka sklízení: 5000 - 15 000 objektů/doména

• robot.txt nerespektujeme

• velké dilema pro webové archivy

• rozhodnutí má zásadní dopady na profil archivu

• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”

Celoplošné sklizně

• smlouva s CZ.NIC

• dnes ~ 1 200 000 domén

• dvakrát za rok sklizeň celé .cz domény

• menší hloubka, časově a objemově náročné

Výběrové sklizně

• manuální práce kurátorů

• “standardní” výběrová sklizeň -> konspekt

• tématické sklizně -> aktuální událost

• kolekce -> společné téma, obor, instituce…

Designated community

• koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS)

• definice uživatelů určuje obsah i jeho formu

1. individuální uživatelé2. institucionální uživatelé3. výzkumníci a vědci

Zpřístupnění

• Wayback Machine (zobrazování)

• vyhledávání:

• primárně WWW

• katalog Aleph

Legislativa

• “povinný výtisk” - zatím neexistuje pro webové zdroje

• Autorský zákon - můžeme vytvářet kopie pro archivní účely na základě knihovní licence (ne zpřístupňovat)

• online přístup - na základě smluv s vydavateli nebo Creative Commons licence

• méně než 1 % zdrojů zpřístupněných online

• celý archiv dostupný pouze v Klementinu

• Bude to lepší v budoucnu? Ne.

• terminály v dalších knihovnách?

• metadata

Děkuji za pozornost!

Mgr. Jaroslav Kvasnicajaroslav.kvasnica@nkp.cz

Český webový archiv

Technology