Webarchiv jako digitální knihovna

transcript

Webarchivpamátník českého internetu, více

Jsme Webarchiv

digitální knihovna, která uchovává webové zdrojepro budoucí generace. wwwPokud je nebudeme průběžně archivovat, zmizí významná součást národního kulturního dědictví.

Jak archivujeme?

Provádíme kompletní archivaci“celého” českého webu.

WWWWWWWW

Souběžně probíhá výběrováa tematická archivace.

Bohužel!

Ne všechna data jsou dostupná online. w

Může za to současná podoba autorského zákona, která byla vytvořena pro knihy. Pro přístup k celému archivu musíte prozatím až k nám.

Bude možné studovat 90. léta a dál bez webových archivů?

Webový archiv Živý web

není to málo?

• ~ 228 TB

• ~ 6 miliard digitálních objektů / URL

• ~ 1,2 miliónu domén druhého řádu / doména.cz

méně jak 1 % je volně přístupné

metadata

• formát souboru

• odkazy

• typ dokumentu

• entity v textu

• klíčová slova

• etc.

miluj výzkumníka svého

API pro metadata

• URL digitálního objektu

• Čas archivace URL

• Velikost souboru

• SHA-1 kontrolní součet souboru

• MIME type souboru dle tvrzení HTTP serveru

• Titul dokumentu nebo celého webu

• Autor dokumentu

228 TB

• při čtení 80 MB/s

• ~ 32 dní jen pro přečtení všech dat z disků

Zpracování archivu

• Formátové

• Textové

• Obrazové

• Zvukové

API pro všechny metadata

Fulltextové vyhledávání

• PageRank nepočítá s časovým aspektem webu

• Kvalitní vyhledávání potřebuje analytické informace

Co nám v archivu chybí

Co webové archivy již nezvládnou

Děkujeme za pozornost!

Jaroslav KvasnicaRudolf Kreibich

webarchiv.czfacebook.com/webarchivcrslideshare.net/webarchivCZ

Webarchiv jako digitální knihovna

Technology