Post on 12-Jan-2017
transcript
Webarchivpamátník českého internetu, více
Jsme Webarchiv
digitální knihovna, která uchovává webové zdrojepro budoucí generace. wwwPokud je nebudeme průběžně archivovat, zmizí významná součást národního kulturního dědictví.
Jak archivujeme?
Provádíme kompletní archivaci“celého” českého webu.
WWWWWWWW
Souběžně probíhá výběrováa tematická archivace.
Bohužel!
Ne všechna data jsou dostupná online. w
Může za to současná podoba autorského zákona, která byla vytvořena pro knihy. Pro přístup k celému archivu musíte prozatím až k nám.
Bude možné studovat 90. léta a dál bez webových archivů?
Webový archiv Živý web
není to málo?
data
• ~ 228 TB
• ~ 6 miliard digitálních objektů / URL
• ~ 1,2 miliónu domén druhého řádu / doména.cz
méně jak 1 % je volně přístupné
metadata
• formát souboru
• odkazy
• typ dokumentu
• entity v textu
• klíčová slova
• etc.
miluj výzkumníka svého
API pro metadata
• URL digitálního objektu
• Čas archivace URL
• Velikost souboru
• SHA-1 kontrolní součet souboru
• MIME type souboru dle tvrzení HTTP serveru
• Titul dokumentu nebo celého webu
• Autor dokumentu
228 TB
• při čtení 80 MB/s
• ~ 32 dní jen pro přečtení všech dat z disků
Zpracování archivu
• Formátové
• Textové
• Obrazové
• Zvukové
API pro všechny metadata
Fulltextové vyhledávání
• PageRank nepočítá s časovým aspektem webu
• Kvalitní vyhledávání potřebuje analytické informace
Co nám v archivu chybí
Co webové archivy již nezvládnou
w w w
w w w
Děkujeme za pozornost!
Jaroslav KvasnicaRudolf Kreibich
webarchiv.czfacebook.com/webarchivcrslideshare.net/webarchivCZ