+ All Categories
Home > Internet > Budoucnost českého webového archivu

Budoucnost českého webového archivu

Date post: 14-Feb-2017
Category:
Upload: webarchive-of-national-library-of-the-czech-republic
View: 202 times
Download: 3 times
Share this document with a friend
19
Webarchiv Budoucnost českého webového archivu
Transcript

WebarchivBudoucnost českého webového archivu

Jsme Webarchiv

digitální knihovna, která uchovává webové zdrojepro budoucí generace. wwwPokud je nebudeme průběžně archivovat, zmizí významná součást národního kulturního dědictví.

Jak archivujeme?

Provádíme kompletní archivaci“celého” českého webu.

WWWWWWWW

Souběžně probíhá výběrováa tematická archivace.

Bohužel!

Ne všechna data jsou dostupná online. w

Může za to současná podoba autorského zákona, která byla vytvořena pro knihy. Pro přístup k celému archivu musíte prozatím až k nám.

Budoucnost

Webový archiv není jen skladiště URL, na které usedá prach. Pracujeme na vytvoření fulltextu celého archivu. Potřebujeme porozumět tomu, co nesou jednotlivé digitální objekty a co budou znamenat historicky. wwWČeká nás otevření Webarchivu analytickému výzkumu a propojení našich dat s jinými archivy.

Bude možné studovat 90. léta a dál bez webových archivů?

Ian Milligan

Webový archiv Živý web

Bude možné studovat 90. léta a dál bez webových archivů?

Ne.

~210 TB komprimovaných dat~4 miliardy digitálních objektů~1,2 miliónu webových stránek

*.cz

méně jak ~1% webových stránekWebarchivu, je volně přístupnéz Internetu

w

METADATA

WWWWWWWW

URL, Timestamp, SHA-1, Size, Outlinks, Content-Type, IP, Response, Title, Author ...

WWW

Ian Milligan, opět

Identifikace formátu jednotlivých dig. objektů

verze PDF, HTML, MS Word apod.

Extrakce plného textu

z HTML, PDF, DOC apod.

Rozponání žánru např. recenze, rozhovor, článek apod.

Identifikace entit např. místa, osoby, události apod.

Identifikace témat a klíčových slov např. Volby 2013, Útok ISIS, Ukrajinská krize

Rozpoznání jazyka dokumentu

Obrazový hash hledání podobných obrázků

Audio2text prohledávání audiovizuáních dokumentů

Slovní popis obrázků včetně klíčových slov

černé a ryšavé koťátko si hrají na zelené trávě

Rozpoznávání tváří

A co zajímá vás?


Recommended