Kurz webové archivace III.

Post on 13-Apr-2017

114 views 0 download

transcript

Webarchivu nás v garáži

Heritrix | OpenWaybackSklízení | Zpřístupnění

Otevřený softwareMezinárodní (tj. dostatečně velká)

komunita

https://github.com/webarchivCZ/

úskalí webové archivace

Archivovatelnost

JavaScript driven

JavaScript driven

Web jako aplikace

Heritrix objeví 1,75 x méně URI než PhantomJS

Heritrix sklízí 2 065 URI/s

PhantomJS sklízí 172 URI/s

Uzavřené implementace

RTSP / Flash apod.

.cz z nic.czale co s

.com, .net, .org, .eu apod.?

robots.txt

na co si dát pozor

Časová nekonzistence

Časová nekonzistence

URI-Rsklizeno

URI-R ☨nesklizeno

URI-Rsklizeno

URLnapř. http://nyx.cz

Memento Memento

URLnapř. http://nyx.cz

Co všechno může být WA?

Software

Zloware

...

a koho dnes WA zajímá?

nás

Ian Milligan

metadata

metadata

Old Dominion University

UK WA / SHINE

Personal web archiving

co dál?

1 skupina aspoň jeden 1 komp

seznam URL pošlete na rudolf.kreibich@nkp.cz

s týdenním předstihem