+ All Categories
Home > Documents > Možnosti využití programového vybavení WebArchivu dalšími subjekty

Možnosti využití programového vybavení WebArchivu dalšími subjekty

Date post: 20-Mar-2016
Category:
Upload: raquel
View: 27 times
Download: 5 times
Share this document with a friend
Description:
Možnosti využití programového vybavení WebArchivu dalšími subjekty. Ing. Petr Žabička, MZK. Registrované domény v .cz. Počet dokumentů sklizených za den. Po čet souborů a objem dat. Fakta. Počet sklizených souborů ke dni 14.2.2007 je 134,5 miliónů Objem sklizených dat je 5 465 GB - PowerPoint PPT Presentation
17
http://www.webarchiv.cz SDRUK-IT 14.2.2007 Možnosti využití programového vybavení Možnosti využití programového vybavení WebArchivu dalšími subjekty WebArchivu dalšími subjekty Ing. Petr Žabička, MZK Ing. Petr Žabička, MZK
Transcript
Page 1: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

Možnosti využití programového vybavení Možnosti využití programového vybavení WebArchivu dalšími subjektyWebArchivu dalšími subjekty

Ing. Petr Žabička, MZKIng. Petr Žabička, MZK

Page 2: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

Registrované domény v .cz

0

50000

100000

150000

200000

250000

300000

IX.99

XII.99

III.00

VI.00

IX.00

XII.00

III.01

VI.01

IX.01

XII.01

III.02

VI.02

IX.02

XII.02

III.03

VI.03

IX.03

XII.03

III.04

VI.04

IX.04

XII.04

III.05

VI.05

IX.05

XII.05

III.06

VI.06

IX.06

Page 3: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

document count per day

0

500000

1000000

1500000

2000000

2500000

3000000

1.9.

2001

1.11

.200

1

1.1.

2002

1.3.

2002

1.5.

2002

1.7.

2002

1.9.

2002

1.11

.200

2

1.1.

2003

1.3.

2003

1.5.

2003

1.7.

2003

1.9.

2003

1.11

.200

3

1.1.

2004

1.3.

2004

1.5.

2004

1.7.

2004

1.9.

2004

1.11

.200

4

1.1.

2005

1.3.

2005

1.5.

2005

1.7.

2005

1.9.

2005

1.11

.200

5

1.1.

2006

1.3.

2006

1.5.

2006

1.7.

2006

1.9.

2006

1.11

.200

6

cz2006

cz2004

cz2002cz2001

cz2005

agreements

agreements

Počet dokumentů sklizených za denPočet dokumentů sklizených za den

Page 4: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

Počet souborů a objem dat

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

4 B 8 B 16 B

32 B

64 B

128 B

256 B

512 B 1 k

B2 k

B4 k

B8 k

B16

kB32

kB64

kB

128 k

B

256 k

B

512 k

B1 M

B2 M

B4 M

B8 M

B16

MB32

MB64

MB

128 M

B

256 M

B

2001 count2001 size2002 count2002 size2004 count2004 size2006 count2006 sizeall countall size

Page 5: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

FaktaFakta

Počet sklizených souborů ke dni 14.2.2007 je 134,5 miliónů

Objem sklizených dat je 5 465 GBPrvní dokument byl archivován

3.9.2001

Page 6: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

Webarchiv – jak to funguje

A1 nová sklizeň A2 konec sklízení -> indexovat A3 aktualizovat fulltext A4 aktualizovat seznam souborů

Page 7: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

Akvizice - Heritrix Akvizice - Heritrix modulární, rozšiřitelný, probíhá neustálý vývoj (nyní

verze 1.10.2) zkvalitňování systému zvýšení bezpečnosti

platformě nezávislý (java aplikace) kvalitní a rychlá podpora vývojářů z Internet Archive open source kódy a modularita umožňují spolupráci

třetích stran na jeho vývoji v nejnovější verzi vylepšena ochrana před pádem do pastí nelze dlouhodobě sklízet web bez odborných zásahů v

průběhu sklizně HDFS Writer Processor – zápis do Hadoop filesystému

Page 8: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

Akvizice - Akvizice - DeDuplicatorDeDuplicator Modul pro Heritrix Snaží se detekovat duplikáty ještě před jejich stažením Využívá toho, že některé typy dokumentů (např. HTML) se

mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video).

formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC

Page 9: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

Akvizice – WEB CURATOR TOOLAkvizice – WEB CURATOR TOOL nástroj pro správu sklízení první verze uvolněna v září 2006 vyvinut v rámci IIPC díky spolupráci Britské knihovny a

Národní knihovny Nového Zélandu. umožňuje správu sklízení méně kvalifikovaným uživatelům

prostřednictvím graficky přívětivého a propracovaného webového rozhraní

výborná podpora uživatelských oprávnění nepodporuje inkrementální sklízení multiplatformní, ale stávající verze optimalizována pro

platformu Windows (problém s malými a velkými písmeny při komunikaci s databází).

nekonzistentní konfigurace, částečně odlišný workflow

Page 10: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

Page 11: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

Akvizice – deep web - DeepArc

Page 12: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

Indexace – Nutch, NutchWAX Indexace – Nutch, NutchWAX Nutch volně dostupný modulární vyhledávací engine, vyhledávací engine,

podpora A9 searchpodpora A9 search umí stáhnout a zpracovat miliony stránek měsíčně;

spravovat jejich index, vyhledávat v něm 1000x za vteřinu

NutchWAX nástavba vyhledávacího rozhraní Nutch

vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko

Od loňské verze 0.6 (nyní 0.10) pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop)

Page 13: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

WERA - WERA - WEb aRchive AccessWEb aRchive Access spolupráce konsorcia IIPC, Internet Archive a NWA využívá hlavní části NWA Toolset velmi snadná navigace a propracované uživatelské

rozhraní (časová osa zobrazuje časové verze dokumentu) výsledky vyhledávání v podobě URL zobrazeny velmi

přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL

zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy

archivované dokumenty a WERA propojeny skrz index NutchWAXe

Problémy s javascriptem v některých stránkách Vývoj ukončen, přechod na Wayback

Page 14: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

WAYBACKWAYBACK Aplikace, která v budoucnu nahradí stávající Wayback

Machine Internet Archivu

Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci

Režimy zpřístupnění: Archival URL = úprava odkazů na stránce (link zpět do

archivu) Proxy = chová se jako proxy server, ale je pak složité

měnit časové verze (WAX Toolbar – plugin pro Firefox) Timeline = časová osa, zatím experimentální

Připravuje se podpora fulltextového vyhledávání a lokalizace

Page 15: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

WAXToolbar Plugin pro firefox (do verze 1.9) Spolupracuje s Wayback v proxy

režimu

Page 16: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

XInq XML INQuiry Search and browse tool for

accessing an XML database

Page 17: Možnosti využití programového vybavení  WebArchivu dalšími subjekty

http://www.webarchiv.cz SDRUK-IT 14.2.2007

Děkuji za pozornost!

[email protected]


Recommended