+ All Categories
Home > Technology > Český webový archiv

Český webový archiv

Date post: 12-Jan-2017
Category:
Upload: jaroslav-kvasnica
View: 29 times
Download: 0 times
Share this document with a friend
24
Webarchiv český webový archiv Mgr. Jaroslav Kvasnica
Transcript
Page 1: Český webový archiv

Webarchivčeský webový archiv

Mgr. Jaroslav Kvasnica

Page 2: Český webový archiv

Webová archivace

“Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in

an archive for future researchers, historians, and the public.”

Page 3: Český webový archiv

Co stojí za to archivovat?

“more is more, less is less”

vs.

“hoarding is not a strategy”

Page 4: Český webový archiv
Page 5: Český webový archiv

Co stojí za to archivovat?

• V dnešní době můžeme jen hádat.

• Lidstvo nikdy nedokáže kategorizovat všechna data na světě.

Page 6: Český webový archiv

Základní typologie akvizice

celoplošné sklízení

kvantita > kvalita

výběrové sklízení

kvalita > kvantita

Page 7: Český webový archiv

Celoplošné sklízení

1. všechno, celý web (Internet Archive)2. předem definovaná část webu (národní web, TLD)

• semínka nevybírají kurátoři • důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně

automatizovaně• nutnost definovat výsek, který chceme sklízet (všichni

nemůžou být IA)

Page 8: Český webový archiv

Výběrové sklízení

• semínka připravují kurátoři

• důraz na kvalitu: obsahovou, technickou (QA)

• na základě tématu, události

• důležité: jednoznačně definovat kritéria akvizice

Page 9: Český webový archiv

IIPC collaborative collection

• World War I. - 10 webových archivů - 1692 semínek

• Europan Refugee Crisis - 11. členů - 500 semínek

• https://archive-it.org/home/IIPC

• nový projekt: Online News Around the World

Page 10: Český webový archiv

Instantní archivace

• news, social media

• technicky náročné (výpočetní výkon, nárok na kurátory)

• často se využívá technologie RSS

• aplikovaná spíše při zvláštních událostech

Page 11: Český webový archiv

instantní archivace - příklad

“(…) a Ukrainian separatist leader also known as Strelkov, or someone acting on his behalf, posted a message on VKontakte, a Russian social-media

site: “We just downed a plane, an AN-26.” (An Antonov 26 is a Soviet-built military cargo plane.)

The post includes links to video of the wreckage of a plane; it appears to be a Boeing 777. (…)”

http://www.newyorker.com/magazine/2015/01/26/cobweb

Page 12: Český webový archiv

WebarchivČeský webový archiv, více

Page 13: Český webový archiv

Historie Webarchivu

• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)

• 2001 - první archivované webové stránky

• 2005 - pravidelné sklízení obsahu

• 2007 - vstup do IIPC

Page 14: Český webový archiv

Profil archivu

• stáří archivu: 3. 9. 2001

• ~ 250 TB

• frekvence sklízení: 1x|2x|6x|12x/rok

• hloubka sklízení: 5000 - 15 000 objektů/doména

Page 15: Český webový archiv

• robot.txt nerespektujeme

• velké dilema pro webové archivy

• rozhodnutí má zásadní dopady na profil archivu

• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”

Page 16: Český webový archiv

Celoplošné sklizně

• smlouva s CZ.NIC

• dnes ~ 1 200 000 domén

• dvakrát za rok sklizeň celé .cz domény

• menší hloubka, časově a objemově náročné

Page 17: Český webový archiv

Výběrové sklizně

• manuální práce kurátorů

• “standardní” výběrová sklizeň -> konspekt

• tématické sklizně -> aktuální událost

• kolekce -> společné téma, obor, instituce…

Page 18: Český webový archiv

Designated community

• koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS)

• definice uživatelů určuje obsah i jeho formu

1. individuální uživatelé2. institucionální uživatelé3. výzkumníci a vědci

Page 19: Český webový archiv

Zpřístupnění

• Wayback Machine (zobrazování)

• vyhledávání:

• primárně WWW

• katalog Aleph

Page 20: Český webový archiv
Page 21: Český webový archiv
Page 22: Český webový archiv

Legislativa

• “povinný výtisk” - zatím neexistuje pro webové zdroje

• Autorský zákon - můžeme vytvářet kopie pro archivní účely na základě knihovní licence (ne zpřístupňovat)

• online přístup - na základě smluv s vydavateli nebo Creative Commons licence

Page 23: Český webový archiv

• méně než 1 % zdrojů zpřístupněných online

• celý archiv dostupný pouze v Klementinu

• Bude to lepší v budoucnu? Ne.

• terminály v dalších knihovnách?

• metadata


Recommended