+ All Categories
Home > Technology > Webarchiv CZ

Webarchiv CZ

Date post: 12-Jan-2017
Category:
Upload: jaroslav-kvasnica
View: 157 times
Download: 0 times
Share this document with a friend
24
Webarchiv památník českého internetu, více
Transcript
Page 1: Webarchiv CZ

Webarchivpamátník českého internetu, více

Page 2: Webarchiv CZ

Historie

• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)

• 2001 - první archivované webové stránky

• 2005 - pravidelné sklízení obsahu

• 2007 - vstup do IIPC

Page 3: Webarchiv CZ

Dnes

• z projektu se stalo Oddělení archivace webu

• hlavní financování z rozpočtu knihovny

• 1 vedoucí + 2,5 kurátorů + 0,5 IT podpora

Page 4: Webarchiv CZ
Page 5: Webarchiv CZ

Profil archivu

• stáří archivu: 3. 9. 2001

• ~ 200 TB

• frekvence sklízení: 1x - 1x|2x|6x|12x/year

• hloubka sklízení: 5000 - 15 000 objects

• přístupnost: in house/online access

Page 6: Webarchiv CZ

Rozložení domén

Page 7: Webarchiv CZ

Tempo růstu

Page 8: Webarchiv CZ
Page 9: Webarchiv CZ

• robot.txt nerespektujeme

• velké dilema pro webové archivy

• rozhodnutí má zásadní dopady na archiv

• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”

Page 10: Webarchiv CZ

Designated community

• koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS)

• definice uživatelů určuje obsah i jeho formu

1. individuální uživatelé2. institucionální uživatelé3. výzkumníci a vědci

Page 11: Webarchiv CZ

Typy sklizní

• Celoplošné: celý “český web”

• Výběrové: reprezentativní vzorek “českého webu”

• Tematické: události s dopadem v prostředí internetu

Page 12: Webarchiv CZ

“český web”?• bohemikální charakter zdroje (definice v collection policy)

• Území – zdroje publikované na území ČR

• Jazyk – všechny zdroje v češtině (bez ohledu na místo vydání)

• Autorství – všechny zdroje českých autorů (bez ohledu na místo vydání)

• Předmět/obsah – všechny zdroje, jejichž obsah se týká České republiky nebo českého národa (bez ohledu na místo vydání)

Page 13: Webarchiv CZ

Další kriteria“Preferovány jsou zdroje s kulturní, vědeckou či historickou hodnotou, které mají originální a unikátní obsah a dlouhodobou badatelskou hodnotu.”

• nechceme firemní prezentace, eshopy apod. komerční zdroje (?)• nechceme velké deníky (??)• intranety (?)• katalogy, portály se sekundárním obsahem• rozhlasové a televizní vysílání

• neděláme/neumíme sklízet zabezpečené webové zdroje (databáze, sekce pro registrované uživatele)

Page 14: Webarchiv CZ

Technické překážky

• Flash, Ajax, JavaScript …

• technických překážek je mnoho, řešení?

• univerzální řešení neexistuje

• technické sklizně => “someday”

Page 15: Webarchiv CZ

Zpřístupnění

• Wayback Machine (zobrazování)

• Vyhledávání:

• primárně WWW

• katalog Aleph

• WM

Page 16: Webarchiv CZ

Akvizice domén

• CZ NIC

• návrhy uživatelů, vydavatelů

• ISSN agentura

• kurátoři -> konspekt

Page 17: Webarchiv CZ

Licence

• výhradní (smlouva)

• na doménu

• bianco

• creative commons

Page 18: Webarchiv CZ

Role kurátora

• komunikace s vydavateli

• “plnění” konspektu

• správa webových zdrojů vč. hodnocení

• katalogizace

• quality assurance

Page 19: Webarchiv CZ

Kuratorství ve světě

• Technicky vyřešeno

• Důraz na kolekce

• IIPC collaborative collections

• Sociální sítě

Page 20: Webarchiv CZ
Page 21: Webarchiv CZ
Page 22: Webarchiv CZ

Jak to děláme my?

• Tematické sklizně

• Plníme konspekt

• Kontinuální tematické sklizně?

• Zapojení dalších institucí?

Page 23: Webarchiv CZ

Recommended