Webarchiv CZ

Post on 12-Jan-2017

157 views 0 download

transcript

Webarchivpamátník českého internetu, více

Historie

• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)

• 2001 - první archivované webové stránky

• 2005 - pravidelné sklízení obsahu

• 2007 - vstup do IIPC

Dnes

• z projektu se stalo Oddělení archivace webu

• hlavní financování z rozpočtu knihovny

• 1 vedoucí + 2,5 kurátorů + 0,5 IT podpora

Profil archivu

• stáří archivu: 3. 9. 2001

• ~ 200 TB

• frekvence sklízení: 1x - 1x|2x|6x|12x/year

• hloubka sklízení: 5000 - 15 000 objects

• přístupnost: in house/online access

Rozložení domén

Tempo růstu

• robot.txt nerespektujeme

• velké dilema pro webové archivy

• rozhodnutí má zásadní dopady na archiv

• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”

Designated community

• koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS)

• definice uživatelů určuje obsah i jeho formu

1. individuální uživatelé2. institucionální uživatelé3. výzkumníci a vědci

Typy sklizní

• Celoplošné: celý “český web”

• Výběrové: reprezentativní vzorek “českého webu”

• Tematické: události s dopadem v prostředí internetu

“český web”?• bohemikální charakter zdroje (definice v collection policy)

• Území – zdroje publikované na území ČR

• Jazyk – všechny zdroje v češtině (bez ohledu na místo vydání)

• Autorství – všechny zdroje českých autorů (bez ohledu na místo vydání)

• Předmět/obsah – všechny zdroje, jejichž obsah se týká České republiky nebo českého národa (bez ohledu na místo vydání)

Další kriteria“Preferovány jsou zdroje s kulturní, vědeckou či historickou hodnotou, které mají originální a unikátní obsah a dlouhodobou badatelskou hodnotu.”

• nechceme firemní prezentace, eshopy apod. komerční zdroje (?)• nechceme velké deníky (??)• intranety (?)• katalogy, portály se sekundárním obsahem• rozhlasové a televizní vysílání

• neděláme/neumíme sklízet zabezpečené webové zdroje (databáze, sekce pro registrované uživatele)

Technické překážky

• Flash, Ajax, JavaScript …

• technických překážek je mnoho, řešení?

• univerzální řešení neexistuje

• technické sklizně => “someday”

Zpřístupnění

• Wayback Machine (zobrazování)

• Vyhledávání:

• primárně WWW

• katalog Aleph

• WM

Akvizice domén

• CZ NIC

• návrhy uživatelů, vydavatelů

• ISSN agentura

• kurátoři -> konspekt

Licence

• výhradní (smlouva)

• na doménu

• bianco

• creative commons

Role kurátora

• komunikace s vydavateli

• “plnění” konspektu

• správa webových zdrojů vč. hodnocení

• katalogizace

• quality assurance

Kuratorství ve světě

• Technicky vyřešeno

• Důraz na kolekce

• IIPC collaborative collections

• Sociální sítě

Jak to děláme my?

• Tematické sklizně

• Plníme konspekt

• Kontinuální tematické sklizně?

• Zapojení dalších institucí?