Prezentace byla vytvořena v rámci Strategie Akademie věd AV21, výzkumného programu "Paměť v digitálním věku"
Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i.Jilská 1, 110 00 Praha 1, Česká republika; http://archiv.soc.cas.cz
Datové archivy a jejich využití pro sekundární analýzu dat v sociálních vědách(se zaměřením na Český sociálněvědnídatový archiv a jeho online databázi Nesstar)Martin Vávra
Zdroje dat pro sekundární analýzu a proč je využívat
Provedení vlastního výzkumu je obtížné (u některých témat prakticky nemožné)► Vysoké finanční náklady► Čas potřebný pro primární výzkum► Aktuální nedostupnost subjektů/objektů pro výzkum
Záchranou může být využití dat, která sebral někdo jiný (tj. sekundární analýza)
Nalezení a získání vhodných dat je usnadněno vytvářením příslušné infrastruktury (datové archivy) a pravidel archivování dat (zejména systematické vytváření metadat, která data popisují)
Přínosy sekundární analýzy a dostupnosti dat pro tuto analýzu
Usnadňuje přenos a kumulativní vytváření poznání (archivace -> zabezpečení, zachování)
Skrze možnosti kombinovat různé datové zdroje napomáhá zvyšování informační hodnoty, komparace v čase, mezinárodní komparace
Dostupnost dat pro sekundární analýzu -> zdokonalování metod analýzy
► metodologický výzkum, testování nástrojů, vytváření nových projektů
► systematičnost, prosazování kvality
Ustavuje lepší prostředí pro spolupráci týmů (zejména mezinárodních)
Usnadňuje dostupnost dat pro výuku a zvyšuje množství sekundárních analýz prováděných studenty
Napomáhá ověřování výsledků a obecně transparentnosti výzkumu
Z hlediska vědní politiky: efektivita veřejných investic - maximalizace využití
Rizika sekundární analýzy
Rizika plynou z oddělení fází produkce a analýzy dat. ► Známe dostatečně původní koncept a kontext výzkumu? Máme
dost informací o průběhu sběru dat? Rozumíme modifikacím provedeným v datech?
Při nedostupnosti „vhodných dat“ dat hrozí vynucená modifikace výzkumných záměrů
Kvalita dat je u sekundání analýzy méně transparentní – a pokud nemáme o kvalitu dat zájem a/nebo nejsme schopni ji vyhodnotit, riziko chyby či dezinterpretace je značné
Koncepty výzkumu či jednotlivé proměnné nemusí být zcela srovnatelné s těmi našimi (nebo pokud používáme více zdrojů dat, nemusí být srovnatelné mezi sebou)
Riziko chyby vyplývá i z nekompatibility formátů a s nimi spojených technických problémů zpracování
Sekundární analýza není rutinní úloha !
koncepce výzkumu
vyhledání a identifikace dat
studium metadat a širšího kontextu původního výzkumu
prozkoumání dat, zhodnocení a verifikace
úpravy, transformace dat
analýza, interpretace
dokumentace použitých dat v publikované práci
systematický management dat s ohledem na sekundární využití při realizaci šetření i při sekundární analýze
Co je datový archiv
Sdílení výzkumných dat - standard
výměna znalostí -> rozvoj vědy
kombinování databází, komparace
(mezinárodní) spolupráce
odpovědnost k veřejným financím: hodnota zpět až s použitím dat => požadavek maximálního využití
OTEVŘENÝ PŘÍSTUP K VÝZKUMNÝM DATŮM► “otevřenost znamená přístup za rovných podmínek pro mezinárodní
vědeckou komunitu za nejnižší možnou cenu, nejlépe nepřesahující
mezní náklady distribuce. Otevřený přístup k výzkumným datům z
veřejného financování by měl být snadný, časově nenáročný,
uživatelsky přívětivý a nejlépe založený na Internetu.”
(OECD Principles and Guidelines for Access to Research Data ...
http://www.oecd.org/dataoecd/9/61/38500813.pdf)
Vývoj zdrojů dat, Olomouc 17.-19.10.2013 Snímek 8
Consortium of European Social Science Data Archives
AustriaCzech RepublicDenmarkFinlandFranceGermanyLithuania
NetherlandsNorwaySloveniaSwedenSwitzerlandUnited Kingdom
Zapojení Českého sociálněvědního archivu do mezinárodní spolupráce – sdružení datových archivů CESSDA http://www.cessda.org
Nyní se tato spolupráce dostává na vyšší úroveň a v rámci CESSDA vzniká skutečná celoevropská datová infrastruktura► Jednotný přístup do národních datových úložišť, standardizace
dat a metadat
V ČSDA používané standardy a nástroje
Pro zápis metadat používáme standard DDI (více informací na http://www.ddialliance.org/)Pro zápis klíčových slov používáme European Language Social Science Thesaurus (ELSST)K datových souborům nově připojujeme DOI (Digital Object Identifier), na základě registrace u organizace da|ra (součást německého institutu GESIS)Dokumenty k datům ukládáme v databázovém systému DSpaceZískali jsme Data Seal of Approval – certifikaci „důvěryhodnosti“ digitálního archivu
Co je Nesstar a jak jej ČSDA a další datové archivy využívají
Nesstar je software pro webové publikování dat a jejich on-line analýzu. Uživatelé mohou prostřednictvím Nesstaru data prohledávat, on-line analyzovat a stahovat si je do svého počítače.Nesstar využívají všechny archivy sdružené v organizaci CESSDA i některé další. v roce 2016 bylo v systému Nesstar (on-line systém pro prezentaci, analýzu a stahování dat), který ČSDA používá, dostupných 741 datových souborů (v drtivé většině z dotazníkových šetření), došlo k 1535 stažení dat (75% pro účely výuky), měli jsme 2210 registrovaných uživatelů (9,1% zahraničních)
K datům se lze dostat z hlavní stránky ČSDAhttp://archiv.soc.cas.cz/
Dostaneme se tak do databáze Nesstar ČSDA (http://nesstar.soc.cas.cz/webview/)
ČSDA archivuje i publikuje nejen primární data ze současnosti ale i data ze vzdálenější minulosti ve formě agregovaných dat (tabulek)
V roce 1946 zahájil činnost Ústav pro výzkum veřejného mínění. Primární data nemáme, ale pokoušíme se na základě dostupných zpráv z výzkumů publikovat tabulky s důležitými výsledky
Medard - digitální archiv "měkkých", kvalitativních, dat
Samostatná knihovna kvalitativních dat částečně dostupná také přes rozhraní NesstarKvalitativní data: skoro všechny typy datových souborůArchivace kvalitativních dat vázne►Problém ochrany osobních údajů
Stejný systém sloužící pro on-line prezentaci dat výzkumu European Social Survey (http://nesstar.ess.nsd.uib.no/webview/)
Také německý datový archiv (součást institutu GESIS) využívá pro zpřístupňování dat Nesstar
http://zacat.gesis.org/webview/index.jsp
Tento archiv je z hlediska českého výzkumníka významný proto, že zpřístupňuje mezinárodní datové soubory –například z výzkumů ISSP nebo EVS
Jak s daty v databázi Nesstar pracovat
Poté co se dostanete na stránku http://nesstar.soc.cas.cz/webview/už stačí jen postupně rozbalovat nabídku klikáním na názvy sekcí (popřípadě na čtverce vedle těchto názvů). Dostanete se tak až na úroveň konkrétních výzkumů a v rámci zvoleného výzkumu po kliknutí na „Popis proměnných“ (případně na „Variable description“ – v závislosti na nastavení jazyků ve vašem prohlížeči) na jednotlivé proměnné. V sekci „Metadata“ můžete procházet informace o výzkumu.
Vyhledávání dat
V informacích o výzkumu i v informacích, které se vztahují ke konkrétním proměnným je možno vyhledávat prostřednictvím nástroje na horní liště (podrobnější nabídka vyhledávání pod tlačítkem s lupou a symbolem +).
Další funkce Nesstaru
Kromě prohlížení metadat a proměnných Nesstar umožňuje:Vytváření kontingenčních tabulekProvádění korelační a regresní analýzyVýsledky analýz lze zobrazit mnoha typy grafůVytváření nových a rekódování starých proměnných ►K využívání těchto funkcí je nutná registrace
Stahování datových souborů do počítače uživatele► I pro to je nutná registrace
Registrace - http://archivreg.soc.cas.cz/registrace
Po odsouhlasení podmínek využívání dat uživatel již pouze vyplní krátký online formulář – login a heslo mu pak přijdou na email
On-line analýza vztahu dvou proměnných
Na horní liště Nesstaru se uživatel přepne do sekce tabulkyPoté již zvolí konkrétní proměnné a to tak, že klikne levým tlačítkem myši nad labelem dané proměnné
Korelační analýza v Nesstaru
Uživatel přejde na liště do „analýzy“, poté zvolí „korelaci“Do korelační matice se proměnné přidávají znovu pomocí levého tlačítka myši Kromě hodnot samotného koeficientu je možno zobrazit i významnosti a počet jednotek, které do daného korelačního vztahu vstupují
Regresní analýza v Nesstaru
Práce s proměnnými je stejná jako u korelací, pouze je pochopitelně nutno zvolit závisle proměnnou a ostatní proměnné jako nezávislé
Stahování datPokud se uživatel zaregistroval, ČSDA mu přidělí práva ke stahování všech souborůSamotné stažení souboru je pak velice jednoduché
► Nejprve si uživatel soubor vybere a rozklikne jej► Poté stačí kliknout na tlačítko s disketou► V nabídce si vybere formát dat► Poté dá „stáhnout“, zadá uživatelské jméno a heslo a soubor se začne stahovat
Ikony důležitých funkcí Nesstaru
Zobrazení tabulek
Zobrazení grafů
Vymazat – tato funkce „vyčistí“ okno s analýzami
Váha – uložené soubory mohou obsahovat váhy, tato funkce umožňuje jejich použití
Podsoubor - tato možnost dovoluje uživateli provádět analýzy nebo zobrazení grafů na podsouboru kategorií proměnných (například pouze za osoby mužského pohlaví)
Ikony důležitých funkcí Nesstaru
Stáhnout - systém umožňuje stažení datového souboru do většiny používaných statistických formátů.
Export vytvořených objektů (tabulek) do formátu .xls
Export vytvořených objektů (tabulek, grafů) do formátu .pdf
Kontextuální nápověda