Úvod do managementu datJindřich KrejčíSociologický ústav AV ČR, Č[email protected]
Doktorandský seminář Katedry sociologie FF UK 28. listopadu 2012, Sociologický ústav AV ČR
Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i.Jilská 1, 110 00 Praha 1, Česká republika; http://archiv.soc.cas.cz
SDÍLENÍ DAT
DATA A KONCEPCE VÝZKUMU
MANAGEMENT DAT V PRŮBĚHU ŘEŠENÍ PROJEKTU
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 3
Literatura
Humprey, Ch. 2006. e-Science and the Life Cycle of Research. http://datalib.library.ualberta.ca/~humphrey/lifecycle-science060308.doc
ICPSR. 2012. Guide to Social Science Data Preparation and Archiving. Best Practice Throughout the Data Life Cycle. 5-th Edition. Ann Arbor:ICPSR http://www.icpsr.umich.edu/files/ICPSR/access/dataprep.pdf
Eynden, V., L. Corti, M. Woolard, L. Bishop, L. Horton. 2011. Managing and Sharing Data. Colchester: UK Data Archive (UKDA). http://www.data-archive.ac.uk/media/2894/managingsharing.pdf
Sekce Management dat na Webu ČSDAhttp://archiv.soc.cas.cz/articles/cz/95/MANAGEMENT-DAT.html
Sekce Sharing data na Webu CESSDAhttp://www.cessda.org/sharing/
Krejčí, J., Y. Leontiyeva (eds.). 2012. Praha: SLON (v tisku).
► I. MANAGEMENT DAT VE VÝZKUMNÉM PROJEKTU A ARCHIVACE DAT
• Koncepce správy dat a výzkumný projekt (Krejčí)
• Založení a správa datového souboru v průběhu výzkumného projektu (Krejčí)
• Standardy dokumentace a archivace dat (Krejčí a Vávra)
• Sociálněvědní datové archivy: jejich úloha, služby a nástroje (Vávra a Čížek)
• Standardizace proměnných v sociálněvědním výzkumu (Vávra a Leontiyeva)
• Mezinárodní klasifikace vzdělání a problémy při aplikaci (Soukup)
• Měření sociálního statusu a sociálních tříd na základě povolání (Šafr a Holý)
► II. ZDROJE DAT PRO SOCIÁLNĚVĚDNÍ VÝZKUM
• Mezinárodní sociálněvědní komparativní výzkum a ČR (Krejčí, Chylíková)
• Datová základna české sociologie (Čížek)
• Data z výzkumů volebního chování v České republice (Lyons)
• Data z komparativních politologických šetření (Lyons)
• Šetření ČSÚ a statistiky trhu práce (Mysíková)
• Přehled výzkumů o rodině (Hamplová)
• Mezinárodní výzkumy v oblasti vzdělávání (Soukup)
• Statistiky a výzkumy imigrantů aneb Jak srovnávat nesrovnatelné (Leontiyeva, Chytil)
• Výzkumy věnující se podobám religiozity v České republice po roce 1989 (Váně)
• Výzkum kriminality (Podaná)
Coming soon
Lyons, P. 2012. Theory, Data and Analysis. Data Resources for the Study of Politics in the Czech Republic. Praha: SOÚ. (In Print)
► Theories of Political Attitudes and Public Opinion► Origins and Nature of Political Attitude Surveying► Election Survey Research► Comparative Survey Research► Elite Survey Research► Expert and Manifesto Data Research► Interpretation of Political Survey Data► Conceptualising Survey Data
and Interpretation of Questionnaire Responses
SDÍLENÍ DAT
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 7
Data
nejnižší úroveň abstrakce, z níž je odvozeno poznání
mnoho druhů dat (různé terminologie)
pouze digitální data / digitální i analogová data a materiály
pořízeny za účelem analýzy k vytváření a validizaci původních výzkumných výsledků
► v určitém kontextu data, v jiném to nejsou data
účely využití se mohou v průběhu života dat měnit
primární data vs. odvozená data (různé chápání - datové matice,
kódování inerview jako sekundární); primární vs. sekundární analýza
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 8
Sdílení dat
dopad na proměnu výzkumného prostředí
velké množství dat
nové typy dat
snadná dostupnost přes internet
význam sekundární analýzy
význam spolupráce ve výzkumu
sdílení dat management dat ► při přípravě a vytváření databáze je třeba počítat se
zveřejněním, sdílením a sekundární analýzou
Snímek 9
Formální rámec sdílení dat
Snímek 10
Otevřený přístup k výzkumným datům
“otevřenost znamená přístup za rovných podmínek pro mezinárodní vědeckou komunitu za nejnižší možnou cenu, nejlépe nepřesahující mezní náklady distribuce. Otevřený přístup k výzkumným datům z veřejného financování by měl být snadný, časově nenáročný, uživatelsky přívětivý a nejlépe založený na Internetu.”
(OECD Principles and Guidelines for Access to Research Data ... http://www.oecd.org/dataoecd/9/61/38500813.pdf)
pouze výzkumná data vzniklá z veřejných fondů za účelem veřejně přístupného vědeckého výzkumu
omezení► ochrana soukromí osob a osobních údajů ► ochrana obchodních tajemství a duševního vlastnictví► zajištění národní bezpečnosti► ochrana ohrožených druhů► nenarušení právních jednání (sub judice)
ošetření autorských práv
technické bariéry - chybějící infrastruktura...
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 11
Koncept - cyklus života dat
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 12
ICPSR - fáze managementu dat
Zdroj: ICPSR 2009
DATA A KONCEPCE VÝZKUMU
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 14
Data management a projekt výzkumu
využití existujících databází pro sekundární analýzu
příprava vlastních výzkumných nástrojů ► dotazníky z dokumentace dat► využití existujících dat při ověřování
zajištění formálních a legálních předpokladů pořízení dat a práce s daty
design správy dat; pořádek -> usnadnění analýzy, předcházení chybám
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 15
Review datových zdrojů při psaní projektu
Existují data, která mohou odpovědět na naše výzkumné otázky?
Je možné srovnání s existujícími daty?
Pokud ano, jsou tato data dostupná a za jakých podmínek?
Jsou tato data dostatečně srozumitelná, komplementární a kvalitní?
Jaká data pro zodpovězení našich otázek postrádáme?
Pokud jsou dostupná srovnatelná data, je potřeba záměry srovnávání zohlednit v našich metodikách?
Byly již dříve realizovány podobné výzkumné záměry či metodické postupy nebo využity relevantní výzkumné nástroje?
Pokud ano, je k nim dostupná nějaká dokumentace?
Je možné tuto dokumentaci využít při koncipování našeho výzkumu?
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 16
Etika
etické kodexy a normy (např. WAPOR, ESOMAR, ISO 20252:2006...)
► respondenty je třeba chránit před škodlivými dopady výzkumu i po skončení terénu - tj. při archivaci, zpřístupnění a sekundárním používání dat - informace individuálního charakteru jsou důvěrné; zvláště citlivé údaje
► respondenti jsou svéprávní, mají právo znát účel a způsob využití jimi poskytnutých informací a rozhodovat o možnostech jejich využití - tato rozhodnutí je pak nezbytné respektovat.
► vždy je třeba zajistit adekvátní využití získaných informací v souladu se stanoveným účelem - proto, aby úsilí respondentů nevyšlo vniveč; data pořízená z veřejných zdrojů je třeba maximální využít (-> sdílení dat)
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 17
Ochrana osobních údajů
Zákon č. 101/2000 Sb.► přímé, nepřímé identifikace► osobní údaje, citlivé údaje► informovaný souhlas respondenta► registrace u Úřadu na ochranu osobních údajů
projekt výzkumu► bude potřeba informovaný souhlas respondentů?
• pokud ano, v jakém rozsahu?► budeme data anonymizovat?
Úřad pro ochranu osobních údajů (ÚOOÚ), http://www.uoou.cz
MEDARD, http://medard.soc.cas.cz/
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 18
Informovaný souhlas respondenta
participace dobrovolně a se znalostí a bez nepříznivých důsledkůpodrobné informace, jednoznačné k čemu se souhlas vážena základě přímého jednání
ze zákona:• v jakém rozsahu je poskytován• komu a k jakému účelu• na jaké období• kdo jej poskytuje
šetření:• účel výzkumu• co participace představuje• k čemu je to dobré, jaká jsou rizika• možnost odmítnout• specifikace použití dat• způsob zajištění důvěrnosti• uchování dat• kdo, jak a do kdy bude mít přístup k datům
Snímek 19
Autorská práva
ochrana duševního vlastnictví (IPR)
Zákon 121/2000 Sb.
databáze ► uspořádání, způsob výběru... - autorské dílo souborné► už v době vzniku (nemusí být označeno (c))► ochrana před ztrátou příjmu a morální újmou způsobenou
neautorizovaným šířením► ochraně podléhá dílo, nikoliv fakta v něm uvedená► např. u hloubkového rozhovoru je držitelem práv na záznam
výzkumník, ale k jednotlivým výrokům informant -> svolení► práva jsou osobnostní - nepřenosná (právo osobovat si autorství, změny, dohled
nad plněním povinností ) a majetková (rozmnožování, zveřejňování, vystavování, půjčování, zpřístupnění)
► postoupení licenční smlouvou (užití omezené/neomezené, jednotlivé/veškeré, výhradní/nevýhradní)
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 20
...autorská práva
► lze citovat výňatky nebo celá drobná díla v odůvodněné míře pro účely kritiky, recenze, vědecké či odborné práce
► lze využít pro výukové, ilustrační účely (uvádět autora, název a pramen)
► držiteli autorských práv jsou všichni spoluautoři - tedy členové výzkumného týmu, nikoliv pouze hlavní řešitel projektu
• nikoliv pouze učitel, ale také všichni studenti (ale škola má právo na uzavření licenční smlouvy o užití školního díla)
► porady, technické a administr. či pomocné práce nevedou k autorství ► činnosti dané pracovní smlouvou => zaměstnavatel vykonává svým
jménem autorova majetková práva k dílu► studenti nejsou zaměstnanci univerzity, tj. majetková práva kompletně
na univerzitu nepřecházejí ► akademické instituce majetková práva někdy přenechávají svým
zaměstnancům ► licence typu Creative Commons (tvůrčí společenství)
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 21
Plán managementu dat
systematický plán, jak budou data vytvořena a jak s nimi bude zacházeno během výzkumu (které kroky je třeba realizovat v jednotlivých fázích) i po jeho skončení
ujasnění východisek výzkumu
formalizovaný dokument pro grantovou agenturu
vzory dostupné na Webu
Rozpočet projektu - co nezapomenout
získání informovaného souhlasu
anonymizace
zabezpečení a přístup k datům
digitalizace, transkripce (např. přepis rozhovorů)
formátování a správa souborů
popis dat a kódování
čištění
popis kontextu dat
dokumentace (zjišťování dokumentace v průběhu procesu nebo dodatečně)
metadata (vytváření popisu - dokumentace k datům)
formáty souborů (náklady konverze audiovizuálních dat atp.)
plánování, rozdělení rolí a odpovědnosti (spolupráce více institucí atp.)
operacionalizace (plánování a implementace datového managementu)
viz též UKDA/JISC Costing Tool: http://www.data-archive.ac.uk/media/257647/ukda_jiscdmcosting.pdf
MANAGEMENT DAT V PRŮBĚHU ŘEŠENÍ PROJEKTU
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 24
Cíle managementu dat
integrita dat, kvalita dat - přesnost a správnost výzkumu
srozumitelnost pro všechny potenciální uživatele
efektivita výzkumné práce - čas a náklady
autenticita dat - možnost replikace, opravy analýz
zajištění legálních a formálních předpokladů výzkumu
zabezpečení a zachování dat
zpřístupnění dat
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 25
Pojmenování datových souborů
systematicky, krátké názvy odkazující na obsah a/nebo vznik
rozlišení sérií, verzí a edicí (viz dále)
konzistentní formát
nezávislost jména na lokaci a software► nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena
mohou být při převodu nestabilní (převoditelnost mezi systémy)...
► scalability (rozsah kódu odpovídá počtu verzí, y2k problem...)
když hodně souborů (např. fotografie) lze použít nástroje na automatické přejmenování (batch renaming), např.:
► Ant Renamer (http://www.antp.be/software/renamer)► RenameIT (http://sourceforge.net/prpjects/renameit)► Bulk Rename Utility (http://www.bulkrenameutility.co.uk/)
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 26
Struktura datového souboru
flat file - obdélníkový datový soubor, datová matice
hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností)
relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory)
Příklad: SHARE
Who answers what in the CAPI questionnaire?
mergeid - unique identifier for all waves. “CC-hhhhhh-rr”, “CC” = country code, “hhhhhh”= household identifier,“rr” = respondent identifier within each household
hhid identifies the household to which a person belonged when entering the panel
hhidW identifies the household, where “W” refers to the specific wave
Snímek 29
Proměnnévariable names, varible labels
řazení a označení dotváří strukturu souboru► vzájemné vztahy mezi proměnnými► návaznost na další prvky výzkumu (různé zdroje dat, návaznost na
dotazník, jiné soubory atp.)► pomocné proměnné pro organizaci a správu souboru
variable names = volací znaky v software (nezačínat číslem, 8 míst...) => převoditelnost formátu dat
přehlednost prezentace dat
systémy značení► číselný kód (V001, V002...)► kód odkazující na výzkumný nástroj (Q1a, Q1b...► mnemotechnická jména (BIRTH, EDUC...)
variable labels► srozumitelnost, návaznost na prvky výzkumu (kódy otázek, zdroje dat...),
délka, diakritika
formát proměnné (typ proměnné, počet znaků)► možnosti analýzy, velikost souboru
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 31
Hodnoty proměnných
naměřené hodnoty / odpovědi / audio / video / vzorky ...
numerické kódování - ve všech stat. softwarech => převoditelnost
někdy komplikovaný kognitivní proces (teoreticky a analyticky zal.)► příklad ISCO (Harry Ganzeboom)
kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech
standardizace
dokumentace, značení (value labels)
kódování - samostatný proces u složitějších úloh
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 32
Doporučení ke kódování
Identifikační proměnné na začátku záznamů - jednoznačnost
Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované
Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde
Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům
Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci
Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů
Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i kódovacího schématu
Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd.
Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma
Přebírání kódovacích struktur z jiných šetření - standardizace
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 33
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 34
Chybějící hodnoty
Žádná odpověď (No Answer, NA)
Odmítnutí (Refusal)
Neví (Do not Know, DK)
Chyba zpracování (Processing Error)
Nehodí se (Not Applicable/Inapplicable, NAP, INAP)
Chybí přiřazená hodnota (No Match)
Chybí údaj
jednotný systém kódování
Snímek 35
ESS 4
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 36
Snímek 37
Zajištění integrityvkládání dat - programování software (data-entry, CATI/CAPI)
vývoj technologií a změny koncepce designu
doporučení► nepřetěžovat operátory - kódování a vkládání jako samostatné úlohy ► méně kroků - redukce možností vzniku chyb► specializovaný software umožňuje nastavit platné hodnoty a filtry► dvojí vkládání a srovnání výsledků.► provést kontrolu úplnosti záznamů.► provést logickou kontrolu a kontrolu konzistence dat, např.:
• kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný),
• kontrola nejnižších a nejvyšších hodnot a extrémů,• kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání
by měl odpovídat věk),• srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami
panel. výzk.).
► řadu kontrol lze provádět automaticky za pomoci počítače► určité procento, např. 5 - 10%, by mělo projít podrobnou hlubší kontrolou► změny by měly být dokumentovány a původní data obnovitelná
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 38
Anonymizace
ochrana osobních údajů
odstranění přímých identifikací - anonymní kódy
malé skupiny, nepřímé identifikace► odstranění► agregace údajů, redukce podrobnosti
• geografické a časové informace
► ošetření extrémních hodnot
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 39
Vážení
Jsou v souboru váhy? Mám je použít?► typ vah, popis vah (algoritmus), rozsah a průběh (DOKUMENTACE!)
► jaký je výsledek s váhou a bez váhy?
Designové váhy: kompenzce rozdílu pravděpodobností výběru jednotek v souboru
Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin
Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace
Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům (např. kvůli analýze větších celků (Evropa) v mezinárodní databázi)
Kombinované, celkové váhy
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 40
Snímek 41VAHA
VAHAF
req
ue
ncy
3000
2000
1000
0
Std. Dev = ,90
Mean = ,99
N = 7549,00
Snímek 42
Dokumentace
metadata
porozumění - interpretace► výzkumný tým► ostatní výzkumníci
pravidla, standardy► ESOMAR, WAPOR/AAPOR...
elementy dokumentace předem, protože pořízení podkladů v průběhu celého výzkumu
formát dokumentace► výzkumné nástroje, codebook, syntax, technická/metodologická zpráva,
protokol o experimentu, popis transformací, schéma databáze► mezinárodní standard DDI - standardizovaná struktura, XML formát
tři základní úrovně► projekt► databáze► proměnné a případy
43
Informace o projektu
původ datového souboru► název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...)► institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...)► abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty
popis a metody sběru dat► popis všech zdrojů, z nichž jsou data získána► časové vymezení sběru dat► časové a geografické pokrytí► cílová populace► jednotky pozorování► popis výběrového designu včetně opory► metody sběru dat► původní výzkumný instrument a další materiály použité při sběru dat (zvací
dopisy, pokyny pro tazatele atp.)► použitá klasifikační schémata a koncepty► návratnost a další vyhodnocení (např. známé odchylky od populace)► identifikace změn metodiky u časových sérií a longitudiálních výzkumů
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 44
Informace o databázi
popis datových souborů► specifikace verze a edice souboru (pokud jich je víc)► struktura souborů► specifikace vztahů a propojení► informace o rozsahu (počet záznamů a proměnných)► informace o formátech a kompatibilitě.
editace a modifikace dat► metody a výsledky kontrol integrity, validizace, čištění dat, příp.
dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.)
► anonymizace► transformace a konstrukce odvozených proměnných► vážení (identifikace proměnných pro vážení a popis metod a jejich
konstrukce)
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 45
...informace o databázi
přístup k datům► vymezení přístupnosti, specifikace podmínek používání, informace o
ochraně osobních údajů
katalogizační a citační informace► bibliografická informace, doporučená citace, klíčová slova, katagolizační
údaje
odkazy na související materiály a zdroje, pokud je to relevantní
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 46
Informace o proměnných a případech
informace o proměnných v souboru► jména proměnných► označení a popis proměnných a jejich hodnot včetně popisu
odvozených proměnných► k dispozici by mělo být přesné původní znění otázky► frekvence, základní třídění apod. (?)
informace o případech v souboru► specifikace případů, pokud je to relevantní
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 47
Verze a edice databáze
správa dat, analýzy => více verzí a edicí => strategie jejich správy► jednoznačná identifikace verzí a edicí, přehled o rozdílech► zajištění autenticity (zabránit neautorizovaným zásahům)
doporučení► stanovit podmínky používání dat a seznámit s nimi uživatele► rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců► zavést jednoznačné a systematické značení verzí a edicí datového souboru► vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích ► dokumentovat provedené změny ► zachovávat původní verze datových souborů, resp. materiály umožňující
rekonstrukce původních souborů (např. syntax) ► stanovit „master file“ a přijmout opatření k zachování jeho autenticity, tj. vhodně
jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět
► pokud je více kopií stejné verze, kontrolovat jejich shodnost
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 48
Zálohování, formáty a média
proces - pravidelné zálohování a obnova► digitální média z principu nespolehlivá► software, instituce atd. procházejí změnami + další rizika
kratší čas - operabilita► formáty navázané na kokrétní software, ale lépe jejich transportní verze
(SPSS: *.por)► diakritika => kódování znaků (UTF 8)
delší čas► jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná
dokumentace► PDF/A (archivační verze PDF definovaná ISO)
média► nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození► nejméně dvě různé formy archivace► pravidelné přehrávání na nová média
Snímek 49
Děkuji za pozornost a prosím o Vaše otázky