+ All Categories
Home > Documents > Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Date post: 27-Jan-2016
Category:
Upload: derora
View: 34 times
Download: 0 times
Share this document with a friend
Description:
Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilsk á 1, 110 00 Praha 1, Česká republika ; http://archiv.soc.cas.cz. Doktorandský seminář Katedry sociologie FF UK 28. listopadu 2012, Sociologický ústav AV ČR. Úvod do m anagementu dat Jindřich Krejčí - PowerPoint PPT Presentation
49
Úvod do managementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA [email protected] Doktorandský seminář Katedry sociologie FF UK 28. listopadu 2012, Sociologický ústav AV ČR Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilská 1, 110 00 Praha 1, Česká republika; http://archiv.soc.cas.cz
Transcript
Page 1: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Úvod do managementu datJindřich KrejčíSociologický ústav AV ČR, Č[email protected]

Doktorandský seminář Katedry sociologie FF UK 28. listopadu 2012, Sociologický ústav AV ČR

Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i.Jilská 1, 110 00 Praha 1, Česká republika; http://archiv.soc.cas.cz

Page 2: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

SDÍLENÍ DAT

DATA A KONCEPCE VÝZKUMU

MANAGEMENT DAT V PRŮBĚHU ŘEŠENÍ PROJEKTU

Page 3: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 3

Literatura

Humprey, Ch. 2006. e-Science and the Life Cycle of Research. http://datalib.library.ualberta.ca/~humphrey/lifecycle-science060308.doc

ICPSR. 2012. Guide to Social Science Data Preparation and Archiving. Best Practice Throughout the Data Life Cycle. 5-th Edition. Ann Arbor:ICPSR http://www.icpsr.umich.edu/files/ICPSR/access/dataprep.pdf

Eynden, V., L. Corti, M. Woolard, L. Bishop, L. Horton. 2011. Managing and Sharing Data. Colchester: UK Data Archive (UKDA). http://www.data-archive.ac.uk/media/2894/managingsharing.pdf

Sekce Management dat na Webu ČSDAhttp://archiv.soc.cas.cz/articles/cz/95/MANAGEMENT-DAT.html

Sekce Sharing data na Webu CESSDAhttp://www.cessda.org/sharing/

Page 4: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí, J., Y. Leontiyeva (eds.). 2012. Praha: SLON (v tisku).

► I. MANAGEMENT DAT VE VÝZKUMNÉM PROJEKTU A ARCHIVACE DAT

• Koncepce správy dat a výzkumný projekt (Krejčí)

• Založení a správa datového souboru v průběhu výzkumného projektu (Krejčí)

• Standardy dokumentace a archivace dat (Krejčí a Vávra)

• Sociálněvědní datové archivy: jejich úloha, služby a nástroje (Vávra a Čížek)

• Standardizace proměnných v sociálněvědním výzkumu (Vávra a Leontiyeva)

• Mezinárodní klasifikace vzdělání a problémy při aplikaci (Soukup)

• Měření sociálního statusu a sociálních tříd na základě povolání (Šafr a Holý)

► II. ZDROJE DAT PRO SOCIÁLNĚVĚDNÍ VÝZKUM

• Mezinárodní sociálněvědní komparativní výzkum a ČR (Krejčí, Chylíková)

• Datová základna české sociologie (Čížek)

• Data z výzkumů volebního chování v České republice (Lyons)

• Data z komparativních politologických šetření (Lyons)

• Šetření ČSÚ a statistiky trhu práce (Mysíková)

• Přehled výzkumů o rodině (Hamplová)

• Mezinárodní výzkumy v oblasti vzdělávání (Soukup)

• Statistiky a výzkumy imigrantů aneb Jak srovnávat nesrovnatelné (Leontiyeva, Chytil)

• Výzkumy věnující se podobám religiozity v České republice po roce 1989 (Váně)

• Výzkum kriminality (Podaná)

Page 5: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Coming soon

Lyons, P. 2012. Theory, Data and Analysis. Data Resources for the Study of Politics in the Czech Republic. Praha: SOÚ. (In Print)

► Theories of Political Attitudes and Public Opinion► Origins and Nature of Political Attitude Surveying► Election Survey Research► Comparative Survey Research► Elite Survey Research► Expert and Manifesto Data Research► Interpretation of Political Survey Data► Conceptualising Survey Data

and Interpretation of Questionnaire Responses

Page 6: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

SDÍLENÍ DAT

Page 7: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 7

Data

nejnižší úroveň abstrakce, z níž je odvozeno poznání

mnoho druhů dat (různé terminologie)

pouze digitální data / digitální i analogová data a materiály

pořízeny za účelem analýzy k vytváření a validizaci původních výzkumných výsledků

► v určitém kontextu data, v jiném to nejsou data

účely využití se mohou v průběhu života dat měnit

primární data vs. odvozená data (různé chápání - datové matice,

kódování inerview jako sekundární); primární vs. sekundární analýza

Page 8: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 8

Sdílení dat

dopad na proměnu výzkumného prostředí

velké množství dat

nové typy dat

snadná dostupnost přes internet

význam sekundární analýzy

význam spolupráce ve výzkumu

sdílení dat management dat ► při přípravě a vytváření databáze je třeba počítat se

zveřejněním, sdílením a sekundární analýzou

Page 9: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Snímek 9

Formální rámec sdílení dat

Page 10: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Snímek 10

Otevřený přístup k výzkumným datům

“otevřenost znamená přístup za rovných podmínek pro mezinárodní vědeckou komunitu za nejnižší možnou cenu, nejlépe nepřesahující mezní náklady distribuce. Otevřený přístup k výzkumným datům z veřejného financování by měl být snadný, časově nenáročný, uživatelsky přívětivý a nejlépe založený na Internetu.”

(OECD Principles and Guidelines for Access to Research Data ... http://www.oecd.org/dataoecd/9/61/38500813.pdf)

pouze výzkumná data vzniklá z veřejných fondů za účelem veřejně přístupného vědeckého výzkumu

omezení► ochrana soukromí osob a osobních údajů ► ochrana obchodních tajemství a duševního vlastnictví► zajištění národní bezpečnosti► ochrana ohrožených druhů► nenarušení právních jednání (sub judice)

ošetření autorských práv

technické bariéry - chybějící infrastruktura...

Page 11: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 11

Koncept - cyklus života dat

Page 12: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 12

ICPSR - fáze managementu dat

Zdroj: ICPSR 2009

Page 13: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

DATA A KONCEPCE VÝZKUMU

Page 14: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 14

Data management a projekt výzkumu

využití existujících databází pro sekundární analýzu

příprava vlastních výzkumných nástrojů ► dotazníky z dokumentace dat► využití existujících dat při ověřování

zajištění formálních a legálních předpokladů pořízení dat a práce s daty

design správy dat; pořádek -> usnadnění analýzy, předcházení chybám

Page 15: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 15

Review datových zdrojů při psaní projektu

Existují data, která mohou odpovědět na naše výzkumné otázky?

Je možné srovnání s existujícími daty?

Pokud ano, jsou tato data dostupná a za jakých podmínek?

Jsou tato data dostatečně srozumitelná, komplementární a kvalitní?

Jaká data pro zodpovězení našich otázek postrádáme?

Pokud jsou dostupná srovnatelná data, je potřeba záměry srovnávání zohlednit v našich metodikách?

Byly již dříve realizovány podobné výzkumné záměry či metodické postupy nebo využity relevantní výzkumné nástroje?

Pokud ano, je k nim dostupná nějaká dokumentace?

Je možné tuto dokumentaci využít při koncipování našeho výzkumu?

Page 16: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 16

Etika

etické kodexy a normy (např. WAPOR, ESOMAR, ISO 20252:2006...)

► respondenty je třeba chránit před škodlivými dopady výzkumu i po skončení terénu - tj. při archivaci, zpřístupnění a sekundárním používání dat - informace individuálního charakteru jsou důvěrné; zvláště citlivé údaje

► respondenti jsou svéprávní, mají právo znát účel a způsob využití jimi poskytnutých informací a rozhodovat o možnostech jejich využití - tato rozhodnutí je pak nezbytné respektovat.

► vždy je třeba zajistit adekvátní využití získaných informací v souladu se stanoveným účelem - proto, aby úsilí respondentů nevyšlo vniveč; data pořízená z veřejných zdrojů je třeba maximální využít (-> sdílení dat)

Page 17: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 17

Ochrana osobních údajů

Zákon č. 101/2000 Sb.► přímé, nepřímé identifikace► osobní údaje, citlivé údaje► informovaný souhlas respondenta► registrace u Úřadu na ochranu osobních údajů

projekt výzkumu► bude potřeba informovaný souhlas respondentů?

• pokud ano, v jakém rozsahu?► budeme data anonymizovat?

Úřad pro ochranu osobních údajů (ÚOOÚ), http://www.uoou.cz

MEDARD, http://medard.soc.cas.cz/

Page 18: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 18

Informovaný souhlas respondenta

participace dobrovolně a se znalostí a bez nepříznivých důsledkůpodrobné informace, jednoznačné k čemu se souhlas vážena základě přímého jednání

ze zákona:• v jakém rozsahu je poskytován• komu a k jakému účelu• na jaké období• kdo jej poskytuje

šetření:• účel výzkumu• co participace představuje• k čemu je to dobré, jaká jsou rizika• možnost odmítnout• specifikace použití dat• způsob zajištění důvěrnosti• uchování dat• kdo, jak a do kdy bude mít přístup k datům

Page 19: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Snímek 19

Autorská práva

ochrana duševního vlastnictví (IPR)

Zákon 121/2000 Sb.

databáze ► uspořádání, způsob výběru... - autorské dílo souborné► už v době vzniku (nemusí být označeno (c))► ochrana před ztrátou příjmu a morální újmou způsobenou

neautorizovaným šířením► ochraně podléhá dílo, nikoliv fakta v něm uvedená► např. u hloubkového rozhovoru je držitelem práv na záznam

výzkumník, ale k jednotlivým výrokům informant -> svolení► práva jsou osobnostní - nepřenosná (právo osobovat si autorství, změny, dohled

nad plněním povinností ) a majetková (rozmnožování, zveřejňování, vystavování, půjčování, zpřístupnění)

► postoupení licenční smlouvou (užití omezené/neomezené, jednotlivé/veškeré, výhradní/nevýhradní)

Page 20: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 20

...autorská práva

► lze citovat výňatky nebo celá drobná díla v odůvodněné míře pro účely kritiky, recenze, vědecké či odborné práce

► lze využít pro výukové, ilustrační účely (uvádět autora, název a pramen)

► držiteli autorských práv jsou všichni spoluautoři - tedy členové výzkumného týmu, nikoliv pouze hlavní řešitel projektu

• nikoliv pouze učitel, ale také všichni studenti (ale škola má právo na uzavření licenční smlouvy o užití školního díla)

► porady, technické a administr. či pomocné práce nevedou k autorství ► činnosti dané pracovní smlouvou => zaměstnavatel vykonává svým

jménem autorova majetková práva k dílu► studenti nejsou zaměstnanci univerzity, tj. majetková práva kompletně

na univerzitu nepřecházejí ► akademické instituce majetková práva někdy přenechávají svým

zaměstnancům ► licence typu Creative Commons (tvůrčí společenství)

Page 21: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 21

Plán managementu dat

systematický plán, jak budou data vytvořena a jak s nimi bude zacházeno během výzkumu (které kroky je třeba realizovat v jednotlivých fázích) i po jeho skončení

ujasnění východisek výzkumu

formalizovaný dokument pro grantovou agenturu

vzory dostupné na Webu

Page 22: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Rozpočet projektu - co nezapomenout

získání informovaného souhlasu

anonymizace

zabezpečení a přístup k datům

digitalizace, transkripce (např. přepis rozhovorů)

formátování a správa souborů

popis dat a kódování

čištění

popis kontextu dat

dokumentace (zjišťování dokumentace v průběhu procesu nebo dodatečně)

metadata (vytváření popisu - dokumentace k datům)

formáty souborů (náklady konverze audiovizuálních dat atp.)

plánování, rozdělení rolí a odpovědnosti (spolupráce více institucí atp.)

operacionalizace (plánování a implementace datového managementu)

viz též UKDA/JISC Costing Tool: http://www.data-archive.ac.uk/media/257647/ukda_jiscdmcosting.pdf

Page 23: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

MANAGEMENT DAT V PRŮBĚHU ŘEŠENÍ PROJEKTU

Page 24: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 24

Cíle managementu dat

integrita dat, kvalita dat - přesnost a správnost výzkumu

srozumitelnost pro všechny potenciální uživatele

efektivita výzkumné práce - čas a náklady

autenticita dat - možnost replikace, opravy analýz

zajištění legálních a formálních předpokladů výzkumu

zabezpečení a zachování dat

zpřístupnění dat

Page 25: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 25

Pojmenování datových souborů

systematicky, krátké názvy odkazující na obsah a/nebo vznik

rozlišení sérií, verzí a edicí (viz dále)

konzistentní formát

nezávislost jména na lokaci a software► nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena

mohou být při převodu nestabilní (převoditelnost mezi systémy)...

► scalability (rozsah kódu odpovídá počtu verzí, y2k problem...)

když hodně souborů (např. fotografie) lze použít nástroje na automatické přejmenování (batch renaming), např.:

► Ant Renamer (http://www.antp.be/software/renamer)► RenameIT (http://sourceforge.net/prpjects/renameit)► Bulk Rename Utility (http://www.bulkrenameutility.co.uk/)

Page 26: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 26

Struktura datového souboru

flat file - obdélníkový datový soubor, datová matice

hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností)

relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory)

Page 27: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Příklad: SHARE

Page 28: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Who answers what in the CAPI questionnaire?

mergeid - unique identifier for all waves. “CC-hhhhhh-rr”, “CC” = country code, “hhhhhh”= household identifier,“rr” = respondent identifier within each household

hhid identifies the household to which a person belonged when entering the panel

hhidW identifies the household, where “W” refers to the specific wave

Page 29: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Snímek 29

Proměnnévariable names, varible labels

řazení a označení dotváří strukturu souboru► vzájemné vztahy mezi proměnnými► návaznost na další prvky výzkumu (různé zdroje dat, návaznost na

dotazník, jiné soubory atp.)► pomocné proměnné pro organizaci a správu souboru

variable names = volací znaky v software (nezačínat číslem, 8 míst...) => převoditelnost formátu dat

přehlednost prezentace dat

systémy značení► číselný kód (V001, V002...)► kód odkazující na výzkumný nástroj (Q1a, Q1b...► mnemotechnická jména (BIRTH, EDUC...)

variable labels► srozumitelnost, návaznost na prvky výzkumu (kódy otázek, zdroje dat...),

délka, diakritika

formát proměnné (typ proměnné, počet znaků)► možnosti analýzy, velikost souboru

Page 30: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA
Page 31: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 31

Hodnoty proměnných

naměřené hodnoty / odpovědi / audio / video / vzorky ...

numerické kódování - ve všech stat. softwarech => převoditelnost

někdy komplikovaný kognitivní proces (teoreticky a analyticky zal.)► příklad ISCO (Harry Ganzeboom)

kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech

standardizace

dokumentace, značení (value labels)

kódování - samostatný proces u složitějších úloh

Page 32: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 32

Doporučení ke kódování

Identifikační proměnné na začátku záznamů - jednoznačnost

Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované

Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde

Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům

Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci

Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů

Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i kódovacího schématu

Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd.

Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma

Přebírání kódovacích struktur z jiných šetření - standardizace

Page 33: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 33

Page 34: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 34

Chybějící hodnoty

Žádná odpověď (No Answer, NA)

Odmítnutí (Refusal)

Neví (Do not Know, DK)

Chyba zpracování (Processing Error)

Nehodí se (Not Applicable/Inapplicable, NAP, INAP)

Chybí přiřazená hodnota (No Match)

Chybí údaj

jednotný systém kódování

Page 35: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Snímek 35

ESS 4

Page 36: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 36

Page 37: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Snímek 37

Zajištění integrityvkládání dat - programování software (data-entry, CATI/CAPI)

vývoj technologií a změny koncepce designu

doporučení► nepřetěžovat operátory - kódování a vkládání jako samostatné úlohy ► méně kroků - redukce možností vzniku chyb► specializovaný software umožňuje nastavit platné hodnoty a filtry► dvojí vkládání a srovnání výsledků.► provést kontrolu úplnosti záznamů.► provést logickou kontrolu a kontrolu konzistence dat, např.:

• kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný),

• kontrola nejnižších a nejvyšších hodnot a extrémů,• kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání

by měl odpovídat věk),• srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami

panel. výzk.).

► řadu kontrol lze provádět automaticky za pomoci počítače► určité procento, např. 5 - 10%, by mělo projít podrobnou hlubší kontrolou► změny by měly být dokumentovány a původní data obnovitelná

Page 38: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 38

Anonymizace

ochrana osobních údajů

odstranění přímých identifikací - anonymní kódy

malé skupiny, nepřímé identifikace► odstranění► agregace údajů, redukce podrobnosti

• geografické a časové informace

► ošetření extrémních hodnot

Page 39: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 39

Vážení

Jsou v souboru váhy? Mám je použít?► typ vah, popis vah (algoritmus), rozsah a průběh (DOKUMENTACE!)

► jaký je výsledek s váhou a bez váhy?

Designové váhy: kompenzce rozdílu pravděpodobností výběru jednotek v souboru

Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin

Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace

Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům (např. kvůli analýze větších celků (Evropa) v mezinárodní databázi)

Kombinované, celkové váhy

Page 40: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 40

Page 41: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Snímek 41VAHA

VAHAF

req

ue

ncy

3000

2000

1000

0

Std. Dev = ,90

Mean = ,99

N = 7549,00

Page 42: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Snímek 42

Dokumentace

metadata

porozumění - interpretace► výzkumný tým► ostatní výzkumníci

pravidla, standardy► ESOMAR, WAPOR/AAPOR...

elementy dokumentace předem, protože pořízení podkladů v průběhu celého výzkumu

formát dokumentace► výzkumné nástroje, codebook, syntax, technická/metodologická zpráva,

protokol o experimentu, popis transformací, schéma databáze► mezinárodní standard DDI - standardizovaná struktura, XML formát

tři základní úrovně► projekt► databáze► proměnné a případy

Page 43: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

43

Informace o projektu

původ datového souboru► název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...)► institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...)► abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty

popis a metody sběru dat► popis všech zdrojů, z nichž jsou data získána► časové vymezení sběru dat► časové a geografické pokrytí► cílová populace► jednotky pozorování► popis výběrového designu včetně opory► metody sběru dat► původní výzkumný instrument a další materiály použité při sběru dat (zvací

dopisy, pokyny pro tazatele atp.)► použitá klasifikační schémata a koncepty► návratnost a další vyhodnocení (např. známé odchylky od populace)► identifikace změn metodiky u časových sérií a longitudiálních výzkumů

Page 44: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 44

Informace o databázi

popis datových souborů► specifikace verze a edice souboru (pokud jich je víc)► struktura souborů► specifikace vztahů a propojení► informace o rozsahu (počet záznamů a proměnných)► informace o formátech a kompatibilitě.

editace a modifikace dat► metody a výsledky kontrol integrity, validizace, čištění dat, příp.

dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.)

► anonymizace► transformace a konstrukce odvozených proměnných► vážení (identifikace proměnných pro vážení a popis metod a jejich

konstrukce)

Page 45: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 45

...informace o databázi

přístup k datům► vymezení přístupnosti, specifikace podmínek používání, informace o

ochraně osobních údajů

katalogizační a citační informace► bibliografická informace, doporučená citace, klíčová slova, katagolizační

údaje

odkazy na související materiály a zdroje, pokud je to relevantní

Page 46: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 46

Informace o proměnných a případech

informace o proměnných v souboru► jména proměnných► označení a popis proměnných a jejich hodnot včetně popisu

odvozených proměnných► k dispozici by mělo být přesné původní znění otázky► frekvence, základní třídění apod. (?)

informace o případech v souboru► specifikace případů, pokud je to relevantní

Page 47: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 47

Verze a edice databáze

správa dat, analýzy => více verzí a edicí => strategie jejich správy► jednoznačná identifikace verzí a edicí, přehled o rozdílech► zajištění autenticity (zabránit neautorizovaným zásahům)

doporučení► stanovit podmínky používání dat a seznámit s nimi uživatele► rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců► zavést jednoznačné a systematické značení verzí a edicí datového souboru► vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích ► dokumentovat provedené změny ► zachovávat původní verze datových souborů, resp. materiály umožňující

rekonstrukce původních souborů (např. syntax) ► stanovit „master file“ a přijmout opatření k zachování jeho autenticity, tj. vhodně

jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět

► pokud je více kopií stejné verze, kontrolovat jejich shodnost

Page 48: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Krejčí: Úvod do managementu dat; listopad 2012 Snímek 48

Zálohování, formáty a média

proces - pravidelné zálohování a obnova► digitální média z principu nespolehlivá► software, instituce atd. procházejí změnami + další rizika

kratší čas - operabilita► formáty navázané na kokrétní software, ale lépe jejich transportní verze

(SPSS: *.por)► diakritika => kódování znaků (UTF 8)

delší čas► jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná

dokumentace► PDF/A (archivační verze PDF definovaná ISO)

média► nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození► nejméně dvě různé formy archivace► pravidelné přehrávání na nová média

Page 49: Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA

Snímek 49

Děkuji za pozornost a prosím o Vaše otázky


Recommended