Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

transcript

Analýza kvantitativních dat III. – praktické aplikace vícerozměrných

statistických metod

Jiří Šafrjiri.safr(AT)seznam.cz

Poslední aktualizace 5/6/2014

UK FHSHistorická sociologie

Jak psát empirickou část odborného textu:

Popisné statistiky a bivariátní vztahy

Jak psát empirickou část textu

(nejen) v diplomce

(bude doplněno)

Postup jak (začít) psát …

• 1. závislá proměnná(é)

• s ní si vyhrajte, nepůjde již v hotovém textu měnit

• Koncept/operacionalizace/jednotky/ rekódování, deskripce (variance, rozložení,…),, zakotvení (porovnání s výsledky jiných výzkumů)

Postup jak (začít) psát …

• Rozpracovat si projekt (diplomovou práci) na otázky

• Podle těchto otázek udělat (pod)kapitoly (v1. kroku stačí nadpisy + anotace)

• otázky by měly být stupňovitě do sebe zapadající (→ co je třeba vyřešit nejdříve, co nelze bez jiného předchozího kroku, co naopak ano a co tedy lze odložit na později … ?)

Struktura textu empirické části

1. popis závislé proměnné – ne tupě ale zakotveně interpretovat (např. vývoj v čase)

2. bivariátní vztahy – ty nejdůležitější z hlediska teorie

3. multivariační analýza (např. regrese, modely=hypotézy)

4. interakce (nejlépe dle teorie)

5. grafické znázornění čistých efektů (estimated effect size)

Presentace tabulek s s popisnými statistikami

nejen pro závislou (vysvětlovanou) proměnnou

Popisné statistiky pro závislou i nezávislé proměnné

Zdroj: [Katrňák 2006: 181]

Základní tabulka třídění 1. stupně pro několik znaků dohromady.

Máme zde počet platných případů,střední hodnotu (průměr) což nemusí být vždy ideální, směrodatnou odchylkua popis hodnot u kategoriálních znaků.Někdy se tato tabulka dává pouze do přílohy.

Efektivní presentace tabulek

• Jednou z možností je „Linkova“ tabulka: Kombinované tabulky třídění 2.stupně pro několik nezávislých proměnných → bivariátní profil naší hlavní závislé proměnné(ých)

Komplexní „profilová“ tabulka třídění 2. stupně (několik nezávislých znaků), pro dvě závislé proměnnéZávislé proměnné jsou sice spojité-kardinální (dále analyzovány v OLS), zde ale pro přehlednost pouze % souhlasu a nesouhlasu.

Nezávislé proměnné mají co nejmenší počet kategorií → přehlednost rozdílů.

Alternativně by šlo ukazovat průměry závislé proměnné, ale takto máme z věcného hlediska mnohem lepší materiál k interpretaci.Vytvořeno v Excelu ze série kontingenčních tabulek z SPSS. V SPSS by bylo možno udělat celou tabulku pomocí modulu Tables.

Tabulka X.3. Podpora distributivních ideologií v jednotlivých sociálních skupinách společnosti v roce 2006 (řádková procenta) Rovnostářství EQUAL Zásluhovost EQUITY A B N A B N Celkem 55 10 1192 6 76 1197 Pohlaví

Muž 55 11 504 6 76 506 Žena 56 10 688 6 76 691

Věk 18–29 let 59 9 187 10 73 187 30–49 let 55 10 397 7 76 398 50 let a více 54 11 602 4 78 606

Vzdělání základní nebo žádné 44 15 150 7 75 150 střední bez maturity 50 13 474 5 75 476 střední s maturitou 63 7 404 7 75 407 univerzitní 62 5 164 4 84 164

Subjektivní sociální status nízký 48 15 535 5 76 538 střední 59 8 488 6 76 490 vysoký 75 2 109 4 84 109

Zaměstnanecký status nezaměstnaný/á 26 24 42 5 76 42 zaměstnanec/kyně na plný úvazek 56 10 470 9 73 472 samostatně činný/á nebo podnikatel

80 4 85 7 82 85

Měsíční příjem domácnosti do 14 tisíc Kč 48 11 237 4 76 239 od 14 do 20 tisíc Kč 47 15 246 5 80 247 od 20 do 30 tisíc Kč 55 10 253 9 72 253 nad 30 tisíc Kč 68 3 148 3 78 148

Návštěva bohoslužeb nikdy je nenavštěvuje 55 11 696 5 78 699 navštěvuje je jednou nebo vícekrát týdně

39 15 89 6 84 90

Politická orientace (sebezařazení) levice (0–2) 33 29 119 8 74 119 střed (3–7) 55 9 635 5 76 636 pravice (8–10) 69 5 259 7 80 260

Hodnocení legitimity demokratického režimu (LEG1)

pozitivní 45 16 401 7 71 401 ostatní 61 6 666 4 81 669

Zdroj: ISSP 2006 (nevážená data). Poznámka: Sloupec A obsahuje nesouhlas, sloupec B souhlas. Prostřední kategorie není uvedena; její hodnota činí dopočet do 100 procent.

Zdroj: [Šafr, nepublikovaný rukopis]

Prezentace základních bivariátních vztahů

Většinou máme jednu (či více) závislou-vysvětlovanou proměnnou a naše hlavní

hypotézy (a v nich nezávislé znaky).

Nejprve vztahy dané hypotézami můžeme sledovat jednoduše bivariátně.

Základní bivariátní vztah Příklad (oba znaky kategoriální-ordinální).

závislá proměnná: vzdělanostní aspirace dítěte, nezávislá: aspirace rodičů

Zdroj: [Katrňák 2006: 180]

Základní bivariátní vztah Příklad (oba znaky kategoriální: nominální a ordinální). závislá proměnná: způsob získání 1. pracovního místa, nezávislá: vzdělání

Zdroj: [Hauberer, Šafr 2012: 58]

Základní bivariátní vztah Příklad: závislá proměnná (kardinální): Pro-čtenářské klima

rodiny ve 3 dimenzích, nezávislá (kategoriální-ordinální): vzdělání

Zdroj: [Gorčíková, Šafr 2012: 75]

Závislé proměnné jsou spojité-kardinální a standardizované na z-skóry, tj. mají stejnou metriku-rozsah (dále byly

analyzovány v OLS).

Pokud i nezávislá proměnná je kardinální, lze X-Y (scatterplot) graf, ale někdy je interpretačně zajímavější jednu z proměnných kategorizovat a pak ukazovat průměry v podskupinách.

Pochopitelně jsou i jiné varianty znaků a možnosti prezentace

Doplníme …

Průnik pro platné případy (effective sample)

Analýzy v textu by měly být provedeny na konsistentním podsouboru se stejným počtem platných případů

(průnik)

Průnik pro platné případy (effective sample)• Zvolte průnik pro platné případy (princip LISTWISE vyřazení

missingů), který se v textu nebude měnit (effective sample), může jít jen o kapitolu (její části) nebo o celý text.

• Tj. všechny tabulky/analýzy by měly být založeny na jednom podsouboru, tj. stejném počtu případů.

• Proto nejprve vše zkontrolovat, nejjednodušeji velikost průniku zjistíme pomocí DESCRIPTIVES (viz dále)

• Počet chybějících hodnot (missingů) u závislé proměnné je pořád stejný, ale může se měnit podle nezávislých proměnných.

• Problém může být, že celkový průnik missingů všech analyzovaných proměnných může být již příliš velký (> 5%). → kontrolovat reprezentativitu analyzovaného podsouboru.

• Pak lze zvážit pro nezávislé proměnné:a) „zahrnutí chybějících hodnot“ do analýzy nejjednodušeji pomocí nahrazení průměrem (Replace with Mean). To samotné se ale nedoporučuje, lepší volba je to doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy var) a testovat její statistickou významnost.b) Imputaci hodnot - existují sofistikované metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných.

Chybějící hodnoty v datech mohou být:

• Missing completely at random (MCAR)→ ideální situace, výsledky nejsou zkreslené (biased)

• Missing at random (MAR)→ chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny

• Not missing at random (NMAR) → chybějící hodnoty jsou něčím (nenáhodně) podmíněny → problém zkreslení výsledků

Kontrola reprezentativity analyzovaného podsouboru celkově platných případů, filtr na effective sample

• Pro kontrolu si vytvoříme filtr s celkovým průnikem platných případů (prostým součtem všech platných hodnot všech proměnných): COMPUTE Fi_Lsw6v = Závislá+Nezávislá1+Nezávislá2+Nezávislá3 atd. RECODE Fi_Lsw6v (low thru highest =1).

• Nebo COUNT Fi_Lsw6v = s27 vek prijem s30 s18 vzd3 (SYSMIS MISSING). /* pozor toto zadání předpokládá, že jsou již ošetřeny missingy a je ve výsledku opačné.RECODE Fi_Lsw6v (0 =1) (1 thru highest =0).

• A jednoduchá kontrola reprezentativity, např. CROSS vekkat by Fi_Listw /cel col.

• A na všechny bivariátní analýzy zapneme filtr pro podskupinu platných případů.FILTER BY Fi_Lsw6v.

Sedm principů psaní „o číslech“1. Ustavte kontext pro čísla, která budete prezentovat tím, že

specifikujete „Ws“ (Co/Kdo/Kde/Kdy?).2. Zvolte adekvátní příklady a analogie.3. Zvolte slovník (pojmy), které zavedete. Definujte synonyma pro

koncepty, které budete užívat (a jen ty používejte v textu). Nahraďte matematicko-statistický slovník a symboly výrazy běžného jazyka srozumitelného pro netechnické čtenáře.

4. Rozhodněte se, zda čísla budete presentovat v tabulkách nebo grafech. Zamyslete se kolik času bude čtenář potřebovat na zpracování čísel → omezte ukazování čísel (opisování z tabulek do textu). Používejte krom čísel také slovní vyjádření (místo čísla s % lze slovně vyjádřené zlomky).

5. Uveďte čísla a interpretujte je v textu. Uveďte je a uveďte jejich význam a smysl. Interpretujte je a to ve vztahu k hlavnímu tématu.

6. Specifikujte směr a velikost asociace mezi proměnnými.Pokud je trend: roste/ klesá? Pokud rozdíly mezi skupinami/místy: kdo má nejvyšší/ nejnižší hodnotu?

7. K popisu vztahu mezi mnoha čísly: sumarizujte celkový vzorec spíš než všechna jednotlivá čísla.Najděte nejlepší generalizaci pro data. Uveďte jí na příkladech čísel z tabulky grafu. A také, je-li, popište trend, který tomuto obecnému trendu neodpovídá (tj. výjimky z trendu/ vzorce asociace).

Zdroj: [Miller 2005: 33]

Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Documents