ZPRACOVÁVÁME KVANTITATIVNÍ DATA I.

transcript

ZPRACOVÁVÁMEZPRACOVÁVÁMEKVANTITATIVNÍ KVANTITATIVNÍ

DATA I.DATA I.Mgr. Karla HrbáčkováMgr. Karla Hrbáčková

Metodologie pedagogického Metodologie pedagogického výzkumuvýzkumu

18. 4. 200718. 4. 2007

„„SOUVISLOST“SOUVISLOST“

Kvantitativní výzkum – testování Kvantitativní výzkum – testování hypotézhypotéz

Jeho silnou stránkou je schopnost nám Jeho silnou stránkou je schopnost nám říct, jak moc se mýlíme.říct, jak moc se mýlíme.

Testování hypotéz – produkce výroků o Testování hypotéz – produkce výroků o tom, jak silně proměnné souvisí (jaká tom, jak silně proměnné souvisí (jaká je mezi nimi míra korelace – hodně, je mezi nimi míra korelace – hodně, malinko).malinko).

OMYLOMYL Představte si, že máte v rukou obálku s vyplněným Představte si, že máte v rukou obálku s vyplněným

dotazníkem z výzkumu na celostátním vzorku dotazníkem z výzkumu na celostátním vzorku dospělého obyvatelstva. Váš úkol je odhadnout, jaké dospělého obyvatelstva. Váš úkol je odhadnout, jaké je pohlaví respondenta, jehož dotazník je v obálce je pohlaví respondenta, jehož dotazník je v obálce (jaká je pravděpodobnost správného odhadu?).(jaká je pravděpodobnost správného odhadu?).

Představte si, že z obálky vyčtete odpověď na Představte si, že z obálky vyčtete odpověď na následující otázku. následující otázku.

Užíváte někdy rtěnku? ANO x NEUžíváte někdy rtěnku? ANO x NE Pravděpodobnost správného odhadu je mnohem Pravděpodobnost správného odhadu je mnohem

vyšší.vyšší. Můžeme tedy říci, že mezi proměnnými „pohlaví“ Můžeme tedy říci, že mezi proměnnými „pohlaví“ a „používání rtěnky“ existuje souvislost.a „používání rtěnky“ existuje souvislost. Souvislost může být definována jako přírůstek Souvislost může být definována jako přírůstek v pravděpodobnosti správného odhadu jedné v pravděpodobnosti správného odhadu jedné

proměnné, za který vděčíme naší znalosti o jiné proměnné, za který vděčíme naší znalosti o jiné proměnné. proměnné.

Příklad souvislostiPříklad souvislosti

Geometrie MatematikaGeometrie Matematika

AA BB CC DD

AA 50%50% 35%35% 10%10% 0%0%

BB 45%45% 55%55% 25%25% 10%10%

CC 5%5% 8%8% 55%55% 10%10%

DD 0%0% 2%2% 10%10% 80%80%

NN 100100%%

150150

100100%%

360360

100100%%

400400

100100%%

5050Říká nám tato tabulka něco o souvislosti mezi známkou z G a M?

Co by to znamenalo, kdyby vedla diagonála obráceně?

PříkladPříkladAA BB CC DD

MM Je nějaká souvislost mezi proměnným v tabulce?Je nějaká souvislost mezi proměnným v tabulce? X reprezentuje volební obvody, Y politické strany. X reprezentuje volební obvody, Y politické strany. Když známe hodnotu X, odhadneme hodnotu Y!Když známe hodnotu X, odhadneme hodnotu Y! Statistika – srovnání nalezené distribuce pozorování Statistika – srovnání nalezené distribuce pozorování

do polí tabulky s takovou distribucí, jakou bychom do polí tabulky s takovou distribucí, jakou bychom obdrželi, kdyby byla pozorování zařazena do polí obdrželi, kdyby byla pozorování zařazena do polí tabulky náhodně.tabulky náhodně.

Proměnná X

Proměnná Y

Redukce informacíRedukce informací Průměrný počet půllitrů vypitý během jednoho Průměrný počet půllitrů vypitý během jednoho

týdne:týdne: muži: 8muži: 8 ženy: 2ženy: 2 Více věříme průměru, který byl vypočítán na Více věříme průměru, který byl vypočítán na

vzorku 500 pozorování, než průměru vzorku 500 pozorování, než průměru vypočítaném pro vzorek 5 jedinců.vypočítaném pro vzorek 5 jedinců.

Často je pro nás výhodné vyjádřit informaci o Často je pro nás výhodné vyjádřit informaci o vzorku v co nejjednodušší formě (ale stačí vzorku v co nejjednodušší formě (ale stačí nám průměr?)nám průměr?)

Jaká mají data rozložení? Míry centrální Jaká mají data rozložení? Míry centrální tendence, míry variability, míry koncentrace.tendence, míry variability, míry koncentrace.

Průměr a jiné reprezentace středních hodnot Průměr a jiné reprezentace středních hodnot redukují informaci do jednoho údaje podle redukují informaci do jednoho údaje podle druhu dat!druhu dat!

Statistické operace z různých Statistické operace z různých druhů měřenídruhů měření

NOMINÁLNÍ MĚŘENÍ – četnosti, %, NOMINÁLNÍ MĚŘENÍ – četnosti, %, modus, koeficient kontingence, chí-kvadrát, modus, koeficient kontingence, chí-kvadrát, atd.atd.

ORDINÁLNÍ MĚŘENÍ – medián, některé ORDINÁLNÍ MĚŘENÍ – medián, některé míry variability, pořadové koeficienty míry variability, pořadové koeficienty korelace, atd.korelace, atd.

INTERVALOVÁ MĚŘENÍ – aritmetický INTERVALOVÁ MĚŘENÍ – aritmetický průměr, testy významnosti – t-test, F-test, průměr, testy významnosti – t-test, F-test, směrodatná odchylka, analýza rozptylu, směrodatná odchylka, analýza rozptylu, koeficienty korelace,atd.koeficienty korelace,atd.

TABULKA ČETNOSTÍTABULKA ČETNOSTÍ Utřídění dat pomocí tzv. „čárkovací metody.“Utřídění dat pomocí tzv. „čárkovací metody.“ Při měření školní úspěšnosti získali žáci tyto Při měření školní úspěšnosti získali žáci tyto

známky z matematického testu: 1, 1, 2, 4, 3, 3, 3, známky z matematického testu: 1, 1, 2, 4, 3, 3, 3, 2, 4, 1, 3, 2, 1, 5, 1, 1, 2, 4, 3, 2, 3, 3.2, 4, 1, 3, 2, 1, 5, 1, 1, 2, 4, 3, 2, 3, 3.

Sestavte tabulku četností podle vzorce Sestavte tabulku četností podle vzorce

ZnámkaZnámka Četnost nČetnost nii Relativní Relativní četnost fčetnost fii

Kumulativní Kumulativní četnostčetnost

11 66 0,2730,273 66

22 55 0,2270,227 1111

33 77 0,3180,318 1818

44 33 0,1360,136 2121

55 11 0,0460,046 2222

∑∑2222 ∑∑1,0001,000

fi = ni : n

Aritmetický průměr, modus, Aritmetický průměr, modus, mediánmedián

Intervalový popis střední hodnotyIntervalový popis střední hodnoty průměr r – 2,455průměr r – 2,455 Počet dětí, příjemPočet dětí, příjem věk, barva očí věk, barva očí

Modus – ta hodnota, která se v daném Modus – ta hodnota, která se v daném souboru dat vyskytuje nejčastěji souboru dat vyskytuje nejčastěji (má největší (má největší četnost).četnost).

Medián – prostřední hodnota z řady Medián – prostřední hodnota z řady hodnot seřazených podle velikosti hodnot seřazených podle velikosti (rozděluje (rozděluje soubor na dvě stejné části).soubor na dvě stejné části).

1,1,1,1,1,1,2,2,2,2,1,1,1,1,1,1,2,2,2,2,22,,33,3,3,3,3,3,3,4,4,4,,3,3,3,3,3,3,4,4,4,55 (stojí přesně uprostřed, odlehlá hodnota není reflektována). (stojí přesně uprostřed, odlehlá hodnota není reflektována).

ZnámkaZnámka Četnost nČetnost nii n . xn . xii

11 66 66

22 55 1010

33 77 2121

44 33 1212

55 11 55

∑∑2222 ∑∑5454

Míra variability (rozptyl)Míra variability (rozptyl) Jak dalece jsou data rozptýlena? Jak dalece jsou data rozptýlena? Třída A 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5Třída A 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5 Třída B 1,1,1,1,1,1,1,1,1,1,2,4,4,4,4,4,4,4,4,5,5.Třída B 1,1,1,1,1,1,1,1,1,1,2,4,4,4,4,4,4,4,4,5,5. Rozptyl – zda mezi průměry jsou či nejsou Rozptyl – zda mezi průměry jsou či nejsou

významné rozdíly! Příklad – terč.významné rozdíly! Příklad – terč. Směrodatná odchylka – jak jsou hodnoty vzdáleny Směrodatná odchylka – jak jsou hodnoty vzdáleny

od průměru!od průměru! Ptáme se, co činí kolísání rozptylu. Ptáme se, co činí kolísání rozptylu. Kvantitativní výzkum – kontroluji rozptyl hodnot Kvantitativní výzkum – kontroluji rozptyl hodnot

(dat), izoluji proměnné.(dat), izoluji proměnné. Chceme, aby to byla nezávisle proměnná, neměla Chceme, aby to byla nezávisle proměnná, neměla

by to být náhoda. Jestliže je naše působení větší by to být náhoda. Jestliže je naše působení větší než náhoda, přijímáme alternativní hypotézu. než náhoda, přijímáme alternativní hypotézu. Příklad experimentu – vliv metody.Příklad experimentu – vliv metody.

Výpočet rozptyluVýpočet rozptylu A = A = {{1,1,1,5,5,51,1,1,5,5,5}} B = B = {{3,3,3,3,3,33,3,3,3,3,3}} Vypočítejte průměr (r) a rozptyl (sVypočítejte průměr (r) a rozptyl (s22))

1. Od pozorované hodnoty pro každého jedince odečteme průměr.1. Od pozorované hodnoty pro každého jedince odečteme průměr. 2. Odchylku vypočítanou pro každého jedince umocníme.2. Odchylku vypočítanou pro každého jedince umocníme. 3. Umocněné odchylky sečteme.3. Umocněné odchylky sečteme. 4. Součet vydělíme počtem jedinců ve vzorku = rozptyl.4. Součet vydělíme počtem jedinců ve vzorku = rozptyl. 5. Výsledek dělení odmocníme = směrodatná odchylka.5. Výsledek dělení odmocníme = směrodatná odchylka.

xx xx22

11 -2-2 44

55 22 44

r=3r=3 ss2 2 =4=4

xx xx22

33 00 00

r=3r=3 ss2 2 =0=0

Směrodatná odchylka, normální Směrodatná odchylka, normální rozloženírozložení

r = průměr

68% všech respondentů

rozptyl

Hodnoty, kterých může studovaná proměnná nabývat

Množství případů, kteří mají danou hodnotu proměnné

Nominální data – chí-Nominální data – chí-kvadrátkvadrát

Nejčastějším statistickým postupem na úrovni Nejčastějším statistickým postupem na úrovni nominálního měření bývá test chí-kvadrát. nominálního měření bývá test chí-kvadrát.

Ověřuje se zde, zda četnosti, které byly získány Ověřuje se zde, zda četnosti, které byly získány pozorováním se významně odlišují od teoretických pozorováním se významně odlišují od teoretických četností, které odpovídají dané nulové hypotéze.četností, které odpovídají dané nulové hypotéze.

Příklad pro pochopení principu testu dobré shody.Příklad pro pochopení principu testu dobré shody.

Skupina 90 žáků základní školy ve výzkumu odpovídala na Skupina 90 žáků základní školy ve výzkumu odpovídala na otázku: Který z vyučovacích předmětů máš nejraději?otázku: Který z vyučovacích předmětů máš nejraději?

A matematika A matematika B fyzika B fyzika C chemieC chemieNa základě testu dobré shody chí-kvadrát máme rozhodnout, zda Na základě testu dobré shody chí-kvadrát máme rozhodnout, zda

mezi oblibou předmětů jsou statisticky významné rozdíly. mezi oblibou předmětů jsou statisticky významné rozdíly.

Princip testu dobré shody chí-Princip testu dobré shody chí-kvadrátkvadrát

Jestliže je výsledek statisticky významný, je velmi Jestliže je výsledek statisticky významný, je velmi nepravděpodobné, že by byl způsoben náhodou.nepravděpodobné, že by byl způsoben náhodou.

Začínáme formulací nulové (mezi sledovanými jevy není vztah) a Začínáme formulací nulové (mezi sledovanými jevy není vztah) a alternativní (existuje vztah) hypotézy.alternativní (existuje vztah) hypotézy.

HH0 0 : Četnost žáků, kteří vybírají jednotlivé předměty, jsou zhruba : Četnost žáků, kteří vybírají jednotlivé předměty, jsou zhruba stejné.stejné.

HH1 1 : Četnost žáků, kteří vybírají jednotlivé předměty, jsou rozdílné. : Četnost žáků, kteří vybírají jednotlivé předměty, jsou rozdílné.

Vypočítanou hodnotu srovnáváme s tzv. kritickou hodnotou Vypočítanou hodnotu srovnáváme s tzv. kritickou hodnotou (statistická tabulka).(statistická tabulka).

xx2 2 = = ∑∑

Vyučovací Vyučovací předmětpředmět

PozorovanPozorovaná četnost Pá četnost P

Očekávaná Očekávaná četnost Očetnost O

P - OP - O (P – O)(P – O)22 (P – O)(P – O)22

fyzikafyzika 3535 3030 55 2525 0,8330,833

chemiechemie 2828 3030 -2-2 44 0,1330,133

matematimatematikaka

2727 3030 -3-3 99 0,3000,300

∑ ∑ 9090 ∑ ∑ 9090 1,2661,266

(P – O)2

Princip testu dobré shody chí-Princip testu dobré shody chí-kvadrátkvadrát

Příslušnou kritickou hodnotu hledáme vždy pro určitou Příslušnou kritickou hodnotu hledáme vždy pro určitou (zvolenou) hladinu významnosti a určitý počet stupňů (zvolenou) hladinu významnosti a určitý počet stupňů volnosti.volnosti.

Ve statistických tabulkách nalézáme, že kritická hodnota Ve statistických tabulkách nalézáme, že kritická hodnota chí-kvadrát pro hladinu významnosti 0,05 a 2 stupně chí-kvadrát pro hladinu významnosti 0,05 a 2 stupně volnosti je xvolnosti je x22

0,050,05(2) = 5,991(2) = 5,991 Zjišťujeme, že vypočítaná hodnota je menší, než hodnota Zjišťujeme, že vypočítaná hodnota je menší, než hodnota

kritická, a proto přijímáme nulovou hypotézu. kritická, a proto přijímáme nulovou hypotézu. K odmítnutí nulové hypotézy je třeba, aby vypočítaná K odmítnutí nulové hypotézy je třeba, aby vypočítaná

hodnota testového kritéria byla větší (nebo alespoň hodnota testového kritéria byla větší (nebo alespoň stejně velká) jako hodnota kritická.stejně velká) jako hodnota kritická.

Pokud jsme nuceni přijmout nulovou hypotézu, znamená Pokud jsme nuceni přijmout nulovou hypotézu, znamená to, že výsledky je možno docela dobře připsat na vrub to, že výsledky je možno docela dobře připsat na vrub náhody, že tedy mezi studovanými jevy není významný náhody, že tedy mezi studovanými jevy není významný vztah.vztah.

Nebylo prokázáno, že mezi oblibou vyučovacích Nebylo prokázáno, že mezi oblibou vyučovacích předmětů je rozdíl.předmětů je rozdíl.

Závislost mezi jevy - Závislost mezi jevy - nominálnínominální Existuje závislost mezi danými dvěma Existuje závislost mezi danými dvěma

pedagogickými jevy, které byly změřeny pedagogickými jevy, které byly změřeny na úrovni nominálního (a vyššího) měření.na úrovni nominálního (a vyššího) měření.

Příklad: Vzorku 400 náhodně vybraných studentů PdF byl Příklad: Vzorku 400 náhodně vybraných studentů PdF byl předložen dotazník. Jedna z otázek (uzavřené otázky) zjišťovala, zda předložen dotazník. Jedna z otázek (uzavřené otázky) zjišťovala, zda studenti byly v uplynulém studijním roce ubytováni na kolejích. studenti byly v uplynulém studijním roce ubytováni na kolejích. Další z otázek zjišťovala, jakého průměrného prospěchu studenti v Další z otázek zjišťovala, jakého průměrného prospěchu studenti v uplynulém studijním roce dosáhli. Máme rozhodnout, zda je vztah uplynulém studijním roce dosáhli. Máme rozhodnout, zda je vztah mezi tím, zda studenti bydlí na kolejích a tím, jakých studijních mezi tím, zda studenti bydlí na kolejích a tím, jakých studijních výsledků dosahují. výsledků dosahují.

Použijeme tzv. kontingenční tabulku Použijeme tzv. kontingenční tabulku (četnosti studentů, kteří odpověděli (četnosti studentů, kteří odpověděli určitým způsobem na první otázku a určitým způsobem na první otázku a současně určitým způsobem na druhou současně určitým způsobem na druhou otázku).otázku).

PříkladPříklad lepší než lepší než 1,61,6

1,6 – 2,11,6 – 2,1 horší než horší než 2,12,1

∑∑

++ 40 (48)40 (48) 107 (108)107 (108) 93 (84)93 (84) 240240

-- 40 (32)40 (32) 73 (72)73 (72) 47 (86)47 (86) 160160

∑∑ 8080 180180 140140 400400

bydlení na kolejích

Např. číslo 93 v tabulce znamená, že 93 studentů odpovědělo, že bydleli na kolejích a současně, že měli průměrný prospěch horší než 2,1.

Čísla uváděná vpravo od tabulky a pod tabulkou jsou tzv. okrajové („marginální“) četnosti, tj. součty četností v řádcích a sloupcích tabulky.

Formulujeme nulovou a alternativní hypotézu.

Vypočítáme očekávané četnosti pro každé pole kontingenční tabulky tak, že násobíme odpovídající marginální četnosti v tabulce a potom dělíme celkovou četností. Např. očekávanou četnost (48) vypočítáme O = 80 .

240 = 48

Pro každé pole kontingenční tabulky vypočítáme hodnotu (P - O)2 : O. Testové kritérium x2

vypočítáme jako součet všech těchto hodnot, tj. 1,333 + 0,009 + 0,964 + 2,000 + 0,014 + 1,446 = 5,767.

Určíme hladinu významnosti a počet stupňů volnosti podle vzorce f = (r – 1) . (s – 1) = 2

Srovnáme-li vypočítanou hodnotu testového kritéria (5,767) s kritickou hodnotou testového kritéria x2

0,05(2) = 5,991, zjistíme, že je menší, proto přijímáme nulovou hypotézu.

Závislost mezi jevy - Závislost mezi jevy - ordinálníordinální

Koeficienty korelace např. Spearmanův Koeficienty korelace např. Spearmanův (ordinální dat), Pearsonův (metrická data).(ordinální dat), Pearsonův (metrická data).

Př. závislost mezi výškou a věkem žáků. Př. závislost mezi výškou a věkem žáků. Lze říci, že výška žáků se s přibývajícím Lze říci, že výška žáků se s přibývajícím věkem zvětšuje, ale nelze tvrdit, že věkem zvětšuje, ale nelze tvrdit, že určitému věku odpovídá jen určitá výška určitému věku odpovídá jen určitá výška žáka. žáka.

Zjišťujeme, zda existuje souvislost, nikoli Zjišťujeme, zda existuje souvislost, nikoli která proměnná ji způsobuje.která proměnná ji způsobuje.

Hodnoty koeficientu (-1 do +1).Hodnoty koeficientu (-1 do +1).

PříkladPříklad x - MAx - MA 11

001010 88 77 55 55 33 22

y – PŘy – PŘ 1100

88 99 66 77 55 44 33

xxii yyii xxii y yii xxii22 yyii

1010 1010 100100 100100 100100

1010 88 8080 100100 6464

88 99 7272 6464 8181

77 66 4242 4949 3636

55 77 3535 2525 4949

55 55 2525 2525 2525

33 44 1212 99 1616

22 33 66 44 99

5050 5252 372372 376376 380380

n ∑ xi yi - ∑ xi ∑yi

√ { n ∑ xi2 – (∑ xi )2 } { n ∑ yi

2 – (∑ yi )2 }

8 . 372 – 50 . 52

√ (8 . 376 – 502) (8 . 380 – 522)

r = 0,91

Regresní linieRegresní linie

45004500

40004000

35003500

30003000

25002500

20002000

15001500

10001000

500500

00 66 99 1212 1616 2020

Regresní linieRegresní liniePerfektní pozitivní korelace, s rostoucí hodnotou X hodnota Y vzrůstá. Hodnotu Y odhadneme na základě znalosti hodnoty X bez jakéhokoli omylu, r = 1.

Perfektní negativní korelace, s přirůstající hodnotou X, hodnota Y klesá, r = -1.

Silná korelace.

Perfektní nezávislost, znalost hodnoty X nezlepší naši schopnost odhadnout správně hodnotu Y, r = 0.

ZPRACOVÁVÁME KVANTITATIVNÍ DATA I.

Documents