Post on 04-Jan-2016
description
transcript
ZPRACOVÁVÁMEZPRACOVÁVÁMEKVANTITATIVNÍ KVANTITATIVNÍ
DATA I.DATA I.Mgr. Karla HrbáčkováMgr. Karla Hrbáčková
Metodologie pedagogického Metodologie pedagogického výzkumuvýzkumu
18. 4. 200718. 4. 2007
„„SOUVISLOST“SOUVISLOST“
Kvantitativní výzkum – testování Kvantitativní výzkum – testování hypotézhypotéz
Jeho silnou stránkou je schopnost nám Jeho silnou stránkou je schopnost nám říct, jak moc se mýlíme.říct, jak moc se mýlíme.
Testování hypotéz – produkce výroků o Testování hypotéz – produkce výroků o tom, jak silně proměnné souvisí (jaká tom, jak silně proměnné souvisí (jaká je mezi nimi míra korelace – hodně, je mezi nimi míra korelace – hodně, malinko).malinko).
OMYLOMYL Představte si, že máte v rukou obálku s vyplněným Představte si, že máte v rukou obálku s vyplněným
dotazníkem z výzkumu na celostátním vzorku dotazníkem z výzkumu na celostátním vzorku dospělého obyvatelstva. Váš úkol je odhadnout, jaké dospělého obyvatelstva. Váš úkol je odhadnout, jaké je pohlaví respondenta, jehož dotazník je v obálce je pohlaví respondenta, jehož dotazník je v obálce (jaká je pravděpodobnost správného odhadu?).(jaká je pravděpodobnost správného odhadu?).
Představte si, že z obálky vyčtete odpověď na Představte si, že z obálky vyčtete odpověď na následující otázku. následující otázku.
Užíváte někdy rtěnku? ANO x NEUžíváte někdy rtěnku? ANO x NE Pravděpodobnost správného odhadu je mnohem Pravděpodobnost správného odhadu je mnohem
vyšší.vyšší. Můžeme tedy říci, že mezi proměnnými „pohlaví“ Můžeme tedy říci, že mezi proměnnými „pohlaví“ a „používání rtěnky“ existuje souvislost.a „používání rtěnky“ existuje souvislost. Souvislost může být definována jako přírůstek Souvislost může být definována jako přírůstek v pravděpodobnosti správného odhadu jedné v pravděpodobnosti správného odhadu jedné
proměnné, za který vděčíme naší znalosti o jiné proměnné, za který vděčíme naší znalosti o jiné proměnné. proměnné.
Příklad souvislostiPříklad souvislosti
Geometrie MatematikaGeometrie Matematika
AA BB CC DD
AA 50%50% 35%35% 10%10% 0%0%
BB 45%45% 55%55% 25%25% 10%10%
CC 5%5% 8%8% 55%55% 10%10%
DD 0%0% 2%2% 10%10% 80%80%
NN 100100%%
150150
100100%%
360360
100100%%
400400
100100%%
5050Říká nám tato tabulka něco o souvislosti mezi známkou z G a M?
Co by to znamenalo, kdyby vedla diagonála obráceně?
PříkladPříkladAA BB CC DD
JJ
KK
LL
MM Je nějaká souvislost mezi proměnným v tabulce?Je nějaká souvislost mezi proměnným v tabulce? X reprezentuje volební obvody, Y politické strany. X reprezentuje volební obvody, Y politické strany. Když známe hodnotu X, odhadneme hodnotu Y!Když známe hodnotu X, odhadneme hodnotu Y! Statistika – srovnání nalezené distribuce pozorování Statistika – srovnání nalezené distribuce pozorování
do polí tabulky s takovou distribucí, jakou bychom do polí tabulky s takovou distribucí, jakou bychom obdrželi, kdyby byla pozorování zařazena do polí obdrželi, kdyby byla pozorování zařazena do polí tabulky náhodně.tabulky náhodně.
Proměnná X
Proměnná Y
Redukce informacíRedukce informací Průměrný počet půllitrů vypitý během jednoho Průměrný počet půllitrů vypitý během jednoho
týdne:týdne: muži: 8muži: 8 ženy: 2ženy: 2 Více věříme průměru, který byl vypočítán na Více věříme průměru, který byl vypočítán na
vzorku 500 pozorování, než průměru vzorku 500 pozorování, než průměru vypočítaném pro vzorek 5 jedinců.vypočítaném pro vzorek 5 jedinců.
Často je pro nás výhodné vyjádřit informaci o Často je pro nás výhodné vyjádřit informaci o vzorku v co nejjednodušší formě (ale stačí vzorku v co nejjednodušší formě (ale stačí nám průměr?)nám průměr?)
Jaká mají data rozložení? Míry centrální Jaká mají data rozložení? Míry centrální tendence, míry variability, míry koncentrace.tendence, míry variability, míry koncentrace.
Průměr a jiné reprezentace středních hodnot Průměr a jiné reprezentace středních hodnot redukují informaci do jednoho údaje podle redukují informaci do jednoho údaje podle druhu dat!druhu dat!
Statistické operace z různých Statistické operace z různých druhů měřenídruhů měření
NOMINÁLNÍ MĚŘENÍ – četnosti, %, NOMINÁLNÍ MĚŘENÍ – četnosti, %, modus, koeficient kontingence, chí-kvadrát, modus, koeficient kontingence, chí-kvadrát, atd.atd.
ORDINÁLNÍ MĚŘENÍ – medián, některé ORDINÁLNÍ MĚŘENÍ – medián, některé míry variability, pořadové koeficienty míry variability, pořadové koeficienty korelace, atd.korelace, atd.
INTERVALOVÁ MĚŘENÍ – aritmetický INTERVALOVÁ MĚŘENÍ – aritmetický průměr, testy významnosti – t-test, F-test, průměr, testy významnosti – t-test, F-test, směrodatná odchylka, analýza rozptylu, směrodatná odchylka, analýza rozptylu, koeficienty korelace,atd.koeficienty korelace,atd.
TABULKA ČETNOSTÍTABULKA ČETNOSTÍ Utřídění dat pomocí tzv. „čárkovací metody.“Utřídění dat pomocí tzv. „čárkovací metody.“ Při měření školní úspěšnosti získali žáci tyto Při měření školní úspěšnosti získali žáci tyto
známky z matematického testu: 1, 1, 2, 4, 3, 3, 3, známky z matematického testu: 1, 1, 2, 4, 3, 3, 3, 2, 4, 1, 3, 2, 1, 5, 1, 1, 2, 4, 3, 2, 3, 3.2, 4, 1, 3, 2, 1, 5, 1, 1, 2, 4, 3, 2, 3, 3.
Sestavte tabulku četností podle vzorce Sestavte tabulku četností podle vzorce
ZnámkaZnámka Četnost nČetnost nii Relativní Relativní četnost fčetnost fii
Kumulativní Kumulativní četnostčetnost
11 66 0,2730,273 66
22 55 0,2270,227 1111
33 77 0,3180,318 1818
44 33 0,1360,136 2121
55 11 0,0460,046 2222
∑∑2222 ∑∑1,0001,000
fi = ni : n
Aritmetický průměr, modus, Aritmetický průměr, modus, mediánmedián
Intervalový popis střední hodnotyIntervalový popis střední hodnoty průměr r – 2,455průměr r – 2,455 Počet dětí, příjemPočet dětí, příjem věk, barva očí věk, barva očí
Modus – ta hodnota, která se v daném Modus – ta hodnota, která se v daném souboru dat vyskytuje nejčastěji souboru dat vyskytuje nejčastěji (má největší (má největší četnost).četnost).
Medián – prostřední hodnota z řady Medián – prostřední hodnota z řady hodnot seřazených podle velikosti hodnot seřazených podle velikosti (rozděluje (rozděluje soubor na dvě stejné části).soubor na dvě stejné části).
1,1,1,1,1,1,2,2,2,2,1,1,1,1,1,1,2,2,2,2,22,,33,3,3,3,3,3,3,4,4,4,,3,3,3,3,3,3,4,4,4,55 (stojí přesně uprostřed, odlehlá hodnota není reflektována). (stojí přesně uprostřed, odlehlá hodnota není reflektována).
ZnámkaZnámka Četnost nČetnost nii n . xn . xii
11 66 66
22 55 1010
33 77 2121
44 33 1212
55 11 55
∑∑2222 ∑∑5454
Míra variability (rozptyl)Míra variability (rozptyl) Jak dalece jsou data rozptýlena? Jak dalece jsou data rozptýlena? Třída A 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5Třída A 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5 Třída B 1,1,1,1,1,1,1,1,1,1,2,4,4,4,4,4,4,4,4,5,5.Třída B 1,1,1,1,1,1,1,1,1,1,2,4,4,4,4,4,4,4,4,5,5. Rozptyl – zda mezi průměry jsou či nejsou Rozptyl – zda mezi průměry jsou či nejsou
významné rozdíly! Příklad – terč.významné rozdíly! Příklad – terč. Směrodatná odchylka – jak jsou hodnoty vzdáleny Směrodatná odchylka – jak jsou hodnoty vzdáleny
od průměru!od průměru! Ptáme se, co činí kolísání rozptylu. Ptáme se, co činí kolísání rozptylu. Kvantitativní výzkum – kontroluji rozptyl hodnot Kvantitativní výzkum – kontroluji rozptyl hodnot
(dat), izoluji proměnné.(dat), izoluji proměnné. Chceme, aby to byla nezávisle proměnná, neměla Chceme, aby to byla nezávisle proměnná, neměla
by to být náhoda. Jestliže je naše působení větší by to být náhoda. Jestliže je naše působení větší než náhoda, přijímáme alternativní hypotézu. než náhoda, přijímáme alternativní hypotézu. Příklad experimentu – vliv metody.Příklad experimentu – vliv metody.
Výpočet rozptyluVýpočet rozptylu A = A = {{1,1,1,5,5,51,1,1,5,5,5}} B = B = {{3,3,3,3,3,33,3,3,3,3,3}} Vypočítejte průměr (r) a rozptyl (sVypočítejte průměr (r) a rozptyl (s22))
1. Od pozorované hodnoty pro každého jedince odečteme průměr.1. Od pozorované hodnoty pro každého jedince odečteme průměr. 2. Odchylku vypočítanou pro každého jedince umocníme.2. Odchylku vypočítanou pro každého jedince umocníme. 3. Umocněné odchylky sečteme.3. Umocněné odchylky sečteme. 4. Součet vydělíme počtem jedinců ve vzorku = rozptyl.4. Součet vydělíme počtem jedinců ve vzorku = rozptyl. 5. Výsledek dělení odmocníme = směrodatná odchylka.5. Výsledek dělení odmocníme = směrodatná odchylka.
xx xx22
11 -2-2 44
11 -2-2 44
11 -2-2 44
55 22 44
55 22 44
55 22 44
r=3r=3 ss2 2 =4=4
xx xx22
33 00 00
33 00 00
33 00 00
33 00 00
33 00 00
33 00 00
r=3r=3 ss2 2 =0=0
Směrodatná odchylka, normální Směrodatná odchylka, normální rozloženírozložení
r = průměr
68% všech respondentů
-1 +1
rozptyl
Hodnoty, kterých může studovaná proměnná nabývat
Množství případů, kteří mají danou hodnotu proměnné
Nominální data – chí-Nominální data – chí-kvadrátkvadrát
Nejčastějším statistickým postupem na úrovni Nejčastějším statistickým postupem na úrovni nominálního měření bývá test chí-kvadrát. nominálního měření bývá test chí-kvadrát.
Ověřuje se zde, zda četnosti, které byly získány Ověřuje se zde, zda četnosti, které byly získány pozorováním se významně odlišují od teoretických pozorováním se významně odlišují od teoretických četností, které odpovídají dané nulové hypotéze.četností, které odpovídají dané nulové hypotéze.
Příklad pro pochopení principu testu dobré shody.Příklad pro pochopení principu testu dobré shody.
Skupina 90 žáků základní školy ve výzkumu odpovídala na Skupina 90 žáků základní školy ve výzkumu odpovídala na otázku: Který z vyučovacích předmětů máš nejraději?otázku: Který z vyučovacích předmětů máš nejraději?
A matematika A matematika B fyzika B fyzika C chemieC chemieNa základě testu dobré shody chí-kvadrát máme rozhodnout, zda Na základě testu dobré shody chí-kvadrát máme rozhodnout, zda
mezi oblibou předmětů jsou statisticky významné rozdíly. mezi oblibou předmětů jsou statisticky významné rozdíly.
Princip testu dobré shody chí-Princip testu dobré shody chí-kvadrátkvadrát
Jestliže je výsledek statisticky významný, je velmi Jestliže je výsledek statisticky významný, je velmi nepravděpodobné, že by byl způsoben náhodou.nepravděpodobné, že by byl způsoben náhodou.
Začínáme formulací nulové (mezi sledovanými jevy není vztah) a Začínáme formulací nulové (mezi sledovanými jevy není vztah) a alternativní (existuje vztah) hypotézy.alternativní (existuje vztah) hypotézy.
HH0 0 : Četnost žáků, kteří vybírají jednotlivé předměty, jsou zhruba : Četnost žáků, kteří vybírají jednotlivé předměty, jsou zhruba stejné.stejné.
HH1 1 : Četnost žáků, kteří vybírají jednotlivé předměty, jsou rozdílné. : Četnost žáků, kteří vybírají jednotlivé předměty, jsou rozdílné.
Vypočítanou hodnotu srovnáváme s tzv. kritickou hodnotou Vypočítanou hodnotu srovnáváme s tzv. kritickou hodnotou (statistická tabulka).(statistická tabulka).
xx2 2 = = ∑∑
Vyučovací Vyučovací předmětpředmět
PozorovanPozorovaná četnost Pá četnost P
Očekávaná Očekávaná četnost Očetnost O
P - OP - O (P – O)(P – O)22 (P – O)(P – O)22
OO
fyzikafyzika 3535 3030 55 2525 0,8330,833
chemiechemie 2828 3030 -2-2 44 0,1330,133
matematimatematikaka
2727 3030 -3-3 99 0,3000,300
∑ ∑ 9090 ∑ ∑ 9090 1,2661,266
(P – O)2
O
Princip testu dobré shody chí-Princip testu dobré shody chí-kvadrátkvadrát
Příslušnou kritickou hodnotu hledáme vždy pro určitou Příslušnou kritickou hodnotu hledáme vždy pro určitou (zvolenou) hladinu významnosti a určitý počet stupňů (zvolenou) hladinu významnosti a určitý počet stupňů volnosti.volnosti.
Ve statistických tabulkách nalézáme, že kritická hodnota Ve statistických tabulkách nalézáme, že kritická hodnota chí-kvadrát pro hladinu významnosti 0,05 a 2 stupně chí-kvadrát pro hladinu významnosti 0,05 a 2 stupně volnosti je xvolnosti je x22
0,050,05(2) = 5,991(2) = 5,991 Zjišťujeme, že vypočítaná hodnota je menší, než hodnota Zjišťujeme, že vypočítaná hodnota je menší, než hodnota
kritická, a proto přijímáme nulovou hypotézu. kritická, a proto přijímáme nulovou hypotézu. K odmítnutí nulové hypotézy je třeba, aby vypočítaná K odmítnutí nulové hypotézy je třeba, aby vypočítaná
hodnota testového kritéria byla větší (nebo alespoň hodnota testového kritéria byla větší (nebo alespoň stejně velká) jako hodnota kritická.stejně velká) jako hodnota kritická.
Pokud jsme nuceni přijmout nulovou hypotézu, znamená Pokud jsme nuceni přijmout nulovou hypotézu, znamená to, že výsledky je možno docela dobře připsat na vrub to, že výsledky je možno docela dobře připsat na vrub náhody, že tedy mezi studovanými jevy není významný náhody, že tedy mezi studovanými jevy není významný vztah.vztah.
Nebylo prokázáno, že mezi oblibou vyučovacích Nebylo prokázáno, že mezi oblibou vyučovacích předmětů je rozdíl.předmětů je rozdíl.
Závislost mezi jevy - Závislost mezi jevy - nominálnínominální Existuje závislost mezi danými dvěma Existuje závislost mezi danými dvěma
pedagogickými jevy, které byly změřeny pedagogickými jevy, které byly změřeny na úrovni nominálního (a vyššího) měření.na úrovni nominálního (a vyššího) měření.
Příklad: Vzorku 400 náhodně vybraných studentů PdF byl Příklad: Vzorku 400 náhodně vybraných studentů PdF byl předložen dotazník. Jedna z otázek (uzavřené otázky) zjišťovala, zda předložen dotazník. Jedna z otázek (uzavřené otázky) zjišťovala, zda studenti byly v uplynulém studijním roce ubytováni na kolejích. studenti byly v uplynulém studijním roce ubytováni na kolejích. Další z otázek zjišťovala, jakého průměrného prospěchu studenti v Další z otázek zjišťovala, jakého průměrného prospěchu studenti v uplynulém studijním roce dosáhli. Máme rozhodnout, zda je vztah uplynulém studijním roce dosáhli. Máme rozhodnout, zda je vztah mezi tím, zda studenti bydlí na kolejích a tím, jakých studijních mezi tím, zda studenti bydlí na kolejích a tím, jakých studijních výsledků dosahují. výsledků dosahují.
Použijeme tzv. kontingenční tabulku Použijeme tzv. kontingenční tabulku (četnosti studentů, kteří odpověděli (četnosti studentů, kteří odpověděli určitým způsobem na první otázku a určitým způsobem na první otázku a současně určitým způsobem na druhou současně určitým způsobem na druhou otázku).otázku).
PříkladPříklad lepší než lepší než 1,61,6
1,6 – 2,11,6 – 2,1 horší než horší než 2,12,1
∑∑
++ 40 (48)40 (48) 107 (108)107 (108) 93 (84)93 (84) 240240
-- 40 (32)40 (32) 73 (72)73 (72) 47 (86)47 (86) 160160
∑∑ 8080 180180 140140 400400
bydlení na kolejích
Např. číslo 93 v tabulce znamená, že 93 studentů odpovědělo, že bydleli na kolejích a současně, že měli průměrný prospěch horší než 2,1.
Čísla uváděná vpravo od tabulky a pod tabulkou jsou tzv. okrajové („marginální“) četnosti, tj. součty četností v řádcích a sloupcích tabulky.
Formulujeme nulovou a alternativní hypotézu.
Vypočítáme očekávané četnosti pro každé pole kontingenční tabulky tak, že násobíme odpovídající marginální četnosti v tabulce a potom dělíme celkovou četností. Např. očekávanou četnost (48) vypočítáme O = 80 .
240 = 48
Pro každé pole kontingenční tabulky vypočítáme hodnotu (P - O)2 : O. Testové kritérium x2
vypočítáme jako součet všech těchto hodnot, tj. 1,333 + 0,009 + 0,964 + 2,000 + 0,014 + 1,446 = 5,767.
Určíme hladinu významnosti a počet stupňů volnosti podle vzorce f = (r – 1) . (s – 1) = 2
Srovnáme-li vypočítanou hodnotu testového kritéria (5,767) s kritickou hodnotou testového kritéria x2
0,05(2) = 5,991, zjistíme, že je menší, proto přijímáme nulovou hypotézu.
400
Závislost mezi jevy - Závislost mezi jevy - ordinálníordinální
Koeficienty korelace např. Spearmanův Koeficienty korelace např. Spearmanův (ordinální dat), Pearsonův (metrická data).(ordinální dat), Pearsonův (metrická data).
Př. závislost mezi výškou a věkem žáků. Př. závislost mezi výškou a věkem žáků. Lze říci, že výška žáků se s přibývajícím Lze říci, že výška žáků se s přibývajícím věkem zvětšuje, ale nelze tvrdit, že věkem zvětšuje, ale nelze tvrdit, že určitému věku odpovídá jen určitá výška určitému věku odpovídá jen určitá výška žáka. žáka.
Zjišťujeme, zda existuje souvislost, nikoli Zjišťujeme, zda existuje souvislost, nikoli která proměnná ji způsobuje.která proměnná ji způsobuje.
Hodnoty koeficientu (-1 do +1).Hodnoty koeficientu (-1 do +1).
PříkladPříklad x - MAx - MA 11
001010 88 77 55 55 33 22
y – PŘy – PŘ 1100
88 99 66 77 55 44 33
xxii yyii xxii y yii xxii22 yyii
22
1010 1010 100100 100100 100100
1010 88 8080 100100 6464
88 99 7272 6464 8181
77 66 4242 4949 3636
55 77 3535 2525 4949
55 55 2525 2525 2525
33 44 1212 99 1616
22 33 66 44 99
5050 5252 372372 376376 380380
n ∑ xi yi - ∑ xi ∑yi
√ { n ∑ xi2 – (∑ xi )2 } { n ∑ yi
2 – (∑ yi )2 }
8 . 372 – 50 . 52
√ (8 . 376 – 502) (8 . 380 – 522)
r = 0,91
Regresní linieRegresní linie
45004500
40004000
35003500
30003000
25002500
20002000
15001500
10001000
500500
00 66 99 1212 1616 2020
Regresní linieRegresní liniePerfektní pozitivní korelace, s rostoucí hodnotou X hodnota Y vzrůstá. Hodnotu Y odhadneme na základě znalosti hodnoty X bez jakéhokoli omylu, r = 1.
Perfektní negativní korelace, s přirůstající hodnotou X, hodnota Y klesá, r = -1.
Silná korelace.
Perfektní nezávislost, znalost hodnoty X nezlepší naši schopnost odhadnout správně hodnotu Y, r = 0.