18. října 2004 Statistika (D360P03Z) 3. předn.
1
příklad: plánovaná těhotenství je souvislost mezi odpověďmi o
plánovaném těhotenství a vzděláním matek?vzděl. neplán
.plán. celk
.zákl. 20 14 34střední
16 31 47
VŠ 5 13 18celkem
41 58 99
vzděl. neplán.
plán. celk.
zákl. 58,8% 41,2% 100%střední
34,0% 66,0% 100%
VŠ 27,8% 72,2% 100%celkem
41,4% 58,6% 100%
18. října 2004 Statistika (D360P03Z) 3. předn.
2
příklad: očekávané četnostivzděl. neplá
n.plán. celk
.zákl. 14,08 19,92 34střední
19,46 27,54 47
VŠ 7,46 10,54 18celkem
41,00 58,00 99
05,099,568,654,1054,1013
...92,1992,1914
08,1408,1420
22
2
222
08,14993441
92,19993458
závislost prokázána
18. října 2004 Statistika (D360P03Z) 3. předn.
3
příklad – předvolební průzkumpohlav
ístrana celke
mA B
muž 11 4 15žena 6 9 15celke
m17 13 30
pohlaví
strana celkemA B
muž 73% 27% 100%žena 40% 60% 100%celke
m 57% 43% 100%
pohlaví
strana celkemA B
muž 65% 31% 50%žena 35% 69% 50%celke
m 100% 100% 100%
30 voličů bylo dotázáno, které ze dvou stran dají přednost; souvisí odpovědi s pohlavím?
18. října 2004 Statistika (D360P03Z) 3. předn.
4
čtyřpolní tabulka - závislost označení
četností
ve čtyřpolní tabulce lze sílu závislosti měřit čtyřpolním korelačním koeficientem
je mezi –1 a 1 příklad:
dbcadcbabcadr
2,2
a b a+bc d c+d
a+c b+d n
2,2r
34,01317151564911
2,2
r
18. října 2004 Statistika (D360P03Z) 3. předn.
5
příklad r2,2 > 0 znamená, že stejným indexem
označené možnosti se vyskytují častěji, než bychom očekávali při nezávislosti (muž&A, žena&B)
pohlaví
strana celkemA B
muž 11 4 15žena 6 9 15celke
m17 13 30
11· 9 > 6 * 4
18. října 2004 Statistika (D360P03Z) 3. předn.
6
čtyřpolní tabulka závislost se prokazuje pomocí statistiky chí-
kvadrát, kterou lze upravit na tvar
příklad:
závislost jsme tedy na 5% hladině neprokázali
22,2
22 rn
dbcadcbabcadn
05,084,339,3131715156491130 2
1
22
18. října 2004 Statistika (D360P03Z) 3. předn.
7
příklad (Simpsonův paradox)venkov
A B celk.
muž 5 6 11žena 3 4 7celk. 8 1
018
město
A B celk.
muž 6 3 9žena 9 5 14celk. 1
58 23
r2,2=0,03
r2,2=0,02
obojí A B celk.
muž 11 9 20žena 12 9 21celk. 23 1
841
r2,2= - 0,02
kdyby stejný poměr muži:ženy na obou místech – bez problému
18. října 2004 Statistika (D360P03Z) 3. předn.
8
kvalitativní - kvantitativní podle kvalitativní proměnné rozdělit
hodnoty kvantitativní proměnné do dílčích souborů
porovnat charakteristiky dílčích souborů mezi sebou; pokud se hodně liší – je závislost
celkový průměr = vážený průměr dílčích průměrů
celkový rozptyl = vážený průměr rozptylů + rozptyl průměrů (přesně pro populační rozptyly s n ve jmenovateli)
18. října 2004 Statistika (D360P03Z) 3. předn.
9
příklad: věk matek – plán. těhot. (1)
ne ano
2025
3035
zda těhotenství plánováno
věk
mat
ky
18. října 2004 Statistika (D360P03Z) 3. předn.
10
závislost pro nula-jedničkové x sílu závislosti x, y
vyjadřuje bodově biseriální korelační koeficient
kde je průměr těch yi , u nichž je x = 1 kde je průměr těch yi , u nichž je x = 0 kde s je směrodatná odchylka všech y
(n- 1) ve jmenovateli kde n0 je počet nul a n1 počet jedniček mezi
x
11001
nnnn
syyrbis
1y0y
18. října 2004 Statistika (D360P03Z) 3. předn.
11
příklad: věk matek – plán. těhot. (2)
20,098995841
12,47,244,26
bisr
zda plán rozsah průměr směr. odch.ne 41 24,7 4,24ano 58 26,4 3,93
celkem 99 25,7 4,12
18. října 2004 Statistika (D360P03Z) 3. předn.
12
příklad: výška otce ~ vzdělání matky
18. října 2004 Statistika (D360P03Z) 3. předn.
13
příklad: výška otce ~ vzdělání matky
vzdělání rozsah průměr směr. odch.
základní 34 177,1 6,0střední 47 179,5 6,4
VŠ 18 182,8 7,8celkem 99 179,3 6,8
2222
22 6,6184734
8,7184,6470,6348,6
s
3,179184734
8,182185,179471,17734
x
18. října 2004 Statistika (D360P03Z) 3. předn.
14
rozklad rozptylu do skupin celkový rozptyl = vážený průměr rozptylů
+ rozptyl průměrů (populační rozptyly) xij - j-té pozorování z i-té skupiny - průměr v i-té skupině, celkový
prům.
variabilita se rozkládá:celková = uvnitř skupin + mezi skupinami
k
i
n
j
k
iiiiij
k
i
n
jij
ii
xxnxxxx1 1 1
22
1 1
2
ix x
k
ii
ii
k
i
i xxnn
nn
1
22
1
2
18. října 2004 Statistika (D360P03Z) 3. předn.
15
rozklad rozptylu - příklad budeme-li chtít prokázat rozdíl mezi
skupinami, vyjdeme z uvedeného rozkladu
čím je součet čtverců mezi skupinami větší, tím spíš bychom měli prokázat rozdíl mezi skupinami
měřítkem bude součet čtverců uvnitř skupin vydělený (n – k), kde k je počet skupin
18. října 2004 Statistika (D360P03Z) 3. předn.
16
příklad: výška otce ~ vzdělání matky
vzdělání
rozsah
průměr součet čtverců
směr. odch.
základní
34 177,1 1188,7 6,0
střední 47 179,5 1909,8 6,4VŠ 18 182,8 1027,1 7,8
celkem 99 179,3 4511,2 6,8(183-177,1)2+…+(180-177,1)2=1188,7(180-179,5)2+…+(172-179,5)2=1909,8(187-182,8)2+…+(180-182,3)2=1027,1variabilita mezi: 4511,2 - 4125,6 = 385,6
6,4125
18. října 2004 Statistika (D360P03Z) 3. předn.
17
tabulka analýzy rozptyluvariabilita součet
čtv.stupně vol.
prům. čtv.
F p
mezi skup. 385,6 2 192,8 4,49
0,014
uvnitř skup. 4125,6
96 43,0
celková 4511,2
98
průměrný čtverec mezi skupinami (nestejnost průměrů) je v porovnání s průměrným čtvercem uvnitř skupin příliš veliký závislost jsme prokázali
F = 4,49 > F2,96(0,05)=1,62
18. října 2004 Statistika (D360P03Z) 3. předn.
18
dvojice kvantitativních veličin
++
++
+
++ +
+
++
+
++
+
+
+
+
+
+
+
+
+
+
++++
+
+
++
+
+
+
+
+
+
++
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
++
+
++
+
++
++
+
+
+
+
+
+
+
+
++
+
+
++
++
++
++++
+
++
65 70 7560
0080
0010
000
délka
hmot
nost
+
+
+
+++
+
+
+++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
++ +
+
+
++
+ +
+
+
+
+
+
+
+
+
+
++
+
+
+ ++
+ +
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+++
+
+
+
+
+
+
+
+
++
++
++
1.0 1.5 2.0 2.5 3.0
7090
110
130
průměr 7. ročník
IQ
r = -0,69 r = 0,45
18. října 2004 Statistika (D360P03Z) 3. předn.
19
závislost spojitých veličin kovariance
(Pearsonův) korelační koef.
(z-skóry)
n
ii
n
ii
n
iii
n
i y
i
x
i
yx
xy
yyxx
yyxx
syy
sxx
nsss
r
1
2
1
2
1
111
n
iiixy yyxx
ns
111
18. října 2004 Statistika (D360P03Z) 3. předn.
20
příklad: hmotnost a délka (24. týden) délka [cm]: hmotnost [g]: kovariance [cm g]: korelační koeficient:
hmotnost [kg]: kovariance [cm kg]:
korelační koeficient:
28,3,5,68 xsx845,7690 ysy
1257xys
45,084528,3
1257
r
845,0,69,7 ysy257,1xys
45,0845,028,3
257,1
r
18. října 2004 Statistika (D360P03Z) 3. předn.
21
(Pearsonův) korelační koeficient vypovídá o směru závislosti při r < 0 s rostoucím x v průměru klesá y platí -1 r 1 když body [x ; y ] leží na přímce, pak |r | = 1 vzájemné nezávislosti odpovídají r blízké 0 hranice statistické průkaznosti závisí na n,
čím větší n , tím menší |r | stačí (tabulky) takto hodnotit průkaznost lze jen někdy
(normální rozdělení) špatně zachytí křivočarou závislost
18. října 2004 Statistika (D360P03Z) 3. předn.
22
Spearmanův korelační koeficient Spearmanův korel. koef. místo
původních hodnot xi , yi použije jejich pořadí Ri , Qi
vhodné pro nelineární monotónní závislost, nevadí odlehlé hodnoty
při testování nemusí být normální rozdělení
n
iiiS QR
nnr
1
22 161
18. října 2004 Statistika (D360P03Z) 3. předn.
23
příklad: alkohol – úmrtnost na cirhózu
země spotřeba
úmrtnost
Ri Qi
Finsko 3,9 3,6 1 3Norsko 4,2 4,3 2 5Irsko 5,6 3,4 3 2Holandsko 5,7 3,7 4 4Švédsko 6,6 7,2 5 7Anglie&Wales
7,2 3,0 6 1
Belgie 10,8 12,3 7 8Rakousko 10,9 7,0 8 6SRN 12,3 23,7 9 10Itálie 15,7 23,6 10 9Francie 24,7 46,1 11 11
773,0
..321201161 22
Sr
18. října 2004 Statistika (D360P03Z) 3. předn.
24
příklad: alkohol – úmrtnost na cirhózu
5 10 15 20 25
1020
3040
Úmrtnost na cirhózu
alkohol
úmrtn
ost
18. října 2004 Statistika (D360P03Z) 3. předn.
25
příklad: výšky rodičů (1)
155 160 165 170 175
165
170
175
180
185
Výšky rodičů
matka
otec
155 160 165 170 1750
5010
015
020
0
Výšky rodičů
matka
otec
18. října 2004 Statistika (D360P03Z) 3. předn.
26
příklad: výšky rodičů (2)
0 50 100 150 200
165
175
185
195
vyska.m
vysk
a.o
0 50 100 150 200
050
100
150
200
vyska.m
vysk
a.o
18. října 2004 Statistika (D360P03Z) 3. předn.
27
příklad: výšky rodičů pozor na nevhodnou volbu měřítka! přímka pro zdůraznění možné závislosti r = 0,21 s rostoucí výškou matky v průměru roste
výška otce nezáleží na měřítku (mohli jsme měřit v
metrech, matky v jiném měřítku než otce)
nezáleží na posunutí (mohli jsme každému ubrat metr)
18. října 2004 Statistika (D360P03Z) 3. předn.
28
příklad: počet letišť a velikost země
8 9 10 11 12 13
12
34
56
Evropa
log(area)
log(
airp
orts
)
log(area)
8 9 10 11 12 13
12
34
56
Evropa
log(
airp
orts
)
18. října 2004 Statistika (D360P03Z) 3. předn.
29
příklad: počet letišť a rozloha státu někdy je závislost lineární až po vhodné
transformaci výsledek může záviset na jediném
pozorování všech devět zemí => r = 0,93 bez Lucemburska => r = 0,69
bez logaritmování všech devět zemí => r = 0,72 bez Lucemburska => r = 0,63
Spearmanův korelační koeficient logaritmování neovlivní: rS = 0,8 (bez Lucemburska rS = 0,71)