příklad: plánovaná těhotenství

Post on 19-Mar-2016

50 views 1 download

description

příklad: plánovaná těhotenství. je souvislost mezi odpověďmi o plánovaném těhotenství a vzděláním matek?. příklad: očekávané četnosti. závislost prokázána. příklad – předvolební průzkum. 30 voličů bylo dotázáno, které ze dvou stran dají přednost; souvisí odpovědi s pohlavím?. - PowerPoint PPT Presentation

transcript

18. října 2004 Statistika (D360P03Z) 3. předn.

1

příklad: plánovaná těhotenství je souvislost mezi odpověďmi o

plánovaném těhotenství a vzděláním matek?vzděl. neplán

.plán. celk

.zákl. 20 14 34střední

16 31 47

VŠ 5 13 18celkem

41 58 99

vzděl. neplán.

plán. celk.

zákl. 58,8% 41,2% 100%střední

34,0% 66,0% 100%

VŠ 27,8% 72,2% 100%celkem

41,4% 58,6% 100%

18. října 2004 Statistika (D360P03Z) 3. předn.

2

příklad: očekávané četnostivzděl. neplá

n.plán. celk

.zákl. 14,08 19,92 34střední

19,46 27,54 47

VŠ 7,46 10,54 18celkem

41,00 58,00 99

05,099,568,654,1054,1013

...92,1992,1914

08,1408,1420

22

2

222

08,14993441

92,19993458

závislost prokázána

18. října 2004 Statistika (D360P03Z) 3. předn.

3

příklad – předvolební průzkumpohlav

ístrana celke

mA B

muž 11 4 15žena 6 9 15celke

m17 13 30

pohlaví

strana celkemA B

muž 73% 27% 100%žena 40% 60% 100%celke

m 57% 43% 100%

pohlaví

strana celkemA B

muž 65% 31% 50%žena 35% 69% 50%celke

m 100% 100% 100%

30 voličů bylo dotázáno, které ze dvou stran dají přednost; souvisí odpovědi s pohlavím?

18. října 2004 Statistika (D360P03Z) 3. předn.

4

čtyřpolní tabulka - závislost označení

četností

ve čtyřpolní tabulce lze sílu závislosti měřit čtyřpolním korelačním koeficientem

je mezi –1 a 1 příklad:

dbcadcbabcadr

2,2

a b a+bc d c+d

a+c b+d n

2,2r

34,01317151564911

2,2

r

18. října 2004 Statistika (D360P03Z) 3. předn.

5

příklad r2,2 > 0 znamená, že stejným indexem

označené možnosti se vyskytují častěji, než bychom očekávali při nezávislosti (muž&A, žena&B)

pohlaví

strana celkemA B

muž 11 4 15žena 6 9 15celke

m17 13 30

11· 9 > 6 * 4

18. října 2004 Statistika (D360P03Z) 3. předn.

6

čtyřpolní tabulka závislost se prokazuje pomocí statistiky chí-

kvadrát, kterou lze upravit na tvar

příklad:

závislost jsme tedy na 5% hladině neprokázali

22,2

22 rn

dbcadcbabcadn

05,084,339,3131715156491130 2

1

22

18. října 2004 Statistika (D360P03Z) 3. předn.

7

příklad (Simpsonův paradox)venkov

A B celk.

muž 5 6 11žena 3 4 7celk. 8 1

018

město

A B celk.

muž 6 3 9žena 9 5 14celk. 1

58 23

r2,2=0,03

r2,2=0,02

obojí A B celk.

muž 11 9 20žena 12 9 21celk. 23 1

841

r2,2= - 0,02

kdyby stejný poměr muži:ženy na obou místech – bez problému

18. října 2004 Statistika (D360P03Z) 3. předn.

8

kvalitativní - kvantitativní podle kvalitativní proměnné rozdělit

hodnoty kvantitativní proměnné do dílčích souborů

porovnat charakteristiky dílčích souborů mezi sebou; pokud se hodně liší – je závislost

celkový průměr = vážený průměr dílčích průměrů

celkový rozptyl = vážený průměr rozptylů + rozptyl průměrů (přesně pro populační rozptyly s n ve jmenovateli)

18. října 2004 Statistika (D360P03Z) 3. předn.

9

příklad: věk matek – plán. těhot. (1)

ne ano

2025

3035

zda těhotenství plánováno

věk

mat

ky

18. října 2004 Statistika (D360P03Z) 3. předn.

10

závislost pro nula-jedničkové x sílu závislosti x, y

vyjadřuje bodově biseriální korelační koeficient

kde je průměr těch yi , u nichž je x = 1 kde je průměr těch yi , u nichž je x = 0 kde s je směrodatná odchylka všech y

(n- 1) ve jmenovateli kde n0 je počet nul a n1 počet jedniček mezi

x

11001

nnnn

syyrbis

1y0y

18. října 2004 Statistika (D360P03Z) 3. předn.

11

příklad: věk matek – plán. těhot. (2)

20,098995841

12,47,244,26

bisr

zda plán rozsah průměr směr. odch.ne 41 24,7 4,24ano 58 26,4 3,93

celkem 99 25,7 4,12

18. října 2004 Statistika (D360P03Z) 3. předn.

12

příklad: výška otce ~ vzdělání matky

18. října 2004 Statistika (D360P03Z) 3. předn.

13

příklad: výška otce ~ vzdělání matky

vzdělání rozsah průměr směr. odch.

základní 34 177,1 6,0střední 47 179,5 6,4

VŠ 18 182,8 7,8celkem 99 179,3 6,8

2222

22 6,6184734

8,7184,6470,6348,6

s

3,179184734

8,182185,179471,17734

x

18. října 2004 Statistika (D360P03Z) 3. předn.

14

rozklad rozptylu do skupin celkový rozptyl = vážený průměr rozptylů

+ rozptyl průměrů (populační rozptyly) xij - j-té pozorování z i-té skupiny - průměr v i-té skupině, celkový

prům.

variabilita se rozkládá:celková = uvnitř skupin + mezi skupinami

k

i

n

j

k

iiiiij

k

i

n

jij

ii

xxnxxxx1 1 1

22

1 1

2

ix x

k

ii

ii

k

i

i xxnn

nn

1

22

1

2

18. října 2004 Statistika (D360P03Z) 3. předn.

15

rozklad rozptylu - příklad budeme-li chtít prokázat rozdíl mezi

skupinami, vyjdeme z uvedeného rozkladu

čím je součet čtverců mezi skupinami větší, tím spíš bychom měli prokázat rozdíl mezi skupinami

měřítkem bude součet čtverců uvnitř skupin vydělený (n – k), kde k je počet skupin

18. října 2004 Statistika (D360P03Z) 3. předn.

16

příklad: výška otce ~ vzdělání matky

vzdělání

rozsah

průměr součet čtverců

směr. odch.

základní

34 177,1 1188,7 6,0

střední 47 179,5 1909,8 6,4VŠ 18 182,8 1027,1 7,8

celkem 99 179,3 4511,2 6,8(183-177,1)2+…+(180-177,1)2=1188,7(180-179,5)2+…+(172-179,5)2=1909,8(187-182,8)2+…+(180-182,3)2=1027,1variabilita mezi: 4511,2 - 4125,6 = 385,6

6,4125

18. října 2004 Statistika (D360P03Z) 3. předn.

17

tabulka analýzy rozptyluvariabilita součet

čtv.stupně vol.

prům. čtv.

F p

mezi skup. 385,6 2 192,8 4,49

0,014

uvnitř skup. 4125,6

96 43,0

celková 4511,2

98

průměrný čtverec mezi skupinami (nestejnost průměrů) je v porovnání s průměrným čtvercem uvnitř skupin příliš veliký závislost jsme prokázali

F = 4,49 > F2,96(0,05)=1,62

18. října 2004 Statistika (D360P03Z) 3. předn.

18

dvojice kvantitativních veličin

++

++

+

++ +

+

++

+

++

+

+

+

+

+

+

+

+

+

+

++++

+

+

++

+

+

+

+

+

+

++

++

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

++

+

++

+

++

++

+

+

+

+

+

+

+

+

++

+

+

++

++

++

++++

+

++

65 70 7560

0080

0010

000

délka

hmot

nost

+

+

+

+++

+

+

+++

+

+

+

+

++

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

++ +

+

+

++

+ +

+

+

+

+

+

+

+

+

+

++

+

+

+ ++

+ +

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

+

+++

+

+

+

+

+

+

+

+

++

++

++

1.0 1.5 2.0 2.5 3.0

7090

110

130

průměr 7. ročník

IQ

r = -0,69 r = 0,45

18. října 2004 Statistika (D360P03Z) 3. předn.

19

závislost spojitých veličin kovariance

(Pearsonův) korelační koef.

(z-skóry)

n

ii

n

ii

n

iii

n

i y

i

x

i

yx

xy

yyxx

yyxx

syy

sxx

nsss

r

1

2

1

2

1

111

n

iiixy yyxx

ns

111

18. října 2004 Statistika (D360P03Z) 3. předn.

20

příklad: hmotnost a délka (24. týden) délka [cm]: hmotnost [g]: kovariance [cm g]: korelační koeficient:

hmotnost [kg]: kovariance [cm kg]:

korelační koeficient:

28,3,5,68 xsx845,7690 ysy

1257xys

45,084528,3

1257

r

845,0,69,7 ysy257,1xys

45,0845,028,3

257,1

r

18. října 2004 Statistika (D360P03Z) 3. předn.

21

(Pearsonův) korelační koeficient vypovídá o směru závislosti při r < 0 s rostoucím x v průměru klesá y platí -1 r 1 když body [x ; y ] leží na přímce, pak |r | = 1 vzájemné nezávislosti odpovídají r blízké 0 hranice statistické průkaznosti závisí na n,

čím větší n , tím menší |r | stačí (tabulky) takto hodnotit průkaznost lze jen někdy

(normální rozdělení) špatně zachytí křivočarou závislost

18. října 2004 Statistika (D360P03Z) 3. předn.

22

Spearmanův korelační koeficient Spearmanův korel. koef. místo

původních hodnot xi , yi použije jejich pořadí Ri , Qi

vhodné pro nelineární monotónní závislost, nevadí odlehlé hodnoty

při testování nemusí být normální rozdělení

n

iiiS QR

nnr

1

22 161

18. října 2004 Statistika (D360P03Z) 3. předn.

23

příklad: alkohol – úmrtnost na cirhózu

země spotřeba

úmrtnost

Ri Qi

Finsko 3,9 3,6 1 3Norsko 4,2 4,3 2 5Irsko 5,6 3,4 3 2Holandsko 5,7 3,7 4 4Švédsko 6,6 7,2 5 7Anglie&Wales

7,2 3,0 6 1

Belgie 10,8 12,3 7 8Rakousko 10,9 7,0 8 6SRN 12,3 23,7 9 10Itálie 15,7 23,6 10 9Francie 24,7 46,1 11 11

773,0

..321201161 22

Sr

18. října 2004 Statistika (D360P03Z) 3. předn.

24

příklad: alkohol – úmrtnost na cirhózu

5 10 15 20 25

1020

3040

Úmrtnost na cirhózu

alkohol

úmrtn

ost

18. října 2004 Statistika (D360P03Z) 3. předn.

25

příklad: výšky rodičů (1)

155 160 165 170 175

165

170

175

180

185

Výšky rodičů

matka

otec

155 160 165 170 1750

5010

015

020

0

Výšky rodičů

matka

otec

18. října 2004 Statistika (D360P03Z) 3. předn.

26

příklad: výšky rodičů (2)

0 50 100 150 200

165

175

185

195

vyska.m

vysk

a.o

0 50 100 150 200

050

100

150

200

vyska.m

vysk

a.o

18. října 2004 Statistika (D360P03Z) 3. předn.

27

příklad: výšky rodičů pozor na nevhodnou volbu měřítka! přímka pro zdůraznění možné závislosti r = 0,21 s rostoucí výškou matky v průměru roste

výška otce nezáleží na měřítku (mohli jsme měřit v

metrech, matky v jiném měřítku než otce)

nezáleží na posunutí (mohli jsme každému ubrat metr)

18. října 2004 Statistika (D360P03Z) 3. předn.

28

příklad: počet letišť a velikost země

8 9 10 11 12 13

12

34

56

Evropa

log(area)

log(

airp

orts

)

log(area)

8 9 10 11 12 13

12

34

56

Evropa

log(

airp

orts

)

18. října 2004 Statistika (D360P03Z) 3. předn.

29

příklad: počet letišť a rozloha státu někdy je závislost lineární až po vhodné

transformaci výsledek může záviset na jediném

pozorování všech devět zemí => r = 0,93 bez Lucemburska => r = 0,69

bez logaritmování všech devět zemí => r = 0,72 bez Lucemburska => r = 0,63

Spearmanův korelační koeficient logaritmování neovlivní: rS = 0,8 (bez Lucemburska rS = 0,71)