+ All Categories
Home > Documents > Korelace a regrese

Korelace a regrese

Date post: 04-Jan-2016
Category:
Upload: dustin-hardy
View: 47 times
Download: 8 times
Share this document with a friend
Description:
Korelace a regrese. síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese možnost předpovědi příklad: výška otce, výška jeho syna (v dospělosti) - PowerPoint PPT Presentation
24
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese možnost předpovědi příklad: výška otce, výška jeho syna (v dospělosti) korelace: jak těsně spolu souvisejí ? populace - všechny dvojice (otec, syn) regrese: lze z výšky otce odhadnout výšku syna ? řada populací - synové otců vysokých 170 cm, 171 cm ...
Transcript
Page 1: Korelace a regrese

Korelace a regrese

• síla (těsnost) závislosti dvou náhodných veličin: korelace

– symetrický vztah obou veličin

– neslouží k předpovědi

• způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese

– možnost předpovědi

• příklad: výška otce, výška jeho syna (v dospělosti)

– korelace: jak těsně spolu souvisejí ? populace - všechny dvojice (otec, syn)

– regrese: lze z výšky otce odhadnout výšku syna ?

řada populací - synové otců vysokých 170 cm, 171 cm ...

Page 2: Korelace a regrese

Pearsonův korelační koeficient

• měří sílu lineární závislosti spojitých veličin

• vždy platí: -1 X,Y 1

• v případě normálního rozdělení platí:

nezávislost X, Y X,Y = 0

• odhad pomocí

• nezávislost zamítáme, pokud | t | t1-(n-2), kde

22,

)()(

))((

yyxx

yyxxr

ii

iiYX

21 2

,

nr

rt

YX

Page 3: Korelace a regrese

Příklady

30 35 40 45

100

120

140

160

180

200

220

lat

mort

30 35 40 45

100

120

140

160

180

200

220

r=-0,82

lat

mort

30 35 40 45

100

120

140

160

180

200

220

r=-0,82

lat

mort

65 70 75

6000

7000

8000

9000

10000

0,45

delka

hm

otn

ost

65 70 75

6000

7000

8000

9000

10000

r=0,45

delka

hm

otn

ost

30 35 40 45

100

120

140

160

180

200

220

r=-0,82

latitude

mort

alit

y

30 35 40 45

100

120

140

160

180

200

220

r=-0,82

latitude

mort

alit

y

65 70 75

6000

7000

8000

9000

10000

r=0,45

delka

hm

otn

ost

Page 4: Korelace a regrese

Spearmanův korelační koeficient

• místo naměřených hodnot (xi, yi) jejich pořadí (Ri, Qi), což vede k

• hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li

– | rS | r(n) (tabelováno pro n do 30)

• není třeba znát naměřené hodnoty, stačí jejich pořadí• při pochybnosti o normalitě

rn n

R QS i ii

n

1

6

122

1( )( )

12/1

nz

rS

Page 5: Korelace a regrese

Princip regresní závislosti

• zabýváme se dvojicí veličin:

– Y (vysvětlovaná, závisle proměnná)

– X (vysvětlující, nezávisle proměnná, regresor)

– hledáme vysvětlení chování Y při dané hodnotě X=x

– podmíněné rozdělení Y při daném X=x (změní se, když změníme x?)

• lineární regrese (předpoklady):

– populační průměr Y při dané hodnotě X=x je lineární funkcí x

– variabilita (rozptyl) podmíněného rozdělení Y nezávisí na X=x

Page 6: Korelace a regrese

Porodní hmotnost podle porodní délky

Rozdělení hmotnosti dětí dlouhých 45 - 55 cm výška: 45

0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

2000 2500 3000 3500 4000 4500 5000 5500

výška: 46

0

10

20

30

40

50

60

70

80

90

100

110

120

2000 2500 3000 3500 4000 4500 5000 5500

výška: 47

0

20

40

60

80

100

120

140

160

180

200

220

240

260

2000 2500 3000 3500 4000 4500 5000 5500

výška: 48

0

50

100

150

200

250

300

350

400

450

500

2000 2500 3000 3500 4000 4500 5000 5500

výška: 49

0

50

100

150

200

250

300

350

400

450

500

550

600

650

700

2000 2500 3000 3500 4000 4500 5000 5500

výška: 50

0

100

200

300

400

500

600

700

800

900

1000

1100

2000 2500 3000 3500 4000 4500 5000 5500

výška: 51

0

50

100

150

200

250

300

350

400

450

500

550

600

650

700

2000 2500 3000 3500 4000 4500 5000 5500

výška: 52

0

50

100

150

200

250

300

350

400

450

500

2000 2500 3000 3500 4000 4500 5000 5500

výška: 53

0

20

40

60

80

100

120

140

160

180

200

2000 2500 3000 3500 4000 4500 5000 5500

výška: 54

0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

2000 2500 3000 3500 4000 4500 5000 5500

výška: 55

0

2

4

6

8

10

12

14

16

18

20

22

24

26

2000 2500 3000 3500 4000 4500 5000 5500

Page 7: Korelace a regrese

Porodní hmotnost a délka

Závislost porodní hmotnosti na porodní délce

délka

hmot

nost

1000

2000

3000

4000

5000

6000

44 46 48 50 52 54 56

Page 8: Korelace a regrese

Matematický popis regresní závislosti

i=1,2,...,n

- neznámé parametry

i - náhodná chyba N2) (normální rozdělení)

2 - neznámý parametr (rozptyl)

• x1, ..., xn - dané hodnoty proměnné X

• y1, ..., yn - naměřené (náhodné) hodnoty proměnné Y

- průměrná změna Y při jednotkové změně X

- průměrná hodnota Y při X=0

iii xy 10

Page 9: Korelace a regrese

Odhad parametrů

• metoda nejmenších čtverců: zvolit odhady b0, b1 tak, byl minimální součet čtverců odchylek:

• toto minimum se nazývá reziduální součet čtverců (Se)

• odhad rozptylu :

( )y b b xi ii

n

0 1

2

1

22

nS

s e

Page 10: Korelace a regrese

Modelová představa

0

1

0 1 2 3 4

1

b1

[x i, y i]

x i

y i

y i

b 0

y

x

y=b 0+b 1 x

Page 11: Korelace a regrese

Příklad (úmrtnost na melanom)

• pozorování: jednotlivé státy USA

• MORT: úmrtnost na 10 000 000 obyvatel na maligní melanom kůže v letech 1950-1959

• LAT: zeměpisná šířka státu

• LONG: zeměpisná délka státu

• POP: počet obyvatel (v milionech)

• OCEAN: zda na břehu oceánu

• lze nestejnou úmrtnost vysvětlit polohou jednotlivých států ?

Page 12: Korelace a regrese

Příklad (těsná závislost)

Úmrtnost na melanom

zeměpisná šířka

úm

rtno

st

75

100

125

150

175

200

225

25 30 35 40 45 50

Page 13: Korelace a regrese

Příklad (slabá závislost)

Úmrtnost na melanom

zeměpisná délka

úm

rtn

ost

75

100

125

150

175

200

225

-125 -100 -75

Page 14: Korelace a regrese

Statistické vlastnosti odhadů

• H0 (Y nezávisí na x): (tj. yi=+ei)

• zamítáme, když odhad b1 se dostatečně liší od 0

• použijeme

• H0 zamítneme ve prospěch oboustranné alternativy H1, bude-li | T | t1-(n - 2)

• ekvivalentní testu H0: x,y= 0 , tj. nezávislosti náhodných veličin X,Y

21

1

1

..xx

sb

bESb

T i

Page 15: Korelace a regrese

Příklad (závislost na zeměpisné délce)

parametr odhad S.E. t p

abs. 183,5 29,92 6,133 < 0,001

LONG 0,3363 0,3245 1,0363 0,305

• přímka: odhad MORT = 183,5 + 0,3363 • LONG

• závislost není průkazná na hladině =0,05

• změna o 10 stupňů na východ (zem. délka vzroste) (mortalitav průměru o 3 osoby na 10 000 000 větší)

Se=52 439,0 s2 = 1 115,7 R2=0,022

Page 16: Korelace a regrese

Příklad (závislost na zeměpisné šířce)

parametr odhad S.E. t p

abs. 389,2 23,81 16,34 < 0,001

LAT -5,978 0,5984 -9,990 < 0,001

Se=17 173,01 s2 = 365,38 R2=0,680

• přímka: odhad MORT = 389,2 - 5,978 • LAT

• závislost je průkazná na hladině =0,05 (i na menších)

• změna o 10 stupňů na sever (zeměpisná šířka vzroste) mortalitav průměru o 60 osob na 10 000 000 menší

Page 17: Korelace a regrese

Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce)

Variabilita součetčtverců

st.vol.

podíl F p

regrese 36 464,2 1 36 464,2 99,8 < 0,001

reziduální 17 173,1 47 365,38

celková 53 637,3

• celková variabilita = vysvětlená regresí + reziduální

• koeficient determinace:

68,03,536372,36464

1ˆ22

22

yy

S

yy

yyR

i

e

i

i

n

i

n

i

n

iiiii yyyyyy

1 1 1

222ˆˆ

Page 18: Korelace a regrese

Mnohonásobná lineární regrese

• lineární závislost na několika regresorech:

yi = xi1 + xi2 + ... + k xik + ei

• j - průměrná změna Y při jednotkové změně Xj a nezměněných hodnotách ostatních regresorů

• H0: j =0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace)

• H0: 1 = 2 = ... = k = 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu

• pro k=1 jsou obě hypotézy ekvivalentní

Page 19: Korelace a regrese

Příklad (závislost na délce i šířce)

parametr odhad S.E. t p

abs. 401,17 28,04 14,31 < 0,001

LAT -5,929 0,604 -9,82 < 0,001

LONG 0,153 0,187 0,82 0,418

• neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %)

• závislost na LAT byla:

Se=16 927,7 s2 = 367,99 R2=0,684

Se=17 173,01 s2 = 365,38 R2=0,680

Page 20: Korelace a regrese

Příklad (opravdu na délce nezáleží?)

parametr odhad S.E. t p

abs. 760,35 123,33 6,17 < 0,001

LAT -6,584 0,600 -10,98 < 0,001

LONG 7,418 2,445 3,03 0,004 LONG2 0,039 0,013 2,98 0,005

Se=14 139,5 s2 = 314,21 R2=0,736

bez kvadratického členu bylo:

Se=16 927,7 s2 = 367,99 R2=0,684

Page 21: Korelace a regrese

Příklad (pobřežní státy jsou jiné ?)parametr odhad S.E. t p

abs. 360,690 21,498 16,78 < 0,001

LAT -5,489 0,526 -10,44 < 0,001

OCEAN 20,430 4,825 4,23 < 0,001

Se=12 357,0 s2 = 268,63 R2=0,770

v kvadratickém modelu bylo:

Se=14 139,5 s2 = 314,21 R2=0,736

Page 22: Korelace a regrese

Příklad ( analýza kovariance)Závislost úmrtnosti na zeměpisné šířce

zeměpisná šířka

úm

rtn

ost

60

80

100

120

140

160

180

200

220

240

30 35 40 45 50

vnitrozemský státpobřežní stát

Page 23: Korelace a regrese

Umělé proměnné v regresi

• umělá proměnná: nabývá hodnot 0 - 1

• jediný regresor - umělá proměnná dvouvýběrový t test

• několik umělých proměnných k vyjádření několika úrovní nominální veličiny analýza rozptylu jednoduchého třídění

• spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné analýza kovariance

• regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)

Page 24: Korelace a regrese

Statistické modely závislosti

nezávisle závisle proměnná

proměnná (é)spojitá nominální

spojitá regrese, korelacelogistická regrese

(pro 0-1)

nominální analýza rozptylukontingenční

tabulka


Recommended