Korelace a regrese

Post on 04-Jan-2016

47 views 8 download

description

Korelace a regrese. síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese možnost předpovědi příklad: výška otce, výška jeho syna (v dospělosti) - PowerPoint PPT Presentation

transcript

Korelace a regrese

• síla (těsnost) závislosti dvou náhodných veličin: korelace

– symetrický vztah obou veličin

– neslouží k předpovědi

• způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese

– možnost předpovědi

• příklad: výška otce, výška jeho syna (v dospělosti)

– korelace: jak těsně spolu souvisejí ? populace - všechny dvojice (otec, syn)

– regrese: lze z výšky otce odhadnout výšku syna ?

řada populací - synové otců vysokých 170 cm, 171 cm ...

Pearsonův korelační koeficient

• měří sílu lineární závislosti spojitých veličin

• vždy platí: -1 X,Y 1

• v případě normálního rozdělení platí:

nezávislost X, Y X,Y = 0

• odhad pomocí

• nezávislost zamítáme, pokud | t | t1-(n-2), kde

22,

)()(

))((

yyxx

yyxxr

ii

iiYX

21 2

,

nr

rt

YX

Příklady

30 35 40 45

100

120

140

160

180

200

220

lat

mort

30 35 40 45

100

120

140

160

180

200

220

r=-0,82

lat

mort

30 35 40 45

100

120

140

160

180

200

220

r=-0,82

lat

mort

65 70 75

6000

7000

8000

9000

10000

0,45

delka

hm

otn

ost

65 70 75

6000

7000

8000

9000

10000

r=0,45

delka

hm

otn

ost

30 35 40 45

100

120

140

160

180

200

220

r=-0,82

latitude

mort

alit

y

30 35 40 45

100

120

140

160

180

200

220

r=-0,82

latitude

mort

alit

y

65 70 75

6000

7000

8000

9000

10000

r=0,45

delka

hm

otn

ost

Spearmanův korelační koeficient

• místo naměřených hodnot (xi, yi) jejich pořadí (Ri, Qi), což vede k

• hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li

– | rS | r(n) (tabelováno pro n do 30)

• není třeba znát naměřené hodnoty, stačí jejich pořadí• při pochybnosti o normalitě

rn n

R QS i ii

n

1

6

122

1( )( )

12/1

nz

rS

Princip regresní závislosti

• zabýváme se dvojicí veličin:

– Y (vysvětlovaná, závisle proměnná)

– X (vysvětlující, nezávisle proměnná, regresor)

– hledáme vysvětlení chování Y při dané hodnotě X=x

– podmíněné rozdělení Y při daném X=x (změní se, když změníme x?)

• lineární regrese (předpoklady):

– populační průměr Y při dané hodnotě X=x je lineární funkcí x

– variabilita (rozptyl) podmíněného rozdělení Y nezávisí na X=x

Porodní hmotnost podle porodní délky

Rozdělení hmotnosti dětí dlouhých 45 - 55 cm výška: 45

0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

2000 2500 3000 3500 4000 4500 5000 5500

výška: 46

0

10

20

30

40

50

60

70

80

90

100

110

120

2000 2500 3000 3500 4000 4500 5000 5500

výška: 47

0

20

40

60

80

100

120

140

160

180

200

220

240

260

2000 2500 3000 3500 4000 4500 5000 5500

výška: 48

0

50

100

150

200

250

300

350

400

450

500

2000 2500 3000 3500 4000 4500 5000 5500

výška: 49

0

50

100

150

200

250

300

350

400

450

500

550

600

650

700

2000 2500 3000 3500 4000 4500 5000 5500

výška: 50

0

100

200

300

400

500

600

700

800

900

1000

1100

2000 2500 3000 3500 4000 4500 5000 5500

výška: 51

0

50

100

150

200

250

300

350

400

450

500

550

600

650

700

2000 2500 3000 3500 4000 4500 5000 5500

výška: 52

0

50

100

150

200

250

300

350

400

450

500

2000 2500 3000 3500 4000 4500 5000 5500

výška: 53

0

20

40

60

80

100

120

140

160

180

200

2000 2500 3000 3500 4000 4500 5000 5500

výška: 54

0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

2000 2500 3000 3500 4000 4500 5000 5500

výška: 55

0

2

4

6

8

10

12

14

16

18

20

22

24

26

2000 2500 3000 3500 4000 4500 5000 5500

Porodní hmotnost a délka

Závislost porodní hmotnosti na porodní délce

délka

hmot

nost

1000

2000

3000

4000

5000

6000

44 46 48 50 52 54 56

Matematický popis regresní závislosti

i=1,2,...,n

- neznámé parametry

i - náhodná chyba N2) (normální rozdělení)

2 - neznámý parametr (rozptyl)

• x1, ..., xn - dané hodnoty proměnné X

• y1, ..., yn - naměřené (náhodné) hodnoty proměnné Y

- průměrná změna Y při jednotkové změně X

- průměrná hodnota Y při X=0

iii xy 10

Odhad parametrů

• metoda nejmenších čtverců: zvolit odhady b0, b1 tak, byl minimální součet čtverců odchylek:

• toto minimum se nazývá reziduální součet čtverců (Se)

• odhad rozptylu :

( )y b b xi ii

n

0 1

2

1

22

nS

s e

Modelová představa

0

1

0 1 2 3 4

1

b1

[x i, y i]

x i

y i

y i

b 0

y

x

y=b 0+b 1 x

Příklad (úmrtnost na melanom)

• pozorování: jednotlivé státy USA

• MORT: úmrtnost na 10 000 000 obyvatel na maligní melanom kůže v letech 1950-1959

• LAT: zeměpisná šířka státu

• LONG: zeměpisná délka státu

• POP: počet obyvatel (v milionech)

• OCEAN: zda na břehu oceánu

• lze nestejnou úmrtnost vysvětlit polohou jednotlivých států ?

Příklad (těsná závislost)

Úmrtnost na melanom

zeměpisná šířka

úm

rtno

st

75

100

125

150

175

200

225

25 30 35 40 45 50

Příklad (slabá závislost)

Úmrtnost na melanom

zeměpisná délka

úm

rtn

ost

75

100

125

150

175

200

225

-125 -100 -75

Statistické vlastnosti odhadů

• H0 (Y nezávisí na x): (tj. yi=+ei)

• zamítáme, když odhad b1 se dostatečně liší od 0

• použijeme

• H0 zamítneme ve prospěch oboustranné alternativy H1, bude-li | T | t1-(n - 2)

• ekvivalentní testu H0: x,y= 0 , tj. nezávislosti náhodných veličin X,Y

21

1

1

..xx

sb

bESb

T i

Příklad (závislost na zeměpisné délce)

parametr odhad S.E. t p

abs. 183,5 29,92 6,133 < 0,001

LONG 0,3363 0,3245 1,0363 0,305

• přímka: odhad MORT = 183,5 + 0,3363 • LONG

• závislost není průkazná na hladině =0,05

• změna o 10 stupňů na východ (zem. délka vzroste) (mortalitav průměru o 3 osoby na 10 000 000 větší)

Se=52 439,0 s2 = 1 115,7 R2=0,022

Příklad (závislost na zeměpisné šířce)

parametr odhad S.E. t p

abs. 389,2 23,81 16,34 < 0,001

LAT -5,978 0,5984 -9,990 < 0,001

Se=17 173,01 s2 = 365,38 R2=0,680

• přímka: odhad MORT = 389,2 - 5,978 • LAT

• závislost je průkazná na hladině =0,05 (i na menších)

• změna o 10 stupňů na sever (zeměpisná šířka vzroste) mortalitav průměru o 60 osob na 10 000 000 menší

Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce)

Variabilita součetčtverců

st.vol.

podíl F p

regrese 36 464,2 1 36 464,2 99,8 < 0,001

reziduální 17 173,1 47 365,38

celková 53 637,3

• celková variabilita = vysvětlená regresí + reziduální

• koeficient determinace:

68,03,536372,36464

1ˆ22

22

yy

S

yy

yyR

i

e

i

i

n

i

n

i

n

iiiii yyyyyy

1 1 1

222ˆˆ

Mnohonásobná lineární regrese

• lineární závislost na několika regresorech:

yi = xi1 + xi2 + ... + k xik + ei

• j - průměrná změna Y při jednotkové změně Xj a nezměněných hodnotách ostatních regresorů

• H0: j =0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace)

• H0: 1 = 2 = ... = k = 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu

• pro k=1 jsou obě hypotézy ekvivalentní

Příklad (závislost na délce i šířce)

parametr odhad S.E. t p

abs. 401,17 28,04 14,31 < 0,001

LAT -5,929 0,604 -9,82 < 0,001

LONG 0,153 0,187 0,82 0,418

• neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %)

• závislost na LAT byla:

Se=16 927,7 s2 = 367,99 R2=0,684

Se=17 173,01 s2 = 365,38 R2=0,680

Příklad (opravdu na délce nezáleží?)

parametr odhad S.E. t p

abs. 760,35 123,33 6,17 < 0,001

LAT -6,584 0,600 -10,98 < 0,001

LONG 7,418 2,445 3,03 0,004 LONG2 0,039 0,013 2,98 0,005

Se=14 139,5 s2 = 314,21 R2=0,736

bez kvadratického členu bylo:

Se=16 927,7 s2 = 367,99 R2=0,684

Příklad (pobřežní státy jsou jiné ?)parametr odhad S.E. t p

abs. 360,690 21,498 16,78 < 0,001

LAT -5,489 0,526 -10,44 < 0,001

OCEAN 20,430 4,825 4,23 < 0,001

Se=12 357,0 s2 = 268,63 R2=0,770

v kvadratickém modelu bylo:

Se=14 139,5 s2 = 314,21 R2=0,736

Příklad ( analýza kovariance)Závislost úmrtnosti na zeměpisné šířce

zeměpisná šířka

úm

rtn

ost

60

80

100

120

140

160

180

200

220

240

30 35 40 45 50

vnitrozemský státpobřežní stát

Umělé proměnné v regresi

• umělá proměnná: nabývá hodnot 0 - 1

• jediný regresor - umělá proměnná dvouvýběrový t test

• několik umělých proměnných k vyjádření několika úrovní nominální veličiny analýza rozptylu jednoduchého třídění

• spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné analýza kovariance

• regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)

Statistické modely závislosti

nezávisle závisle proměnná

proměnná (é)spojitá nominální

spojitá regrese, korelacelogistická regrese

(pro 0-1)

nominální analýza rozptylukontingenční

tabulka