+ All Categories
Home > Documents > Line arn a logistick a regrese - Univerzita...

Line arn a logistick a regrese - Univerzita...

Date post: 05-Jan-2020
Category:
Upload: others
View: 7 times
Download: 0 times
Share this document with a friend
33
Line´ arn´ ı a logistick´ a regrese Martin Branda Univerzita Karlova v Praze Matematicko-fyzik´ aln´ ı fakulta Katedra pravdˇ epodobnosti a matematick´ e statistiky ypoˇ cetn´ ı prostˇ redky finanˇ cn´ ı a pojistn´ e matematiky 2012 M.Branda (KPMS MFF UK) Regrese 2012 1 / 33
Transcript

Linearnı a logisticka regrese

Martin Branda

Univerzita Karlova v PrazeMatematicko-fyzikalnı fakulta

Katedra pravdepodobnosti a matematicke statistiky

Vypocetnı prostredky financnı a pojistne matematiky2012

M.Branda (KPMS MFF UK) Regrese 2012 1 / 33

Obsah

1 Data

2 Linearnı regrese

3 Logisticka regrese

4 Reference

M.Branda (KPMS MFF UK) Regrese 2012 2 / 33

Data

Obsah

1 Data

2 Linearnı regrese

3 Logisticka regrese

4 Reference

M.Branda (KPMS MFF UK) Regrese 2012 3 / 33

Data

Data

Zavisle promenna (odezva): Y′ = (Y1, . . . ,Yn)

Nezavisle promenne (prediktory, regresory): x′i = (Xi1, . . . ,Xim)

X =

X11 . . . , X1m...

...Xn1 . . . , Xnm

Predpokladame, ze matice ma plnou sloupcovou hodnost.

Kvantitativnı promenne - napr. vek, pocet aktivnıch smluv, pocetnajetych kilometru, ... Casto jsou kategorizovany kvuli nevhodnemurozdelenı, odlehlym pozorovanım nebo nelinerite vztahu mezi jimi azavisle promennou.Kvalitativnı (kategorialnı) promenne - kodovany pomocı 0-1 “dummy”promennych, napr. pohlavı, region (kraj, okres), ...Interakce - odlisny vliv regresoru pro ruzne kategorie jinehokategorialnıho regresoru.

M.Branda (KPMS MFF UK) Regrese 2012 4 / 33

Data

Data

Zavisle promenna (odezva): Y′ = (Y1, . . . ,Yn)

Nezavisle promenne (prediktory, regresory): x′i = (Xi1, . . . ,Xim)

X =

X11 . . . , X1m...

...Xn1 . . . , Xnm

Predpokladame, ze matice ma plnou sloupcovou hodnost.

Kvantitativnı promenne - napr. vek, pocet aktivnıch smluv, pocetnajetych kilometru, ... Casto jsou kategorizovany kvuli nevhodnemurozdelenı, odlehlym pozorovanım nebo nelinerite vztahu mezi jimi azavisle promennou.Kvalitativnı (kategorialnı) promenne - kodovany pomocı 0-1 “dummy”promennych, napr. pohlavı, region (kraj, okres), ...Interakce - odlisny vliv regresoru pro ruzne kategorie jinehokategorialnıho regresoru.

M.Branda (KPMS MFF UK) Regrese 2012 4 / 33

Data

Predpoklady

Rozdelenı Yi zavisı na xi .

Pozorovanı (Yi , xi ) jsou nezavisla.

Pozorovanı Yi jsou nezavisla a xi jsou merene konstanty - budemenadale uvazovat.

M.Branda (KPMS MFF UK) Regrese 2012 5 / 33

Data

DataV databazi/vytorena nad databazı

Y Data

Pocet skod Pohlavı Pocet obyvatel Vek(v letech)

2 muz 15 423 210 muz 1 205 321 441 zena 20 893 350 zena 580 51...

......

.... . .

M.Branda (KPMS MFF UK) Regrese 2012 6 / 33

Data

DataBez absolutnıho clenu

Y Data

Pocet skod Pohlavı Region Vekzena muz velka mala venkov (v letech)

mesta mesta

2 0 1 0 1 0 210 0 1 1 0 0 441 1 0 0 1 0 350 1 0 0 0 1 51...

......

......

......

. . .

M.Branda (KPMS MFF UK) Regrese 2012 7 / 33

Data

DataS absolutnım clenem

Y X

Pocet skod Abs.clen Pohlavı Region Vekzena velka mala (v letech)

mesta mesta

2 1 0 0 1 210 1 0 1 0 441 1 1 0 1 350 1 1 0 0 51...

......

......

.... . .

M.Branda (KPMS MFF UK) Regrese 2012 8 / 33

Linearnı regrese

Obsah

1 Data

2 Linearnı regrese

3 Logisticka regrese

4 Reference

M.Branda (KPMS MFF UK) Regrese 2012 9 / 33

Linearnı regrese

Linearnı regreseModel

Model linearnı regrese

Yi =m∑j=1

Xijβj + εi , i = 1, . . . , n,

kde predpokladame

1 εi (disturbance, chyby) jsou nezavisle,

2 Eεi = 0,

3 varεi = σ2 > 0 (rezidualnı rozptyl).

Maticovy zapisY = Xβ + ε,

kde β′ = (β1, . . . , βm) a ε′ = (ε1, . . . , εn).

M.Branda (KPMS MFF UK) Regrese 2012 10 / 33

Linearnı regrese

Linearnı regreseModel

Model linearnı regrese

Yi =m∑j=1

Xijβj + εi , i = 1, . . . , n,

kde predpokladame

1 εi (disturbance, chyby) jsou nezavisle,

2 Eεi = 0,

3 varεi = σ2 > 0 (rezidualnı rozptyl).

Maticovy zapisY = Xβ + ε,

kde β′ = (β1, . . . , βm) a ε′ = (ε1, . . . , εn).

M.Branda (KPMS MFF UK) Regrese 2012 10 / 33

Linearnı regrese

Linearnı regreseOdhad parametru

Odhad parametru β metodou nejmensıch ctvercu (LS)

β = arg minβ∈Rm

n∑i=1

(Yi −m∑j=1

Xijβj)2

= arg minβ∈Rm

(Y − XTβ)T (Y − XTβ)

= (XTX)−1(XTY).

Odhad splnuje soustavu normalnıch rovnic

XTXβ = XTY.

M.Branda (KPMS MFF UK) Regrese 2012 11 / 33

Linearnı regrese

Linearnı regreseOdhad parametru

Odhad parametru β metodou nejmensıch ctvercu (LS)

β = arg minβ∈Rm

n∑i=1

(Yi −m∑j=1

Xijβj)2

= arg minβ∈Rm

(Y − XTβ)T (Y − XTβ)

= (XTX)−1(XTY).

Odhad splnuje soustavu normalnıch rovnic

XTXβ = XTY.

M.Branda (KPMS MFF UK) Regrese 2012 11 / 33

Linearnı regrese

Linearnı regreseOdhady

Odhad parametru je nestranny, tj. Eβ = β s rozptylemvar β = σ2(XTX)−1.

Vyrovnane hodnoty Y = Xβ = X(XTX)−1XTY.

Rezidua u = Y − Y = (I − X(XTX)−1XT )Y, kde I je jednotkovamatice rozmeru n × n.

Nestranny odhad σ2:

σ2 =E[uTu]

n −m

Za predpokladu normality β ∼ N(β, σ2(XTX)−1) a Y ∼ N(Xβ, σ2I ).

M.Branda (KPMS MFF UK) Regrese 2012 12 / 33

Linearnı regrese

Linearnı regreseOdhady

Odhad parametru je nestranny, tj. Eβ = β s rozptylemvar β = σ2(XTX)−1.

Vyrovnane hodnoty Y = Xβ = X(XTX)−1XTY.

Rezidua u = Y − Y = (I − X(XTX)−1XT )Y, kde I je jednotkovamatice rozmeru n × n.

Nestranny odhad σ2:

σ2 =E[uTu]

n −m

Za predpokladu normality β ∼ N(β, σ2(XTX)−1) a Y ∼ N(Xβ, σ2I ).

M.Branda (KPMS MFF UK) Regrese 2012 12 / 33

Linearnı regrese

Linearnı regreseOdhady

Odhad parametru je nestranny, tj. Eβ = β s rozptylemvar β = σ2(XTX)−1.

Vyrovnane hodnoty Y = Xβ = X(XTX)−1XTY.

Rezidua u = Y − Y = (I − X(XTX)−1XT )Y, kde I je jednotkovamatice rozmeru n × n.

Nestranny odhad σ2:

σ2 =E[uTu]

n −m

Za predpokladu normality β ∼ N(β, σ2(XTX)−1) a Y ∼ N(Xβ, σ2I ).

M.Branda (KPMS MFF UK) Regrese 2012 12 / 33

Logisticka regrese

Obsah

1 Data

2 Linearnı regrese

3 Logisticka regrese

4 Reference

M.Branda (KPMS MFF UK) Regrese 2012 13 / 33

Logisticka regrese

Srovnanı regresnıch modelu

Linearnı regrese Logisticka regrese

Rozdelenı: Y ∼ N(µ, σ2) Y ∼ ALT (p)

Zavislost: E[Y ] = x′β E[Y ] = 1/(1 + exp{−x′β)})

Rozpyl: varY = σ2 varY = p(1− p)

M.Branda (KPMS MFF UK) Regrese 2012 14 / 33

Logisticka regrese

Logisticka regrese

EYi = pi =ex′iβ

1 + ex′iβ

=e∑m

j=1 Xijβj

1 + e∑m

j=1 Xijβj

=1

1 + e−∑m

j=1 Xijβj.

M.Branda (KPMS MFF UK) Regrese 2012 15 / 33

Logisticka regrese

Logisticka regrese

1+eθ

-4 -2 2 4

0.2

0.4

0.6

0.8

1.0

M.Branda (KPMS MFF UK) Regrese 2012 16 / 33

Logisticka regrese

Logisticka regreseRegresnı model stornovosti

Model pravdepodobnosti storna smlouvy (odchodu ke konkurenci) vzavislosti na

tarifnı skupine dle objemu motoru (TS): 5 kategoriı (do 1000, do1350, do 1850, do 2500, nad 2500 ccm)

velikosti mısta bydliste (region): 4 kategorie (nad 500 000, nad 50000, nad 5 000, do 5 000)

pohlavı (pohlavi): 2 kategorie (1 - zena, 2 - muz)

starı pojistnıka spojite (veks): 18-75 let

M.Branda (KPMS MFF UK) Regrese 2012 17 / 33

Logisticka regrese

Logisticka regreseKriteria pro hodnocenı dobre shody

Kriterium DF Hodnota Hodnota/DF

Deviance 5E4 56802.0249 1.1363Scaled Deviance 5E4 56802.0249 1.1363Pearsonuv Chı-kvad 5E4 49969.3190 0.9996Scaled Pearson X2 5E4 49969.3190 0.9996Log verohodnost -28401.0124

M.Branda (KPMS MFF UK) Regrese 2012 18 / 33

Logisticka regrese

Logisticka regreseAnalyza odhadu parametru

Par. DF Odhad Stand. Waldovy Chı-kv. Pr > ChıKvchyba meze intrv.

spol.

Intercept 1 -1.6157 0.0429 -1.6998 -1.5316 1417.00 <.0001

TS 1 1 -0.3326 0.0323 -0.3959 -0.2692 105.90 <.0001TS 2 1 -0.2814 0.0322 -0.3445 -0.2183 76.36 <.0001TS 3 1 -0.2248 0.0320 -0.2874 -0.1622 49.51 <.0001TS 4 1 -0.0711 0.0314 -0.1326 -0.0095 5.12 0.0237TS 5 0 0.0000 0.0000 0.0000 0.0000 . .

region 1 1 0.4820 0.0290 0.4252 0.5389 275.76 <.0001region 2 1 0.2633 0.0296 0.2053 0.3214 79.06 <.0001region 3 1 0.1272 0.0300 0.0683 0.1860 17.96 <.0001region 4 0 0.0000 0.0000 0.0000 0.0000 . .

pohlavi 1 1 0.5584 0.0206 0.5180 0.5989 731.75 <.0001pohlavi 2 0 0.0000 0.0000 0.0000 0.0000 . .

veks 1 0.0058 0.0006 0.0046 0.0071 82.36 <.0001

Skala 0 1.0000 0.0000 1.0000 1.0000

M.Branda (KPMS MFF UK) Regrese 2012 19 / 33

Logisticka regrese

Logisticka regreseSance, interpretace parametru

Sance

pi

1− pi= exp{x′iβ} = exp{

m∑j=1

Xijβj}.

Pokud zvysıme regresor j o jednotku Xi j + 1, potom pro sanci platı

pi

1− pi= exp

m∑

j=1,j 6=j

Xijβj + (Xi j + 1)βj

= exp

m∑j=1

Xijβj

exp{βj},

tj. eβj vyjadruje zmenu sance pri zvysenı prıslusneho regresoru o jednotku.

M.Branda (KPMS MFF UK) Regrese 2012 20 / 33

Logisticka regrese

Logisticka regresePredikovana hodnota (pravdepodobnost)

TS = 5 (nad 2500 ccm), region = 4 (do 5000), pohlavi = 2 (muz),veks = 22 let

η = −1, 6157 + 0 + 0 + 0 + 22 · 0.0058 = −1, 4881

µ =exp{−1, 4881}

1 + exp{−1, 4881}= 0, 1842.

M.Branda (KPMS MFF UK) Regrese 2012 21 / 33

Logisticka regrese

Logisticka regreseStatistiky LR pro analyzu typu 1

Zdroj Deviance DF Chı-kvadrat Pr > ChıKv

Intercept 58087.7242TS 57937.9201 4 149.80 <.0001region 57626.8576 3 311.06 <.0001pohlavi 56884.5504 1 742.31 <.0001veks 56802.0249 1 82.53 <.0001

Postupne pridavanı regresoru (zalezı na poradı v zadanı).

M.Branda (KPMS MFF UK) Regrese 2012 22 / 33

Logisticka regrese

Logisticka regreseStatistiky LR pro analyzu typu 3

Zdroj DF Chı-kvadrat Pr > ChıKv

TS 4 154.02 <.0001region 3 309.14 <.0001pohlavi 1 743.64 <.0001veks 1 82.53 <.0001

Test vyznamnosti regresoru pri ponechanı vsech ostatnıch regresoru vmodelu (nezalezı na poradı).

M.Branda (KPMS MFF UK) Regrese 2012 23 / 33

Logisticka regrese

ROC krivka

M.Branda (KPMS MFF UK) Regrese 2012 24 / 33

Logisticka regrese

ROC krivkaReceiver Operating Characteristic

ROC krivka slouzı k posouzenı kvality modelu a nastavenı prahovehodnoty.

Na svisle ose grafu je relativnı cetnost skutecne pozitivnıch prıpaduTP, tedy pravdepodobnost, ze jako spravny bude vyhodnocenpozitivnı prıpad: Sensitivity = TP/(TP+FN).

Na vodorovne ose je relativnı cetnost falesne pozitivnıch prıpadu FP,tedy pravdepodobnost, ze jako spravny bude vyhodnocen negativnıprıpad: 1-Specificity = FP/(TN+FP).

skutecnost/predikce 1 0

1 TP FP

0 FN TN

True (T), False (F), Positive (P), Negative (N)

M.Branda (KPMS MFF UK) Regrese 2012 25 / 33

Reference

Obsah

1 Data

2 Linearnı regrese

3 Logisticka regrese

4 Reference

M.Branda (KPMS MFF UK) Regrese 2012 26 / 33

Reference

Reference

M. Denuit, X. Marechal, S. Pitrebois, J.-F. Walhin: ActuarialModelling of Claim Counts: Risk Classification, Credibility andBonus-Malus Systems. John Wiley & Sons, Chichester, 2007.

P. de Jong, G. Z. Heller: Generalized Linear Models for InsuranceData. Cambridge University Press 2008.

P. McCullagh, J.A. Nelder: Generalized Linear Models. 2nd Ed.Chapman and Hall, London, 1989.

K. Zvara: Regrese. Matfyzpress, Praha, 2008.

Zapisky z prednasky Zobecnene linearnı modely (NSTP196), MFFUK, prednasejıcı Doc. Mgr. Michal Kulich, Ph.D.

SAS/STAT 9.3: User’s Guide.

M.Branda (KPMS MFF UK) Regrese 2012 27 / 33

Reference

Dekuji za pozornost.

e-mail: [email protected]: http://artax.karlin.mff.cuni.cz/˜branm1am

M.Branda (KPMS MFF UK) Regrese 2012 28 / 33


Recommended