+ All Categories
Home > Documents > Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární...

Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární...

Date post: 27-Nov-2020
Category:
Upload: others
View: 17 times
Download: 0 times
Share this document with a friend
26
Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální separující nadrovina – bude časem Tento a některé obrázky z Elem. of Stat. Learning (složitější kniha), zbytek Intro.. (jednodušší)
Transcript
Page 1: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Lineární metody pro klasifikaci

●Lineární a logistická regrese, LDA, QDA (kvadratická),

● optimální separující nadrovina – bude časem

Tento a některé obrázky z Elem. of Stat. Learning (složitější kniha), zbytek Intro.. (jednodušší)

Page 2: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Lineární regrese pro klasifikaci

Page 3: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Hlavně nekódovat 1,2,3,...● diagnózy atd. není vhodné kódovat 1,2,3,...,● protože

● nemá moc smysl uspořádání,● není důvod věřit ve stejnost intervalů mezi.

● Pro dvouhodnotový cíl lin.reg. ekvivalentní výsledek s LDA, jinak se nedoporučuje používat.

Page 4: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

● Tj. pravděpodobnost třídy aproximuji lineární funkcí.

nelineárně by šlo:● lze rozdělit i lineárními řezy.

Lin. reg. 2

P (g i / x)

Page 5: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Logistická regrese● logit funkce (logistická)● Učíme lineární funkci na transformovaný vstup

● Učí se iterativněmaximalizacílog. věrohodnosti.

Page 6: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Naučený model

● tj.

● obecně:

P (default /balance)= e−10.6513+0.0055balance

1+e−10.6513+0.0055balance

P (¬default /balance)= 11+e−10.6513+0.0055balance

Page 7: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Diskrétní vstup: kóduji novými prom.● např. Student=1 pokud „Zam=student“.● Pokud Zam={student, zamest., osvc, duchodce}

● každý (kromě 1) vlastní dummy variable.

Page 8: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Okomentujte výsledky

Page 9: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

LDA -Lineární diskriminační analýza● předpokládá normální rozložení X pro jednotlivá g.

Page 10: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

LDA● Z dat spočteme:

Vznikne z logaritmu pravděpodobnosti tříd, kvadratický člen (a další) všude stejný, mažeme.

Page 11: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Příklad:

● Pokud by apriorní pravděpodobnost jedné třídy byla nižší, posune se i rozhodovací hranice.

Page 12: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Matice záměn (confusion matrix) vyhodnocení klasifikace

● Chyba klasifikátoru: (252+23)/10000=0.0275● Je klasifikátor:

– skvělý– lepší než triviální– špatný?

Page 13: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Různá cena chyby

● Celkem přestalo splácet 333, my jsme z nich poznali jen 81 – tj. 252 jsme minuli.

● Můžeme brát jako rizikové už ty s pravděpodobnostní default >0.2, pak jich odhalíme víc.● černá: celá chyba● modrá: neplatící● oranž: platící

Page 14: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Klasifikace (diskrétní cíl G)● Chyba daná maticí L rozměru KxK, K počet tříd G.● nuly na diagonále, všude nezáporná● L(k,l) cena za označení prvku G

k jakožto G

l.

● Bayesovsky optimální klasifikátor, bayes rate.

Page 15: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

ROC křivka

Page 16: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

QDA – každý svou kovarianč. matici

„Ty elipsy mohou být pro různé třídy různé“.● Více parametrů – otázka, zda jsou třeba.● LDA i QDA často používané, často dobré.

Page 17: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

QDA či expanze báze – malý rozdíl

Page 18: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Srovnání klasifikátorů● LDA – předpokládá norm. rozložení,● logist. regrese ne,● obojí vede k lineární rozhodovací hranici.

gausovské korelované x t-distribution (placatější)

Page 19: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Srovnání 2

● splněné předpoklady – lepší predikce při méně datech,

● nesplněné – často horší.

normální,různé kovariance

norm., nekorel.cíl fce X

12,X

22,X

1X

2

norm, nekorel,složitější cíl. fce

Page 20: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Shrnutí● Lineární regresi jen pro dvouhodnotový cíl.● LDA, pokud předpokládáme cílové třídy

normálně rozložené (je stabilnější),● logistická regrese – zhruba jako LDA,● QDA – občas se hodí,● nejbližší sousedi umí i libovolně nelineární

hranici; pro jednoduché hranice mohou být výrazně horší.

Page 21: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Co Vás čeká

Page 22: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Optimální separující nadrovina

Page 23: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Reduced rank – ubírání dimenzí

Page 24: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Projekce do dvojic kanonických prom.

Page 25: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

Příklad – Samohlásky (Vowels)

Page 26: Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární metody pro klasifikaci Lineární a logistická regrese, LDA, QDA (kvadratická), optimální

(log) Věrohodnost

Trénovací data Predikce likelihood loglikX G Pzelená Pmodrá Pžlutá1 zelená 1/2 0 1/2 1/2 -12 zelená 1/3 1/3 1/3 1/3 -log33 modrá 0 1 0 1 02 modrá 1/3 1/3 1/3 1/3 -log31 žlutá 1/2 0 1/2 1/2 -1

-2-2log3

U logistické regrese:

P pro index zelené


Recommended