Lineární metody pro klasifikaci
●Lineární a logistická regrese, LDA, QDA (kvadratická),
● optimální separující nadrovina – bude časem
Tento a některé obrázky z Elem. of Stat. Learning (složitější kniha), zbytek Intro.. (jednodušší)
Lineární regrese pro klasifikaci
Hlavně nekódovat 1,2,3,...● diagnózy atd. není vhodné kódovat 1,2,3,...,● protože
● nemá moc smysl uspořádání,● není důvod věřit ve stejnost intervalů mezi.
● Pro dvouhodnotový cíl lin.reg. ekvivalentní výsledek s LDA, jinak se nedoporučuje používat.
● Tj. pravděpodobnost třídy aproximuji lineární funkcí.
nelineárně by šlo:● lze rozdělit i lineárními řezy.
Lin. reg. 2
P (g i / x)
Logistická regrese● logit funkce (logistická)● Učíme lineární funkci na transformovaný vstup
● Učí se iterativněmaximalizacílog. věrohodnosti.
Naučený model
● tj.
● obecně:
P (default /balance)= e−10.6513+0.0055balance
1+e−10.6513+0.0055balance
P (¬default /balance)= 11+e−10.6513+0.0055balance
Diskrétní vstup: kóduji novými prom.● např. Student=1 pokud „Zam=student“.● Pokud Zam={student, zamest., osvc, duchodce}
● každý (kromě 1) vlastní dummy variable.
Okomentujte výsledky
LDA -Lineární diskriminační analýza● předpokládá normální rozložení X pro jednotlivá g.
LDA● Z dat spočteme:
Vznikne z logaritmu pravděpodobnosti tříd, kvadratický člen (a další) všude stejný, mažeme.
Příklad:
● Pokud by apriorní pravděpodobnost jedné třídy byla nižší, posune se i rozhodovací hranice.
Matice záměn (confusion matrix) vyhodnocení klasifikace
● Chyba klasifikátoru: (252+23)/10000=0.0275● Je klasifikátor:
– skvělý– lepší než triviální– špatný?
Různá cena chyby
● Celkem přestalo splácet 333, my jsme z nich poznali jen 81 – tj. 252 jsme minuli.
● Můžeme brát jako rizikové už ty s pravděpodobnostní default >0.2, pak jich odhalíme víc.● černá: celá chyba● modrá: neplatící● oranž: platící
Klasifikace (diskrétní cíl G)● Chyba daná maticí L rozměru KxK, K počet tříd G.● nuly na diagonále, všude nezáporná● L(k,l) cena za označení prvku G
k jakožto G
l.
● Bayesovsky optimální klasifikátor, bayes rate.
ROC křivka
QDA – každý svou kovarianč. matici
„Ty elipsy mohou být pro různé třídy různé“.● Více parametrů – otázka, zda jsou třeba.● LDA i QDA často používané, často dobré.
QDA či expanze báze – malý rozdíl
Srovnání klasifikátorů● LDA – předpokládá norm. rozložení,● logist. regrese ne,● obojí vede k lineární rozhodovací hranici.
gausovské korelované x t-distribution (placatější)
Srovnání 2
● splněné předpoklady – lepší predikce při méně datech,
● nesplněné – často horší.
normální,různé kovariance
norm., nekorel.cíl fce X
12,X
22,X
1X
2
norm, nekorel,složitější cíl. fce
Shrnutí● Lineární regresi jen pro dvouhodnotový cíl.● LDA, pokud předpokládáme cílové třídy
normálně rozložené (je stabilnější),● logistická regrese – zhruba jako LDA,● QDA – občas se hodí,● nejbližší sousedi umí i libovolně nelineární
hranici; pro jednoduché hranice mohou být výrazně horší.
Co Vás čeká
Optimální separující nadrovina
Reduced rank – ubírání dimenzí
Projekce do dvojic kanonických prom.
Příklad – Samohlásky (Vowels)
(log) Věrohodnost
Trénovací data Predikce likelihood loglikX G Pzelená Pmodrá Pžlutá1 zelená 1/2 0 1/2 1/2 -12 zelená 1/3 1/3 1/3 1/3 -log33 modrá 0 1 0 1 02 modrá 1/3 1/3 1/3 1/3 -log31 žlutá 1/2 0 1/2 1/2 -1
-2-2log3
U logistické regrese:
P pro index zelené