Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární...

Lineární metody pro klasifikaci

●Lineární a logistická regrese, LDA, QDA (kvadratická),

● optimální separující nadrovina – bude časem

Tento a některé obrázky z Elem. of Stat. Learning (složitější kniha), zbytek Intro.. (jednodušší)

Lineární regrese pro klasifikaci

Hlavně nekódovat 1,2,3,...● diagnózy atd. není vhodné kódovat 1,2,3,...,● protože

● nemá moc smysl uspořádání,● není důvod věřit ve stejnost intervalů mezi.

● Pro dvouhodnotový cíl lin.reg. ekvivalentní výsledek s LDA, jinak se nedoporučuje používat.

● Tj. pravděpodobnost třídy aproximuji lineární funkcí.

nelineárně by šlo:● lze rozdělit i lineárními řezy.

Lin. reg. 2

P (g i / x)

Logistická regrese● logit funkce (logistická)● Učíme lineární funkci na transformovaný vstup

● Učí se iterativněmaximalizacílog. věrohodnosti.

Naučený model

● tj.

● obecně:

P (default /balance)= e−10.6513+0.0055balance

1+e−10.6513+0.0055balance

P (¬default /balance)= 11+e−10.6513+0.0055balance

Diskrétní vstup: kóduji novými prom.● např. Student=1 pokud „Zam=student“.● Pokud Zam={student, zamest., osvc, duchodce}

● každý (kromě 1) vlastní dummy variable.

Okomentujte výsledky

LDA -Lineární diskriminační analýza● předpokládá normální rozložení X pro jednotlivá g.

LDA● Z dat spočteme:

Vznikne z logaritmu pravděpodobnosti tříd, kvadratický člen (a další) všude stejný, mažeme.

Příklad:

● Pokud by apriorní pravděpodobnost jedné třídy byla nižší, posune se i rozhodovací hranice.

Matice záměn (confusion matrix) vyhodnocení klasifikace

● Chyba klasifikátoru: (252+23)/10000=0.0275● Je klasifikátor:

– skvělý– lepší než triviální– špatný?

Různá cena chyby

● Celkem přestalo splácet 333, my jsme z nich poznali jen 81 – tj. 252 jsme minuli.

● Můžeme brát jako rizikové už ty s pravděpodobnostní default >0.2, pak jich odhalíme víc.● černá: celá chyba● modrá: neplatící● oranž: platící

Klasifikace (diskrétní cíl G)● Chyba daná maticí L rozměru KxK, K počet tříd G.● nuly na diagonále, všude nezáporná● L(k,l) cena za označení prvku G

k jakožto G

l.

● Bayesovsky optimální klasifikátor, bayes rate.

ROC křivka

QDA – každý svou kovarianč. matici

„Ty elipsy mohou být pro různé třídy různé“.● Více parametrů – otázka, zda jsou třeba.● LDA i QDA často používané, často dobré.

QDA či expanze báze – malý rozdíl

Srovnání klasifikátorů● LDA – předpokládá norm. rozložení,● logist. regrese ne,● obojí vede k lineární rozhodovací hranici.

gausovské korelované x t-distribution (placatější)

Srovnání 2

● splněné předpoklady – lepší predikce při méně datech,

● nesplněné – často horší.

normální,různé kovariance

norm., nekorel.cíl fce X

12,X

22,X

1X

2

norm, nekorel,složitější cíl. fce

Shrnutí● Lineární regresi jen pro dvouhodnotový cíl.● LDA, pokud předpokládáme cílové třídy

normálně rozložené (je stabilnější),● logistická regrese – zhruba jako LDA,● QDA – občas se hodí,● nejbližší sousedi umí i libovolně nelineární

hranici; pro jednoduché hranice mohou být výrazně horší.

Co Vás čeká

Optimální separující nadrovina

Reduced rank – ubírání dimenzí

Projekce do dvojic kanonických prom.

Příklad – Samohlásky (Vowels)

(log) Věrohodnost

Trénovací data Predikce likelihood loglikX G Pzelená Pmodrá Pžlutá1 zelená 1/2 0 1/2 1/2 -12 zelená 1/3 1/3 1/3 1/3 -log33 modrá 0 1 0 1 02 modrá 1/3 1/3 1/3 1/3 -log31 žlutá 1/2 0 1/2 1/2 -1

-2-2log3

U logistické regrese:

P pro index zelené

Date post:	27-Nov-2020
Category:	Documents
Upload:	others
View:	17 times
Download:	0 times

Lineární metody pro klasifikacikti.mff.cuni.cz/~marta/nove3.pdf · 2015. 3. 4. · Lineární...

Documents