+ All Categories
Home > Documents > Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v...

Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v...

Date post: 30-Mar-2021
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
29
Vytˇ zov´ an´ ı dat Miroslav ˇ Cepek, Filip ˇ Zelezn´ y Katedra kybernetiky laboratoˇ r Inteligentn´ ı Datov´ e Anal´ yzy (IDA) Katedra poˇ ıtaˇ u, Computational Intelligence Group Evropsk´ y soci´ aln´ ı fond Praha & EU: Investujeme do vaˇ ı budoucnosti Miroslav ˇ Cepek, Filip ˇ Zelezn´ y ( ˇ CVUT) Vytˇ zov´ an´ ı dat 1 / 28
Transcript
Page 1: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Vytezovanı dat

Miroslav Cepek, Filip Zelezny

Katedra kybernetikylaborator Inteligentnı Datove Analyzy (IDA)

Katedra pocıtacu, Computational Intelligence Group

Evropsky socialnı fond Praha & EU:Investujeme do vası budoucnosti

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 1 / 28

Page 2: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Vytezovanı dat: zakladnı myslenky

1, 2, 4, 8, ?Co nasleduje?

16Odpovıda vzoru

x1 =1

xk =2xk−1 (k ≥ 2)

Vytezovanı dat = hledanı srozumitelnych vzoru v datech

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 2 / 28

Page 3: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Vzor vs. Data

Odvozovanı dat ze vzoru:

xk = 2xk−1 1, 2, 4, 8, . . .

Vytezovanı dat

1, 2, 4, 8, . . . xk = 2xk−1

vzor ≈ predpis ≈ model ≈ hypoteza ≈ teorie ≈ . . .Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 3 / 28

Page 4: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Vyuzitı vzoru

xk = 2xk−1

Predikce(x5 = 16, x6 = 32, . . .)

Zlepsenı rozhodovanı

Interpretace clovekem(vzor vyjadruje znalost)

Porozumenı procesum

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 4 / 28

Page 5: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Vytezovanı dat (Data Mining)

”Data Mining je netrivialnı proces identifikace pravdivych, dosud

neznamych, potencialne vyuzitelnych a zcela srozumitelnych vzoruv datech” (Fayyad)

Pouzıva techniky oboru

statistika

strojove ucenı (umela inteligence)

databazove technologie

vizualizace dat

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 5 / 28

Page 6: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Realne prıklady vytezovanı: Asociace v nakupnıch kosıcıch

pivo parky horcice pleny . . .

+ − − ++ + + −− + − −

(atd.)

pleny → pivo

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 6 / 28

Page 7: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Realne prıklady vytezovanı: Predikce karcinogenity

karcinogennı kontrolnı

v karcinogennıch

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 7 / 28

Page 8: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Realne prıklady vytezovanı: Rozpoznavanı obrazu

6

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 8 / 28

Page 9: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Dalsı aplikace dataminingu

Odhalovanı pojistnych podvodu

Predikce klientu, kterı odpovı na reklamnı nabıdku

Vyhledavanı klientu, kterı chtejı odejıt

Segmentace klientu

Identifikace produktu, ktere klient bude chtıt

Doporucovanı obsahu

Klasifikace EKG signalu

Analyza socialnıch vztahu

Analyza textu

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 9 / 28

Page 10: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Struktura a parametry vzoru

Vzory jsou rozlicnych druhu(rovnice, pravidla, grafy, ...).

Rozlisujeme jejich

diskretnı strukturu

realne parametry

struktura parametry

xk = axk−1 a

pleny → pivo(zadne)

(zadne)

vahy synapsı W

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 10 / 28

Page 11: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Parametricke vs. neparametricke metody

Parametricke metody:

Struktura je zadana predem

Ukolem vytezovanı je vyhledat hodnoty parametru ~a ∈ Rn

maximalizujıcı soulad s daty

Neparametricke metody:

Hleda se struktura i prıpadne parametry

Struktura se hleda v nejake predepsane konecne mnozine struktur S

Zaujetı algoritmu

Cım mensı n resp. S, tım vetsı zaujetı vytezovacıho algoritmu. Vetsızaujetı = mensı flexibilita = mensı moznost adaptace na data.

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 11 / 28

Page 12: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Zaujetı

y = a1x

y = a1x+ a2x2 + a3x

3

prılis slabe zaujetı, velka flexibilita

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 12 / 28

Page 13: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Zaujetı

y = a1x

y = a1x+ a2x2 + a3x

3

prılis silne zaujetı, mala flexibilita

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 13 / 28

Page 14: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Vytezovanı dat: definice 1

Uloha nalezenı mnoziny vzoru φ

{φ ∈ L | platı q(D,φ)}

Prohledavana mnozina,tj. zaujetı algoritmu.Obsahuje vsechnyprıpustne vzory.

Vstupnı data

Vyhodnocovacı predikat.Platı, pokud φ je v sou-ladu s D

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 14 / 28

Page 15: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Vytezovanı dat: definice 2

Uloha nalezenı nejlepsıho vzoru φ∗

φ∗ = argmaxφ∈L

q(D,φ)

Prohledavana mnozina,tj. zaujetı algoritmu

Vstupnı data

Vyhodnocovacı funkce. Merı kvalitu φvzhledem k D. Muze zohlednit i vlastnostinezavisle na D, napr. slozitost vzoru.

Pro parametricke metody: hledame optimalnı parametry pro zadanoustrukturu S. Zde tedy L = {(S,~a) | ~a ∈ Rn}

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 15 / 28

Page 16: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Jak hledat vzory

Konkretnı techniky: v dalsıch prednaskach

Obecne:

Parametricke metody: optimalnı parametry lze nekdy vyjadrit aspocıtat analyticky, jindy prohledavanı L (“pokus-omyl”)

Neparametricke metody: temer vzdy prohledavanı

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 16 / 28

Page 17: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Volba zaujetı

Konkretnı techniky: v dalsıch prednaskach

Obecne:

Volıme dleI typu dat (grafy, vektory realnych cısel, ...)I toho, co se chceme dozvedetI dostupnosti algoritmu (ruzna zaujetı - ruzne algoritmy)

Cım vıce o datech predem vıme, tım silnejsı zaujetı muzeme stanovit

I Napr. data lezı na prımce ⇒ y = ax, hledame jen a

Occamova britva: “fungujı-li” dva vzory stejne dobre na datech,preferujeme ten jednodussı

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 17 / 28

Page 18: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Generativnı modely

x1 =1

xk =2xk−1 (k ≥ 2)pleny → pivo

Generativnı (tez globalnı) model

Vzor jednoznacne urcujıcı, jakgenerovat data

Ostatnı (lokalnı) vzory fungujıjako omezujıcı podmınky

Nejsou predpisem progenerovanı dat

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 18 / 28

Page 19: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Data: statisticke predpoklady

Budou nalezene vzory platit i v budoucıch datech? Neplatı ve vytezenychdatech jen nahodou?

Je treba zavest statisticke predpoklady na data:

Uvazujeme mnozinu vsech moznych instancı XI obsahy nakupnıch kosıku, grafy molekul, radky v relacnı tabulce, ...

Pravdepodobnostnı rozdelenı PX na X

Data: D je multimnozina

D = {x1, x2, . . . xm} (m ∈ N)

prvky vybrany nahodne a navzajem nezavisle z PX

Vzor se bude pouzıvat na tomtez X a PX .

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 19 / 28

Page 20: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Data: statisticke predpoklady (pokr.)

Nalezene generativnı vzory pak aproximujı PX , napr.

PX(x) = N(µ, σ)

Jine typy nalezenych vzoru zachycujı urcite vlastnosti PX , napr.

pivo → pleny

rıka, ze PX(x) je mala pro instance x v nichz implikace neplatı.

Takto definovane uloze rıkame ucenı (vytezovanı) bez ucitele(terminologie strojoveho ucenı)

Cvicenı

Jak za prave definovanych statistickych predpokladu zformulovat ulohuvytezovanı z uvodu prednasky (str. 2)?

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 20 / 28

Page 21: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Ucenı s ucitelem

Specialnı, zvlaste casta uloha vytezovanı: najıt vzor pro predpovıdanı cıloveveliciny (trıdy) instance ze zbyleho popisu instance. Prıklad:

karcinogennı kontrolnı

Vedle X uvazujeme jeste Y : mnozinu hodnot cılove veliciny. Zde

X: struktury molekul (grafy)

Y = {karcinogennı, kontrolnı}

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 21 / 28

Page 22: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Ucenı s ucitelem (pokr.)

Predpoklady na data:

Pravdepodobnostnı rozdelenı PXY na X × YData: D je multimnozina

D = {(x1, y1), (x2, y2), . . . (xm, y2)} (m ∈ N)

prvky vybrany nahodne a navzajem nezavisle z PXY

Vzor se bude pouzıvat na tomtez X, Y a PXY

Obvykle hledame vzory aproximujıcı

podmınenou pravdepodobnost PY |X(y|x) = PXY (x, y)/PX(x)

nebo nejpravdepodobnejsı hodnotu argmaxy∈Y PY |X(y|x)pro zadane x ∈ X.

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 22 / 28

Page 23: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Ucenı s ucitelem: prıklad

Napr. nalezeny vzor

v karcinogennıch

interpretujeme jako

PY |X(y, x) =

{1 je-li tato struktura v x

0 jinak

resp.

y =

{karcinogennı, je-li tato struktura v x

jinak kontrolnı

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 23 / 28

Page 24: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Ucenı s ucitelem (pokr.)

Proc “ucenı s ucitelem”? Terminologie strojoveho ucenı.

“Ucitel” poskytuje x i y prostrednictvım dat D (trenovacı data)

“Zak” (algoritmus) se ucı odvozovat y z x (trenovacı faze)

Potom ucitel zadava pouze x a zak odhaduje y pomocı naucenychvzoru

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 24 / 28

Page 25: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Prıznakovy popis

Vetsina znamych vytezovacıch algoritmu umı pracovat pouze s daty vprıznakovem popisu. Predpokladajı, ze

X = X1 ×X2 × . . .×Xn (n ∈ N)

kde kazde Xi je obor hodnot prıznaku i, napr.

Xi = R (realna cısla)

Xi = {muz, zena} (kategorie)

tedy pouze “jednoduche” datove typy, ne struktury, grafy apod.

Nektere algoritmy dale omezujı prıpustne typy prıznaku, napr. pouzenumericke, pouze kategoricke (‘nominalnı’), pouze binarnı ...

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 25 / 28

Page 26: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Prıznakovy popis (pokr.)

Data D = {x1, x2, . . . xm} (m ∈ N), xi ∈ X (1 ≤ i ≤ m) jsou tedyn-ticemi hodnot prıznaku.

Prıklad:

x1:x2:x3:x4:

vek pohlavı kurak rakovina56 muz + +32 zena − −48 zena + +60 muz + +

Prıznakova data tedy tvorı matici odpovıdajıcı jedne tabulce relacnıdatabaze.

Jednotlive instance jsou jejı radky.

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 26 / 28

Page 27: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Prıznakovy popis (pokr.)

Co s daty, ktera nejsou v prıznakovem popisu?

grafy

relacnı struktury

signaly (napr. zvuk)

obrazy

cıselne rady

texty

Pouzıt specializovanych algoritmu

graph mining, text mining, induktivnı logicke programovanı,pocıtacove videnı, ...

Prevest na prıznakovou reprezentaci

nelehky ukol, je treba zachovat podstatnou informaci.

(mimo rozsah tohoto kursu)

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 27 / 28

Page 28: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Prehled prednasek

1 Uvod

2 Odhad parametru Gaussovske smesi, EM algoritmus

3 Graficke pravdepodobnostı modely

4 Shlukova analyza

5 Samoorganizujıcı se mapy

6 Caste mnoziny a asociacnı pravidla

7 Klasifikacnı uloha, klasifikace dle podobnosti a Bayesovska

8 Rozhodovacı stromy a pravidla

9 Linearnı a polynomialnı klasifikace

10 Perceptron a neuronove sıte s doprednou strukturou

11 Testovanı modelu

12 Kombinovanı modelu a vyber prıznaku

13 Rezerva (aplikace vytezovanı dat)

Bez ucitele S ucitelem

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 28 / 28

Page 29: Miroslav Cepek, Filip Zelezn y - cvut.cz · 2012. 9. 17. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Miroslav Cepek, Filip Zelezn y ( CVUT) Vyt e zov an dat 10 / 28. Parametrick

Prehled prednasek

1 Uvod

2 Odhad parametru Gaussovske smesi, EM algoritmus

3 Graficke pravdepodobnostı modely

4 Shlukova analyza

5 Samoorganizujıcı se mapy

6 Caste mnoziny a asociacnı pravidla

7 Klasifikacnı uloha, klasifikace dle podobnosti a Bayesovska

8 Rozhodovacı stromy a pravidla

9 Linearnı a polynomialnı klasifikace

10 Perceptron a neuronove sıte s doprednou strukturou

11 Testovanı modelu

12 Kombinovanı modelu a vyber prıznaku

13 Rezerva (aplikace vytezovanı dat)

Parametricke Neparametricke

Miroslav Cepek, Filip Zelezny (CVUT) Vytezovanı dat 28 / 28


Recommended