+ All Categories
Home > Documents > Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip...

Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip...

Date post: 30-Mar-2021
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
28
Vytˇ zov´ an´ ı dat Filip ˇ Zelezn´ y Katedra kybernetiky laboratoˇ r Inteligentn´ ı Datov´ e Anal´ yzy (IDA) Evropsk´ y soci´ aln´ ı fond Praha & EU: Investujeme do vaˇ ı budoucnosti Filip ˇ Zelezn´ y ( ˇ CVUT) Vytˇ zov´ an´ ı dat 1 / 27
Transcript
Page 1: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Vytezovanı dat

Filip Zelezny

Katedra kybernetikylaborator Inteligentnı Datove Analyzy (IDA)

Evropsky socialnı fond Praha & EU:Investujeme do vası budoucnosti

Filip Zelezny (CVUT) Vytezovanı dat 1 / 27

Page 2: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Vytezovanı dat: zakladnı myslenky

1, 2, 4, 8, ?Co nasleduje?

16Odpovıda vzoru

x1 =1xk =2xk−1 (k ≥ 2)

Vytezovanı dat = hledanı srozumitelnych vzoru v datech

Filip Zelezny (CVUT) Vytezovanı dat 2 / 27

Page 3: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Vzor vs. Data

Odvozovanı dat ze vzoru:

xk = 2xk−1 1, 2, 4, 8, . . .

Vytezovanı dat

1, 2, 4, 8, . . . xk = 2xk−1

vzor ≈ predpis ≈ model ≈ hypoteza ≈ teorie ≈ . . .Filip Zelezny (CVUT) Vytezovanı dat 3 / 27

Page 4: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Vyuzitı vzoru

xk = 2xk−1

Predikce(x5 = 16, x6 = 32, . . .)Zlepsenı rozhodovanı

Interpretace clovekem(vzor vyjadruje znalost)

Porozumenı procesum

Filip Zelezny (CVUT) Vytezovanı dat 4 / 27

Page 5: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Vytezovanı dat (Data Mining)

”Data Mining je netrivialnı proces identifikace pravdivych, dosud

neznamych, potencialne vyuzitelnych a zcela srozumitelnych vzoruv datech” (Fayyad)

Pouzıva techniky oboru

statistika

strojove ucenı (umela inteligence)

databazove technologie

vizualizace dat

Filip Zelezny (CVUT) Vytezovanı dat 5 / 27

Page 6: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Realne prıklady vytezovanı: Asociace v nakupnıch kosıcıch

pivo parky horcice pleny . . .

+ − − ++ + + −− + − −

(atd.)

pleny → pivo

Filip Zelezny (CVUT) Vytezovanı dat 6 / 27

Page 7: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Realne prıklady vytezovanı: Predikce karcinogenity

karcinogennı kontrolnı

v karcinogennıch

Filip Zelezny (CVUT) Vytezovanı dat 7 / 27

Page 8: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Realne prıklady vytezovanı: Rozpoznavanı obrazu

6

Filip Zelezny (CVUT) Vytezovanı dat 8 / 27

Page 9: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Struktura a parametry vzoru

Vzory jsou rozlicnych druhu(rovnice, pravidla, grafy, ...).

Rozlisujeme jejich

diskretnı strukturu

realne parametry

struktura parametry

xk = axk−1 a

pleny → pivo(zadne)

(zadne)

vahy synapsı W

Filip Zelezny (CVUT) Vytezovanı dat 9 / 27

Page 10: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Parametricke vs. neparametricke metody

Parametricke metody:

Struktura je zadana predem

Ukolem vytezovanı je vyhledat hodnoty parametru ~a ∈ Rn

maximalizujıcı soulad s daty

Neparametricke metody:

Hleda se struktura i prıpadne parametry

Struktura se hleda v nejake predepsane konecne mnozine struktur S

Zaujetı algoritmu

Cım mensı n resp. S, tım vetsı zaujetı vytezovacıho algoritmu. Vetsızaujetı = mensı flexibilita = mensı moznost adaptace na data.

Filip Zelezny (CVUT) Vytezovanı dat 10 / 27

Page 11: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Zaujetı

y = a1x

y = a1x+ a2x2 + a3x

3

prılis slabe zaujetı, velka flexibilita

Filip Zelezny (CVUT) Vytezovanı dat 11 / 27

Page 12: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Zaujetı

y = a1x

y = a1x+ a2x2 + a3x

3

prılis silne zaujetı, mala flexibilita

Filip Zelezny (CVUT) Vytezovanı dat 12 / 27

Page 13: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Vytezovanı dat: definice 1

Uloha nalezenı mnoziny vzoru φ

{φ ∈ L | platı q(D,φ)}

Prohledavana mnozina,tj. zaujetı algoritmu.Obsahuje vsechnyprıpustne vzory.

Vstupnı data

Vyhodnocovacı predikat.Platı, pokud φ je v sou-ladu s D

Filip Zelezny (CVUT) Vytezovanı dat 13 / 27

Page 14: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Vytezovanı dat: definice 2

Uloha nalezenı nejlepsıho vzoru φ∗

φ∗ = arg maxφ∈L

q(D,φ)

Prohledavana mnozina,tj. zaujetı algoritmu

Vstupnı data

Vyhodnocovacı funkce. Merı kvalitu φvzhledem k D. Muze zohlednit i vlastnostinezavisle na D, napr. slozitost vzoru.

Pro parametricke metody: hledame optimalnı parametry pro zadanoustrukturu S. Zde tedy L = {(S,~a) | ~a ∈ Rn}

Filip Zelezny (CVUT) Vytezovanı dat 14 / 27

Page 15: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Jak hledat vzory

Konkretnı techniky: v dalsıch prednaskach

Obecne:

Parametricke metody: optimalnı parametry lze nekdy vyjadrit aspocıtat analyticky, jindy prohledavanı L (“pokus-omyl”)

Neparametricke metody: temer vzdy prohledavanı

Filip Zelezny (CVUT) Vytezovanı dat 15 / 27

Page 16: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Volba zaujetı

Konkretnı techniky: v dalsıch prednaskach

Obecne:

Volıme dleI typu dat (grafy, vektory realnych cısel, ...)I toho, co se chceme dozvedetI dostupnosti algoritmu (ruzna zaujetı - ruzne algoritmy)

Cım vıce o datech predem vıme, tım silnejsı zaujetı muzeme stanovit

I Napr. data lezı na prımce ⇒ y = ax, hledame jen a

Occamova britva: “fungujı-li” dva vzory stejne dobre na datech,preferujeme ten jednodussı

Filip Zelezny (CVUT) Vytezovanı dat 16 / 27

Page 17: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Generativnı modely

x1 =1xk =2xk−1 (k ≥ 2)

pleny → pivo

Generativnı (tez globalnı) model

Vzor jednoznacne urcujıcı, jakgenerovat data

Ostatnı (lokalnı) vzory fungujıjako omezujıcı podmınky

Nejsou predpisem progenerovanı dat

Filip Zelezny (CVUT) Vytezovanı dat 17 / 27

Page 18: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Data: statisticke predpoklady

Budou nalezene vzory platit i v budoucıch datech? Neplatı ve vytezenychdatech jen nahodou?

Je treba zavest statisticke predpoklady na data:

Uvazujeme mnozinu vsech moznych instancı XI obsahy nakupnıch kosıku, grafy molekul, radky v relacnı tabulce, ...

Pravdepodobnostnı rozdelenı PX na X

Data: D je multimnozina

D = {x1, x2, . . . xm} (m ∈ N)

prvky vybrany nahodne a navzajem nezavisle z PX

Vzor se bude pouzıvat na tomtez X a PX .

Filip Zelezny (CVUT) Vytezovanı dat 18 / 27

Page 19: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Data: statisticke predpoklady (pokr.)

Nalezene generativnı vzory pak aproximujı PX , napr.

PX(x) = N(µ, σ)

Jine typy nalezenych vzoru zachycujı urcite vlastnosti PX , napr.

pivo → pleny

rıka, ze PX(x) je mala pro instance x v nichz implikace neplatı.

Takto definovane uloze rıkame ucenı (vytezovanı) bez ucitele(terminologie strojoveho ucenı)

Cvicenı

Jak za prave definovanych statistickych predpokladu zformulovat ulohuvytezovanı z uvodu prednasky (str. 2)?

Filip Zelezny (CVUT) Vytezovanı dat 19 / 27

Page 20: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Ucenı s ucitelem

Specialnı, zvlaste casta uloha vytezovanı: najıt vzor pro predpovıdanı cıloveveliciny (trıdy) instance ze zbyleho popisu instance. Prıklad:

karcinogennı kontrolnı

Vedle X uvazujeme jeste Y : mnozinu hodnot cılove veliciny. Zde

X: struktury molekul (grafy)

Y = {karcinogennı, kontrolnı}

Filip Zelezny (CVUT) Vytezovanı dat 20 / 27

Page 21: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Ucenı s ucitelem (pokr.)

Predpoklady na data:

Pravdepodobnostnı rozdelenı PXY na X × YData: D je multimnozina

D = {(x1, y1), (x2, y2), . . . (xm, y2)} (m ∈ N)

prvky vybrany nahodne a navzajem nezavisle z PXY

Vzor se bude pouzıvat na tomtez X, Y a PXY

Obvykle hledame vzory aproximujıcı

podmınenou pravdepodobnost PY |X(y|x) = PXY (x, y)/PX(x)nebo nejpravdepodobnejsı hodnotu arg maxy∈Y PY |X(y|x)

pro zadane x ∈ X.

Filip Zelezny (CVUT) Vytezovanı dat 21 / 27

Page 22: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Ucenı s ucitelem: prıklad

Napr. nalezeny vzor

v karcinogennıch

interpretujeme jako

PY |X(y, x) =

{1 je-li tato struktura v x

0 jinak

resp.

y =

{karcinogennı, je-li tato struktura v x

jinak kontrolnı

Filip Zelezny (CVUT) Vytezovanı dat 22 / 27

Page 23: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Ucenı s ucitelem (pokr.)

Proc “ucenı s ucitelem”? Terminologie strojoveho ucenı.

“Ucitel” poskytuje x i y prostrednictvım dat D (trenovacı data)

“Zak” (algoritmus) se ucı odvozovat y z x (trenovacı faze)

Potom ucitel zadava pouze x a zak odhaduje y pomocı naucenychvzoru

Filip Zelezny (CVUT) Vytezovanı dat 23 / 27

Page 24: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Prıznakovy popis

Vetsina znamych vytezovacıch algoritmu umı pracovat pouze s daty vprıznakovem popisu. Predpokladajı, ze

X = X1 ×X2 × . . .×Xn (n ∈ N)

kde kazde Xi je obor hodnot prıznaku i, napr.

Xi = R (realna cısla)

Xi = {muz, zena} (kategorie)

tedy pouze “jednoduche” datove typy, ne struktury, grafy apod.

Nektere algoritmy dale omezujı prıpustne typy prıznaku, napr. pouzenumericke, pouze kategoricke (‘nominalnı’), pouze binarnı ...

Filip Zelezny (CVUT) Vytezovanı dat 24 / 27

Page 25: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Prıznakovy popis (pokr.)

Data D = {x1, x2, . . . xm} (m ∈ N), xi ∈ X (1 ≤ i ≤ m) jsou tedyn-ticemi hodnot prıznaku.

Prıklad:

x1:x2:x3:x4:

vek pohlavı kurak rakovina56 muz + +32 zena − −48 zena + +60 muz + +

Prıznakova data tedy tvorı matici odpovıdajıcı jedne tabulce relacnıdatabaze.

Jednotlive instance jsou jejı radky.

Filip Zelezny (CVUT) Vytezovanı dat 25 / 27

Page 26: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Prıznakovy popis (pokr.)

Co s daty, ktera nejsou v prıznakovem popisu?

grafy

relacnı struktury

signaly (napr. zvuk)

obrazy

cıselne rady

texty

Pouzıt specializovanych algoritmu

graph mining, text mining, induktivnı logicke programovanı,pocıtacove videnı, ...

Prevest na prıznakovou reprezentaci

nelehky ukol, je treba zachovat podstatnou informaci.

(mimo rozsah tohoto kursu)

Filip Zelezny (CVUT) Vytezovanı dat 26 / 27

Page 27: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Prehled prednasek

1 Uvod

2 Odhad parametru Gaussovske smesi, EM algoritmus

3 Graficke pravdepodobnostı modely

4 Shlukova analyza

5 Samoorganizujıcı se mapy

6 Caste mnoziny a asociacnı pravidla

7 Klasifikacnı uloha, klasifikace dle podobnosti a Bayesovska

8 Rozhodovacı stromy a pravidla

9 Linearnı a polynomialnı klasifikace

10 Perceptron a neuronove sıte s doprednou strukturou

11 Testovanı modelu

12 Kombinovanı modelu a vyber prıznaku

13 Rezerva (aplikace vytezovanı dat)

Bez ucitele S ucitelem

Filip Zelezny (CVUT) Vytezovanı dat 27 / 27

Page 28: Filip Zelezn y - cvut.cz · 2012. 3. 22. · pleny !pivo ( z adn e) ( z adn e) v ahy synaps W Filip Zelezn y ( CVUT) Vyt e zov an dat 9 / 27. Parametrick e vs. neparametrick e metody

Prehled prednasek

1 Uvod

2 Odhad parametru Gaussovske smesi, EM algoritmus

3 Graficke pravdepodobnostı modely

4 Shlukova analyza

5 Samoorganizujıcı se mapy

6 Caste mnoziny a asociacnı pravidla

7 Klasifikacnı uloha, klasifikace dle podobnosti a Bayesovska

8 Rozhodovacı stromy a pravidla

9 Linearnı a polynomialnı klasifikace

10 Perceptron a neuronove sıte s doprednou strukturou

11 Testovanı modelu

12 Kombinovanı modelu a vyber prıznaku

13 Rezerva (aplikace vytezovanı dat)

Parametricke Neparametricke

Filip Zelezny (CVUT) Vytezovanı dat 27 / 27


Recommended