+ All Categories
Home > Documents > Klastrování - kti.mff.cuni.czkti.mff.cuni.cz/~marta/nove8.pdf · Klastrování (učení bez...

Klastrování - kti.mff.cuni.czkti.mff.cuni.cz/~marta/nove8.pdf · Klastrování (učení bez...

Date post: 30-Apr-2019
Category:
Upload: hacong
View: 223 times
Download: 0 times
Share this document with a friend
25
Transcript

Klastrování(učení bez učitele)

● Barvu určujeme my, není předem známá.● Chceme: blízké body označit stejnou barvou.

K-means (průměry)

!

K úvaze o vážení atributů● ponožky/počítače

● a) počet prodaných, b) normalizované, c) $

Po normalizaci přirozené klastry „zmizely“

GAP pro opt. počet klastrů● GAP(k)=oček.nez.data W'(k)-pozorované W(k)

medoid,

Příklad: (ne)podobnost zemí

Hierarchické klastrování

Interpretace dendrogramu

9 a 2 si nejsou moc blízké(!)

Blízkost dle korelace

Hlavní komponenty (křivky, povrchy)

Hlavní komponenty, vlastní čísla, ...

● Analýza hlavních komponent dat Rp vydá nejlepší lineární aproximace pro všechny řády q<r.

● lin. model řádu q: – μ: pozice nadroviny, – V ortogonální matice jednotkových sloupcových vektorů

qxq, – λ parametry, tj. projekce datových příkladů.

● Minimalizujeme chybu rekonstrukce

● částečnou optimalizací

Rozklad matice● Pro jednoduchost předpokládáme

jinak posuneme● Data poskládáme jako řádky Nxp matice X.● Matici X rozložíme:

● levé vlastní vektory● vlastní čísla

na diagonále diag. matice● pravé vlastní vektory: sloupce

● pro dané q bereme prvních q sloupců V.

● Sloupce UD se nazývají hlavní komponenty,● optimální jsou určeny prvními q hlavními

komponentami

● U q=1● směrnice přímky v

1

● nejbližší bod projekce na přímce● vzdálenost od počátku po přímce


Recommended