Klastrování(učení bez učitele)
● Barvu určujeme my, není předem známá.● Chceme: blízké body označit stejnou barvou.
Hlavní komponenty, vlastní čísla, ...
● Analýza hlavních komponent dat Rp vydá nejlepší lineární aproximace pro všechny řády q<r.
● lin. model řádu q: – μ: pozice nadroviny, – V ortogonální matice jednotkových sloupcových vektorů
qxq, – λ parametry, tj. projekce datových příkladů.
● Minimalizujeme chybu rekonstrukce
● částečnou optimalizací
Rozklad matice● Pro jednoduchost předpokládáme
jinak posuneme● Data poskládáme jako řádky Nxp matice X.● Matici X rozložíme:
● levé vlastní vektory● vlastní čísla
na diagonále diag. matice● pravé vlastní vektory: sloupce
● pro dané q bereme prvních q sloupců V.
● Sloupce UD se nazývají hlavní komponenty,● optimální jsou určeny prvními q hlavními
komponentami
● U q=1● směrnice přímky v
1
● nejbližší bod projekce na přímce● vzdálenost od počátku po přímce