+ All Categories
Home > Documents > Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... ·...

Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... ·...

Date post: 22-Dec-2020
Category:
Upload: others
View: 3 times
Download: 0 times
Share this document with a friend
26
Dvoufázový způsob vytváření nekonvexních shluků využívající metody k-průměrů Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem Robust 2014 19. 24. leden, Jetřichovice
Transcript
Page 1: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Dvoufázový způsob vytváření

nekonvexních shluků

využívající metody k-průměrů

Marta Žambochová

Katedra matematiky a informatiky

Fakulta sociálně ekonomická

Univerzita J. E. Purkyně v Ústí nad Labem

Robust 2014

19. – 24. leden, Jetřichovice

Page 2: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Motivace

• Potřeba metod pro analýzu dat velkých

datových souborů

• Existence velkého množství variant

základních metod shlukové analýzy

• Nedostatečně popsané porovnání

vhodnosti použití jednotlivých metod

• Hledání dalších variant

Page 3: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Základní principy metody k-průměrů

• Optimalizační metoda

• Hledá rozklad objektů do k shluků, pro

který je součet vzdáleností jednotlivých

objektů od centroidu jejich shluku

minimální

(tj. minimalizace funkce ) x

xcxQ2

)(

Page 4: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Základní algoritmus metody k-průměrů

• Inicializační krok:

– Prvotní rozdělení souboru dat do k shluků

• Krok 1:

– Výpočet centroidů všech shluků

• Krok 2:

– Přiřazení všech objektů k centroidům

• Krok 3:

– Pokud došlo ke změně oproti předchozí iteraci, návrat na Krok 1.

Page 5: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Výhody metody k-průměrů

• Jednoduchý princip

• Přijatelná rychlost - použitelnost pro velké

soubory dat

• Relativně dobré výsledky (vzhledem

k minimalizaci vnitroskupinové variability)

Page 6: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Nevýhody metody k-průměrů

• Nutno zadat požadovaný počet shluků

• Hledá pouze konvexní shluky

sférického tvaru

• Hledá pouze lokální minimum

• Pro obzvlášť velké soubory velká časová

náročnost

• Silný vliv inicializačního rozdělení

Page 7: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Ukázka I.

Page 8: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Metoda k-průměrů

2 shluky

Page 9: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Metoda k-průměrů

3 shluky

Page 10: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Metoda k-průměrů 4 shluky

Page 11: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Metoda k-průměrů

8 shluků

Page 12: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Ukázka II.

Page 13: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Metoda k-průměrů

2 shluky

Page 14: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Metoda k-průměrů

3 shluky

Page 15: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Metoda k-průměrů 4 shluky

Page 16: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Metoda k-průměrů

8 shluků

Page 17: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Metody spojování shluků

• Metoda nejbližšího souseda

(Simple linkage)

• Metoda nejvzdálenějšího souseda

(Complete linkage)

• Centroidní metoda (Centroid linkage)

• Metoda průměrné vazby (Average linkage)

• Mediánová metoda

(Unweighted group average)

• Wardova metoda

Page 18: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Metoda nejbližšího souseda

(Simple linkage) • Vzdálenost mezi shluky počítá tak, že

vezme nejmenší ze vzdáleností každých

dvou objektů z dvou různých shluků.

• Výsledné shluky nemají sférický charakter.

• Nevýhodou této metody je, že pokud

existují objekty se stejnou vzdáleností od

již existujících shluků, tak může dojít ke

zřetězení.

• Velká časová náročnost

Page 19: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Metoda nejvzdálenějšího souseda

(Complete linkage)

• Vzdálenost dvou shluků bere největší

možnou vzdálenost ze vzdáleností

každých dvou objektů z dvou různých

shluků.

• Vytváří těsné shluky přibližně stejné

velikosti.

• Má tendenci tvořit sférické shluky.

• Zabraňuje vzniku zřetězených shluků.

• Velká časová náročnost

Page 20: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Centroidní metoda

(Centroid linkage)

• Pro spočítání nepodobnosti objektů se

využívá euklidovská metrika, v které se

změří vzdálenosti těžišť shluků.

• Menší časová náročnost

Page 21: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Wardova metoda

• Minimalizuje přírůstek celkového

vnitroskupinového součtu čtverců.

• Vytváří shluky srovnatelné velikosti.

• Tvoří sférické shluky.

• Velmi vysoká časová náročnost

Page 22: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Problém slučování I.

Page 23: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Problém slučování II.

Page 24: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Algoritmus CHAMELEON

• Ve svém průběhu využívá slučování shluků na základě dynamického programování.

• Bere v úvahu dvě charakteristiky – Relative Inter-Connectivity

– Relative Closeness

• Využívá uživatelsky nastavitelných prahových konstant TRI a TRC, které se v průběhu programu dynamicky mění, a to v případě, že existuje více možností na sloučení, nebo naopak žádná.

• Složitost algoritmu O(nm + nlogn + m2logm), přičemž O(nlogn) se týká první části zpracování

Page 25: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Shrnutí

• Práce obsahuje popis varianty metody k-průměrů pro hledání shluků obecně nesférického tvaru

• Složitost (by měla být) lineární

• Je ještě nutno technicky vylepšit

• Je nutno ověřit doporučený počet shluků v 1. fázi

• Je nutno ověřit pro větší různorodost vzhledu shluků, pro různé typy rozložení dat

Page 26: Dvoufázový způsob vytváření nekonvexních shluků využívající …antoch/robust14/... · 2014. 3. 22. · Dvoufázový způsob vytváření nekonvexních shluků využívající

Děkuji za pozornost


Recommended