Data miningZáklady teorie a uplatnění v praktickém řízení
Semináře business inteligence a podpora rozhodování
Přednáší Filip Železný
Mindec semináře, © Mindec, sro, 2008 201.05.2023 2
Data Mining
Fayyad et al: „Data Mining je netriviální proces identifikace pravdivých, dosud neznámých, potenciálně využitelných a naprosto srozumitelných vzorů v datech“ Vzor (pattern) = obecný princip, souvislost, tvrzení nalezený v
datech Vzor reprezentuje znalost „Dobývání znalostí z dat“ (Knowledge Discovery in Data, KDD)
Účel: zlepšení rozhodovacích procesů
Mindec semináře, © Mindec, sro, 2008 301.05.2023 3
Příklady vzorů
Častá asociace v nákupních košících pivo + dětské pleny
Implikace IF horečka AND bolest_svalů THEN chřipka
Graf
Rovnice Atd.
Mindec semináře, © Mindec, sro, 2008 401.05.2023 4
Prediktivní klasifikace
Jedna z nejčastějších DM úloh Predikce cílové veličiny (třídy) na základě ostatních veličin
(příznaků) Příklad
Příznaky: historie nedávných transakcí zákazníka Třída: odchod ke konkurenci v následujícím měsíci (ano/ne)
Mindec semináře, © Mindec, sro, 2008 501.05.2023 5
Prediktivní klasifikace
Klasifikovaná (trénovací) data
Tvorba klasifikátoru(hledání vzorů)
Využití klasifikátoru
Zákaznická data
ANAAN
ODEŠEL?
Zákaznická data
????
ODEJDE?
Mindec semináře, © Mindec, sro, 2008 601.05.2023 6
Příklady klasifikátorů
Rozhodovací pravidla
Symbolický model Výhoda:
přímá interpretace možnost cíleného zásahu
IF age > 50 & income > 105
THEN loyal
Mindec semináře, © Mindec, sro, 2008 701.05.2023 7
Příklady klasifikátorů
Rozhodovací strom
age
incomeyes>50
>105
no yes
Mindec semináře, © Mindec, sro, 2008 801.05.2023 8
Příklady klasifikátorů
Nesymbolické modely, např. umělé neuronové sítě
Prediktivní schopnost může být vysoká, ale znalost je skryta
Mindec semináře, © Mindec, sro, 2008 901.05.2023 9
Příklady klasifikátorů
Předpovídat lze i bez klasifikátoru Např. srovnáním aktuálního zákazníka s několika
„nejpodobnějšími“ v databázi „Nearest neighbor classification“ Neidentifikuje kritické příznaky
Neodpovídá na otázku, proč odcházejí
Mindec semináře, © Mindec, sro, 2008 1001.05.2023 10
Regrese
Podobná klasifikaci, ale cílová veličina je reálné číslo Např. cena akcie
Stejné fáze a „ingredience“ Klasifikovaná data, hledání
regresoru, využití pro predikci na neklasifikovaných datech
Mindec semináře, © Mindec, sro, 2008 1101.05.2023 11
Shlukování
Žádná cílová veličina (třída), pouze popisy objektů (např. zákazníků)
Cílem je rozdělit objekty do přirozených shluků Objekty v jednom shluku podobné Objekty v různých shlucích rozdílné
Aplikace zejm. v segmentaci
Mindec semináře, © Mindec, sro, 2008 1201.05.2023 12
Shlukování
Příklad: 3 numerické příznaky zákazníka věk, příjem, doba smlouvy
Lze snadno zobrazit ve 3D Zákazník – bod, příznaky – souřadnice Shluky lze najít
pouhým okem
Mindec semináře, © Mindec, sro, 2008 1301.05.2023 13
Shlukování
Obvykle je dimenze prostoru (počet příznaků) mnohem větší než 3 Stovky, tisíce, ... Příznaky např. z historie transakcí Jeden příznak např. počet zakoupených položek dané kategorie
Shlukovací algoritmy „vidí“ shluky i v těchto dimenzích Související úkol: charakterizovat segmenty typickými
vlastnostmi
Mindec semináře, © Mindec, sro, 2008 1401.05.2023 14
Hledání asociací
Market basket analysis Vstupem je transakční databáze
Např. obsahy nákupních košíků v supermarketu Cílem je najít n-tice položek často se vyskytujících v košíku
zároveň Účel: např rozmístit daleko od sebe Slavný algoritmus APRIORI
90. léta, impuls pro data mining
Mindec semináře, © Mindec, sro, 2008 1501.05.2023 15
Detekce podskupin
Na pomezí shlukování a klasifikace Hledání segmentů s rozdělením třídy významně odlišným od
celé populace
Kupuje pyrotechniku
Nekupuje pyrotechniku
Segment: muži do 18 let
Mindec semináře, © Mindec, sro, 2008 1601.05.2023 16
Další metody
Mnoho dalších „podmetod“ Např. detekce výjimek (outlier detection)
Podobné shlukování, ale hledají se individua odlišná od ostatní masy
Další metody přizpůsobené speciálním typům dat Relační data mining Text-mining, web-mining, time series mining, signal
processing, ....
Data Mining
Validace výsledků
Mindec semináře, © Mindec, sro, 2008 1801.05.2023 18
„Past“ data miningu
Oba vzory platné v datech. Který z nich je pravdivý? Nelze rozhodnout s jistotou. Jednodušší má obvykle přednost
Vzor 1 Vzor 2
X
Y
Data (x1,y1), (x2,y2), ...
Mindec semináře, © Mindec, sro, 2008 1901.05.2023 19
Validace vzorů
V kterýchkoliv datech lze nalézt nějaké vzory. V dostupných datech mohou platit jen náhodou Nemusí mít nic společného se skutečností Google define:Data Mining : “Data mining is the equivalent to
sitting a huge number of monkeys down at keyboards, and then reporting on the monkeys who happened to type actual words.”
Mindec semináře, © Mindec, sro, 2008 2001.05.2023 20
Základní techniky ověřování
Správné ověření vzorů odlišuje data mining od šarlatánství Nalezené vzory testujeme na datech, která jsme nepoužili pro
jejich hledání
Výsledkem je statisticky nezaujatý odhad
Mindec semináře, © Mindec, sro, 2008 21
SÉMANTICKÉ A SOCIÁLNÍ SÍTĚ, WEB 2.0, ...NOVÉ VÝZVY PRO DATA MINING
01.05.2023 21
Mindec semináře, © Mindec, sro, 2008 22
Skryté znalosti
Znalosti v podniku Explicitní
Strukturované, počítačově srozumitelné Např. relační databáze Umožňují počítačovou inferenci: dotazování, odvozování, ...
Implicitní (tacit) Dokumenty Obsahy emailů, přílohy Dynamika dokumentů v podniku (procesy) ...
Drtivá většina podnikových znalostí je implicitních Těžko využitelných
Převedení do explicitní formy může zvýšit efektivitu
01.05.2023 22
Mindec semináře, © Mindec, sro, 2008 23
Jak to řeší Web (2.0)
Znalosti na webu: analogický problém Obrovská spousta, ale počítačově nesrozumitelné
Přístup „zdola nahoru“ Kolektivní tvorba (WIKI) Kolektivní značkování (např. bookmarking - del.icio.us) Techniky v současnosti přijímány v korporacích
nízké náklady Nevýhoda: mnoho to neřeší
„mělká sémantika“ Znalosti jsou uspořádány, ale obsah stále není počítačově
interpretovatelný
01.05.2023 23
Mindec semináře, © Mindec, sro, 2008 24
Jak to řeší Web (2.0)
Přístup „shora dolů“: sémantický web Znalostní doména podniku vymezena ontologiemi
Taxonomie konceptů Zdroj, člověk, zaměstnanec, muž, ...... . projekt, aktivita, úkol, profit
Axiomy (pravidla) Ontologie = jednotný slovník pro formulaci znalostí
Základní předpoklad business intelligence Nákladný přístup
Tvorba a udržování ontologie Tvorba obsahu, značkování Lze to udělat levněji?
CyCorp (USA) Obecně využitelná „ontologie všeho“, nevalný úspěch
01.05.2023 24
Mindec semináře, © Mindec, sro, 2008 25
Výzva pro Data Mining
01.05.2023 25
Stávájící (legacy) obsahDokumenty
Organizační struktura
Web 2.0 technologieWiki
ZnačkováníLinkedIn, Facebook, ..
Sociální sítěVýměny emailů
Instant messagingDynamika dokumentů
Kolektivní tvorbaLinkedIn, Facebook
DATAMINING
Explicitnívyužitelná
znalost
Mindec semináře, © Mindec, sro, 2008 26
Příklady využití
Identifikace pracovního kontextu Časté změny pracovního kontextu: zásadní škůdce produktivity Faktor zavedený novými komunikačními technologiemi Automatické řízení komunikace podle kontextu
Pozdržení irelevantních emailů, IM busy flags, telefony, busy/free servers, ...
Řazení dokumentů (např. při vyhledávání) dle aktuálního kontextu
Klasifikační úlohy: Identifikace kontextu z aktuálních projektů, úkolů, aktuálně
otevřených dokumentů (vlastních i spolupracujících), ... Identifikace relevantních zpráv, osob, ...
01.05.2023 26
Mindec semináře, © Mindec, sro, 2008 27
Příklady využití
Segmentace zaměstnanců (shlukování) Kdo s kým komunikuje, o jakých projektech Kdo s kým tvoří dokumenty, .... Přirozené shluky aktivit
Návod jak změnit organizační strukturu? Je některý shluk produktivnější než jiné?
Přenos praktik
Hledání implicitních procesů Kudy dokumenty putují, kdo zakládá, kdo reviduje, které jdou
spolu, jakou komunikací jsou doprovázeny, ... Rozdílné procesy pro stejný typ projektu u jiných týmů
Který je efektivnější? Přenos praktik
01.05.2023 27
Mindec semináře, © Mindec, sro, 2008 28
Hloubkové analýzy sociálních sítí
Emaily (příchozí, odchozí) Hovory (příchozí, odchozí) Identifikační systémy
Pracovní skupiny Týmy Osobní sítě Vlivová centra Identifikace problémových osob, skupin, lídrů Procesy Workflow Detekce zneužití Úniky dat