+ All Categories
Home > Documents > BIDataMining

BIDataMining

Date post: 18-Jan-2017
Category:
Upload: jan-bizik
View: 15 times
Download: 2 times
Share this document with a friend
28
Data mining Základy teorie a uplatnění v praktickém řízení Semináře business inteligence a podpora rozhodování Přednáší Filip Železný
Transcript
Page 1: BIDataMining

Data miningZáklady teorie a uplatnění v praktickém řízení

Semináře business inteligence a podpora rozhodování

Přednáší Filip Železný

Page 2: BIDataMining

Mindec semináře, © Mindec, sro, 2008 201.05.2023 2

Data Mining

Fayyad et al: „Data Mining je netriviální proces identifikace pravdivých, dosud neznámých, potenciálně využitelných a naprosto srozumitelných vzorů v datech“ Vzor (pattern) = obecný princip, souvislost, tvrzení nalezený v

datech Vzor reprezentuje znalost „Dobývání znalostí z dat“ (Knowledge Discovery in Data, KDD)

Účel: zlepšení rozhodovacích procesů

Page 4: BIDataMining

Mindec semináře, © Mindec, sro, 2008 401.05.2023 4

Prediktivní klasifikace

Jedna z nejčastějších DM úloh Predikce cílové veličiny (třídy) na základě ostatních veličin

(příznaků) Příklad

Příznaky: historie nedávných transakcí zákazníka Třída: odchod ke konkurenci v následujícím měsíci (ano/ne)

Page 5: BIDataMining

Mindec semináře, © Mindec, sro, 2008 501.05.2023 5

Prediktivní klasifikace

Klasifikovaná (trénovací) data

Tvorba klasifikátoru(hledání vzorů)

Využití klasifikátoru

Zákaznická data

ANAAN

ODEŠEL?

Zákaznická data

????

ODEJDE?

Page 6: BIDataMining

Mindec semináře, © Mindec, sro, 2008 601.05.2023 6

Příklady klasifikátorů

Rozhodovací pravidla

Symbolický model Výhoda:

přímá interpretace možnost cíleného zásahu

IF age > 50 & income > 105

THEN loyal

Page 7: BIDataMining

Mindec semináře, © Mindec, sro, 2008 701.05.2023 7

Příklady klasifikátorů

Rozhodovací strom

age

incomeyes>50

>105

no yes

Page 8: BIDataMining

Mindec semináře, © Mindec, sro, 2008 801.05.2023 8

Příklady klasifikátorů

Nesymbolické modely, např. umělé neuronové sítě

Prediktivní schopnost může být vysoká, ale znalost je skryta

Page 9: BIDataMining

Mindec semináře, © Mindec, sro, 2008 901.05.2023 9

Příklady klasifikátorů

Předpovídat lze i bez klasifikátoru Např. srovnáním aktuálního zákazníka s několika

„nejpodobnějšími“ v databázi „Nearest neighbor classification“ Neidentifikuje kritické příznaky

Neodpovídá na otázku, proč odcházejí

Page 10: BIDataMining

Mindec semináře, © Mindec, sro, 2008 1001.05.2023 10

Regrese

Podobná klasifikaci, ale cílová veličina je reálné číslo Např. cena akcie

Stejné fáze a „ingredience“ Klasifikovaná data, hledání

regresoru, využití pro predikci na neklasifikovaných datech

Page 11: BIDataMining

Mindec semináře, © Mindec, sro, 2008 1101.05.2023 11

Shlukování

Žádná cílová veličina (třída), pouze popisy objektů (např. zákazníků)

Cílem je rozdělit objekty do přirozených shluků Objekty v jednom shluku podobné Objekty v různých shlucích rozdílné

Aplikace zejm. v segmentaci

Page 12: BIDataMining

Mindec semináře, © Mindec, sro, 2008 1201.05.2023 12

Shlukování

Příklad: 3 numerické příznaky zákazníka věk, příjem, doba smlouvy

Lze snadno zobrazit ve 3D Zákazník – bod, příznaky – souřadnice Shluky lze najít

pouhým okem

Page 13: BIDataMining

Mindec semináře, © Mindec, sro, 2008 1301.05.2023 13

Shlukování

Obvykle je dimenze prostoru (počet příznaků) mnohem větší než 3 Stovky, tisíce, ... Příznaky např. z historie transakcí Jeden příznak např. počet zakoupených položek dané kategorie

Shlukovací algoritmy „vidí“ shluky i v těchto dimenzích Související úkol: charakterizovat segmenty typickými

vlastnostmi

Page 14: BIDataMining

Mindec semináře, © Mindec, sro, 2008 1401.05.2023 14

Hledání asociací

Market basket analysis Vstupem je transakční databáze

Např. obsahy nákupních košíků v supermarketu Cílem je najít n-tice položek často se vyskytujících v košíku

zároveň Účel: např rozmístit daleko od sebe Slavný algoritmus APRIORI

90. léta, impuls pro data mining

Page 15: BIDataMining

Mindec semináře, © Mindec, sro, 2008 1501.05.2023 15

Detekce podskupin

Na pomezí shlukování a klasifikace Hledání segmentů s rozdělením třídy významně odlišným od

celé populace

Kupuje pyrotechniku

Nekupuje pyrotechniku

Segment: muži do 18 let

Page 16: BIDataMining

Mindec semináře, © Mindec, sro, 2008 1601.05.2023 16

Další metody

Mnoho dalších „podmetod“ Např. detekce výjimek (outlier detection)

Podobné shlukování, ale hledají se individua odlišná od ostatní masy

Další metody přizpůsobené speciálním typům dat Relační data mining Text-mining, web-mining, time series mining, signal

processing, ....

Page 17: BIDataMining

Data Mining

Validace výsledků

Page 18: BIDataMining

Mindec semináře, © Mindec, sro, 2008 1801.05.2023 18

„Past“ data miningu

Oba vzory platné v datech. Který z nich je pravdivý? Nelze rozhodnout s jistotou. Jednodušší má obvykle přednost

Vzor 1 Vzor 2

X

Y

Data (x1,y1), (x2,y2), ...

Page 19: BIDataMining

Mindec semináře, © Mindec, sro, 2008 1901.05.2023 19

Validace vzorů

V kterýchkoliv datech lze nalézt nějaké vzory. V dostupných datech mohou platit jen náhodou Nemusí mít nic společného se skutečností Google define:Data Mining : “Data mining is the equivalent to

sitting a huge number of monkeys down at keyboards, and then reporting on the monkeys who happened to type actual words.”

Page 20: BIDataMining

Mindec semináře, © Mindec, sro, 2008 2001.05.2023 20

Základní techniky ověřování

Správné ověření vzorů odlišuje data mining od šarlatánství Nalezené vzory testujeme na datech, která jsme nepoužili pro

jejich hledání

Výsledkem je statisticky nezaujatý odhad

Page 21: BIDataMining

Mindec semináře, © Mindec, sro, 2008 21

SÉMANTICKÉ A SOCIÁLNÍ SÍTĚ, WEB 2.0, ...NOVÉ VÝZVY PRO DATA MINING

01.05.2023 21

Page 22: BIDataMining

Mindec semináře, © Mindec, sro, 2008 22

Skryté znalosti

Znalosti v podniku Explicitní

Strukturované, počítačově srozumitelné Např. relační databáze Umožňují počítačovou inferenci: dotazování, odvozování, ...

Implicitní (tacit) Dokumenty Obsahy emailů, přílohy Dynamika dokumentů v podniku (procesy) ...

Drtivá většina podnikových znalostí je implicitních Těžko využitelných

Převedení do explicitní formy může zvýšit efektivitu

01.05.2023 22

Page 23: BIDataMining

Mindec semináře, © Mindec, sro, 2008 23

Jak to řeší Web (2.0)

Znalosti na webu: analogický problém Obrovská spousta, ale počítačově nesrozumitelné

Přístup „zdola nahoru“ Kolektivní tvorba (WIKI) Kolektivní značkování (např. bookmarking - del.icio.us) Techniky v současnosti přijímány v korporacích

nízké náklady Nevýhoda: mnoho to neřeší

„mělká sémantika“ Znalosti jsou uspořádány, ale obsah stále není počítačově

interpretovatelný

01.05.2023 23

Page 24: BIDataMining

Mindec semináře, © Mindec, sro, 2008 24

Jak to řeší Web (2.0)

Přístup „shora dolů“: sémantický web Znalostní doména podniku vymezena ontologiemi

Taxonomie konceptů Zdroj, člověk, zaměstnanec, muž, ...... . projekt, aktivita, úkol, profit

Axiomy (pravidla) Ontologie = jednotný slovník pro formulaci znalostí

Základní předpoklad business intelligence Nákladný přístup

Tvorba a udržování ontologie Tvorba obsahu, značkování Lze to udělat levněji?

CyCorp (USA) Obecně využitelná „ontologie všeho“, nevalný úspěch

01.05.2023 24

Page 25: BIDataMining

Mindec semináře, © Mindec, sro, 2008 25

Výzva pro Data Mining

01.05.2023 25

Stávájící (legacy) obsahDokumenty

Organizační struktura

Web 2.0 technologieWiki

ZnačkováníLinkedIn, Facebook, ..

Sociální sítěVýměny emailů

Instant messagingDynamika dokumentů

Kolektivní tvorbaLinkedIn, Facebook

DATAMINING

Explicitnívyužitelná

znalost

Page 26: BIDataMining

Mindec semináře, © Mindec, sro, 2008 26

Příklady využití

Identifikace pracovního kontextu Časté změny pracovního kontextu: zásadní škůdce produktivity Faktor zavedený novými komunikačními technologiemi Automatické řízení komunikace podle kontextu

Pozdržení irelevantních emailů, IM busy flags, telefony, busy/free servers, ...

Řazení dokumentů (např. při vyhledávání) dle aktuálního kontextu

Klasifikační úlohy: Identifikace kontextu z aktuálních projektů, úkolů, aktuálně

otevřených dokumentů (vlastních i spolupracujících), ... Identifikace relevantních zpráv, osob, ...

01.05.2023 26

Page 27: BIDataMining

Mindec semináře, © Mindec, sro, 2008 27

Příklady využití

Segmentace zaměstnanců (shlukování) Kdo s kým komunikuje, o jakých projektech Kdo s kým tvoří dokumenty, .... Přirozené shluky aktivit

Návod jak změnit organizační strukturu? Je některý shluk produktivnější než jiné?

Přenos praktik

Hledání implicitních procesů Kudy dokumenty putují, kdo zakládá, kdo reviduje, které jdou

spolu, jakou komunikací jsou doprovázeny, ... Rozdílné procesy pro stejný typ projektu u jiných týmů

Který je efektivnější? Přenos praktik

01.05.2023 27

Page 28: BIDataMining

Mindec semináře, © Mindec, sro, 2008 28

Hloubkové analýzy sociálních sítí

Emaily (příchozí, odchozí) Hovory (příchozí, odchozí) Identifikační systémy

Pracovní skupiny Týmy Osobní sítě Vlivová centra Identifikace problémových osob, skupin, lídrů Procesy Workflow Detekce zneužití Úniky dat