+ All Categories
Home > Documents > Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

Date post: 10-Jan-2016
Category:
Upload: kevina
View: 33 times
Download: 0 times
Share this document with a friend
Description:
Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází. Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství. Dobývání znalostí z databází - Literatura. - PowerPoint PPT Presentation
19
Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází
Transcript
Page 1: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

Doc. RNDr. Jan Rauch, CSc.

Katedra informačního a znalostního inženýrství

Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází

Page 2: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

2

Dobývání znalostí z databází - Literatura

Jan Rauch: Systém LISp-Miner. Studijní materiál pro posluchače

kurzů Metod zpracování informací, 2005, viz soubor

LM_SKRPT.pdf

http://lispminer.vse.cz/

Petr Berka: Dobývání znalostí z databází ACADEMIA 2003, 366

stran (pro zájemce o hlubší studium)

http://kdnuggets.com (pro zájemce o hlubší studium)

Page 3: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

3

Dobývání znalostí z databází

Úvod

Úlohy a metody

Metodologie CRISP

Rozhodovací stromy

Asociační pravidla (viz též otázka 9)

Metoda GUHA (viz též otázka 9)

Page 4: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

4

Zjištění, že lze získat z uchovávaných dat více než proč byly ukládány Potřeba předpovídat budoucí trendy a chování Obavy ze ztráty konkurenceschopnosti Snaha o získání konkurenčních výhod …

Úvod – příčiny vzniku DZD

Page 5: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

5

Databáze

• relační databáze• datové sklady• OLAP• …

Statistika

Strojové učení

DZD

Úvod – hlavní zdroje pro DZD

• rozhodovací stromy• neuronové sítě • ...

• kontingenční tabulky• regresní analýza• diskriminační analýza• shluková analýza• …

Page 6: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

6

široce aplikováno

desítky firem nabízejí software a služby

výuka na vysokých školách

rozsáhlý výzkum

rozvoj nových směrů (text mining, relational data mining, complex

data mining, web mining, … )

integrace s jinými disciplinami (např. se znalostním inženýrstvím)

řada mezinárodních konferencí

http://kdnuggets.com

Úvod – současný stav

Page 7: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

7

Dobývání znalostí z databází

Úvod

Úlohy a metody

Metodologie CRISP

Rozhodovací stromy

Asociační pravidla (viz též otázka 9)

Metoda GUHA (viz též otázka 9)

Page 8: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

8

DZD – základní typy úloh

klasifikace / predikce po naučení na trénovací množině chceme zařazení

(ohodnocení) neznámých objektů

deskripce chceme získat popis vlastností množiny objektů jako

celku

hledání „nugetů“ chceme zjistit zajímavosti, výjimky od normálu

Page 9: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

9

DZD – příklady úloh

rozpoznání problémových nebo vysoce bonitních klientů banky

analýza klientů pojišťovny

analýza nákupních košíků

predikce spotřeby elektřiny (vody, plynu)

analýza poruchovosti automobilů

analýza dat o pacientech

analýza příčin změny mobilních operátorů

analýza chování zákazníků internetových obchodů (clickstreamy)

text mining

Page 10: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

10

DZD – vybrané metody

Asociační pravidla (viz též otázka 9) Klasifikace / predikce

Rozhodovací stromy Rozhodovací pravidla Neuronové sítě

Statistické metody Kontingenční tabulky Regresní analýza Diskriminační analýza Shluková analýza (viz též otázka 4) …

GUHA (viz též otázka 9) …

Page 11: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

11

Dobývání znalostí z databází

Úvod

Úlohy a metody

Metodologie CRISP

Rozhodovací stromy

Asociační pravidla (viz též otázka 9)

Metoda GUHA (viz též otázka 9)

Page 12: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

12

CRoss Industry Standard Process for Data Mining

CRISP-DM http://www.crisp-dm.org/

Porozuměníproblematice

Porozuměnídatům

Transformacedat

Analyticképrocedury

Interpretacevýsledků

Využitívýsledků DATA

Page 13: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

13

Dobývání znalostí z databází

Úvod

Úlohy a metody

Metodologie CRISP

Rozhodovací stromy

Příklad rozhodovacího stromu

Obecný algoritmus pro tvorbu rozhodovacích stromů

Asociační pravidla (viz též otázka 9)

Metoda GUHA (viz též otázka 9)

Page 14: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

14

Příklad rozhodovacího stromu (1)

Dáno: známá data

Úloha:

• dán nový, neznámý klient

• půjčit nebo nepůjčit?

Page 15: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

15

Příklad rozhodovacího stromu (2)

Způsob řešení

Daná (trénovací) data

Proces učení Vhodná forma znalosti

Nový, neznámý klient úvěr: ano/ne

Page 16: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

16

Příklad rozhodovacího stromu (3)

Způsob řešení

Daná (trénovací) data

Vhodná forma znalosti – rozhodovací strom:

příjem

vysoký nízký

ano kontovysoké

ano

nízké

nestřední

nezaměstnanýano

nene

ano

Page 17: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

17

Příklad rozhodovacího stromu (4)

Nový klient

• příjem: nízký

• konto: střední

• nezaměstnaný: ne

Půjčit: ?

Aplikace rozhodovacího stromu: Ano!

Page 18: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

18

Příklad rozhodovacího stromu (5)

Nový klient

• příjem: nízký

• konto: nízké

Půjčit: ?

Aplikace rozhodovacího stromu: Ne!

Page 19: Doc. RNDr. Jan Rauch, CSc.  Katedra informačního a znalostního inženýrství

19

Obecný algoritmus pro tvorbu rozhodovacích stromů

Dáno:trénovací data Výstup: rozhodovací strom

Algoritmus TDIDT

1. Zvol jeden atribut jako kořen dílčího stromu

2. Rozděl data v tomto uzlu na podmnožiny podle hodnot zvoleného atributu a přidej uzel pro každou podmnožinu

3. Existuje-li uzel, pro který nepatří všechna data do téže třídy, opakuj pro tento uzel postup od bodu 1., jinak skonči

TDIDT = Top down induction of decision tree

metoda „rozděl a panuj“

využití teorie informace a pravděpodobnosti


Recommended