Business Intelligence
Ing. Jan Přichystal, Ph.D.
PEF MZLU v Brně
3. prosince 2010
Ing. Jan Přichystal, Ph.D. Business Intelligence
Úvod
Intenzivní nasazení informačních technologií způsobuje hromaděníobrovské spousty nejrůznějších údajů.
Příkladem mohou být informace z obchodování s cennými papírynebo údaje z pokladen supermarketů.
Množství získaných údajů ovšem neznamená stejné množstvíinformací. Proces transformace je složitý a časově náročný.
Tímto procesem se zabývá Business Intelligence. Jde nejeno zkoumání současných ale i predikování budoucích znalostí.
Moderní DB servery umožňují budovat datové sklady a provádětnad daty analýzy (OLAP).
Ing. Jan Přichystal, Ph.D. Business Intelligence
Transakční vs. analytické databáze
Transakční databáze (OLTP) jsou určené k ukládání operačníchúdajů. Databáze v nich jsou zpravidla pro snížení redundancenormalizovány což vede k velké strukturovanosti tabulek.
Problémem transakčních systémů je decentralizace. Používají serůzné systémy pro zpracování různých údajů (účetnictví, sklady,apod.).
Naproti tomu jsou data v analytických databázích (OLAP)ukládána do hvězdicových nebo vločkových schémat a snaží se mítvšechna data zpracovaná na jednom místě.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Nevýhody transakčních systémů pro analýzy
Neuchovávají historické údaje
Nehomogenní struktura údajů
Dlouhý čas přípravy údajů
Obtížné hledání příčin a závislostí jednotlivých údajů
Analýza přímo v operačním prostředí snižuje výkon důležitýchsystémů
Příliš rozsáhlé výstupy
Ing. Jan Přichystal, Ph.D. Business Intelligence
Kvalita údajů pro analýzy
V současnosti se hojně využívají různé druhy ekonomického SW.Jde o účetní programy, skladové hospodářství, evidence pohybuzboží apod.
Shromážděné informace jsou z části velmi cenné, ale z částii zbytečné.
Důležité je aby se k zodpovědným osobám dostaly kvalitnía důležité informace.
Manažeři jsou často v situaci hráčů puzzle, kteří mají před sebousmíchané různé krabice kostiček bez výsledných obrázků.
Příkladem může být sledování 1000 druhů zboží, 10 prodejníchkanálů 100 odběratelů. Získáváme tak 1 milion různých kombinací.Při měsíčním sledování většího druhu zboží máme k dispoziciobrovské množství údajů.
Řešení je použití multidimenzionálních struktur.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Multidimenzionální databáze
Řešením omezení relačních DB je organizace domultidimenzionálních struktur. Používáme dva typynenormalizovaných tabulek (dimenze a fakta). Analytické DBoznačujeme pojmem OLAP (On-line Analytical Processing).Charakteristika:
rychlý a komplexní přístup k velkému objemu údajů,
možnost komplexních analýz,
předpoklad pro modelování a prognózy,
vyšší nároky na kapacitu úložiště.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Fakta a dimenze
Ing. Jan Přichystal, Ph.D. Business Intelligence
Fakta a dimenze
Fakta – numerické údaje o objektech studia. Jde o největší tabulkyv databázi s velkým objemem dat. Obvykle obsahují dva typysloupců (údaje a klíče do tabulek dimenzí). Fakta se seskupujía vytváří metriky. Příkladem faktů je například množství prodanýchproduktů.Dimenze – hierarchické uspořádání údajů. Jde o menší tabulky.Dimenze umožňují zkoumat data z různých pohledů. Mluvímeo dimenzích časových, produktových, geografických atd.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Multidimenzionální databázový model
Data jsou organizována v relačnídatabázi.
Každý řádek se vztahuje k jistéudálosti, předmětu nebo jejichčásti.
Výsledkem agregace údajů jemultidimenzionální datovástruktura – krychle.
Krychle obsahuje mnoho dimenzí(časové, místní, věcné . . . ).
Na průniku dimenzí se nacházíkonkrétní údaje.
Čas
Prod
ukt
Zákaz
ník
Ing. Jan Přichystal, Ph.D. Business Intelligence
Zpracování údajů z operačního prostředí
Zpracování údajů na informace a analýza obvykle neprobíháv operačním prostředí, protože by mohlo dojít k výraznému sníženívýkonu a tím i ohrožení hladkého běhu.
Data se tedy obvykle přenášejí do jiného prostředí (datovýchskladů), kde se teprve zpracovávají.
Výhodou tohoto řešení je i to, že data mohou být získávánai z různých zdrojů.
Nevýhodou je redundance údajů, zvýšení zátěže IT pracovníků,snížení flexibility a částečná ztráta metadat.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Tvorba datového skladu
Provoznísystémy
Datovýsklad
Uivatelé
ETLprocesy
Prezentaènínástroje
Ing. Jan Přichystal, Ph.D. Business Intelligence
Datový sklad
Jde o strukturované úložiště údajů určených pro analýzy.
„Datový sklad je podnikově strukturovaný depozitář subjektověorientovaných, integrovaných, časově proměnlivých, historickýchdat použitých a získávání informací a podporu rozhodování.V datovém skladu jsou uložena atomická a sumární data.ÿ(Bill Inmon)
Do datového skladu se dostávají pravidelné informacez různorodých zdrojů i geograficky odlišných.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Datový sklad
Subjektová orientace – uchovávají se údaje podle předmětuzájmu, nikoliv podle aplikace, ve které byly vytvořeny.
Integrovanost – údaje o konkrétním předmětu se ukládají jenjednou za použití jednotné terminologie názvů, jednotek apod.
Časová variabilita – údaje se ukládají jako série časovýchsnímků reprezentujících časové úseky.
Neměnnost – v datových skladech se údaje obvykle nemění,jsou jen pro čtení.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Datové trhy
Datové trhy jsou přesně specifikované podmnožiny datovéhoskladu, určené pro menší organizační složky.
Samotný datový sklad je velmi náročný projekt, proto jej častobudujeme a členíme do menších částí.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Metody tvorby datového skladu
Při návrhu datového skladu je potřeba brát v úvahu organizačnístrukturu subjektu. Vhodné metody jsou:
Metoda „velkého třeskuÿ
Přírůstková metoda
Ing. Jan Přichystal, Ph.D. Business Intelligence
Příprava údajů – ETL
Proces BI/DW obvykle pracuje s nehomogenními zdroji údajů. Lišíse jak fyzickým způsobem uložení (různé DB systémy) taki logickou strukturou.
Taková data je nutné před započetím analýz připravit. Procesnazýváme ETL.
Extraction – výběr dat
Transformation – ověření, čištění, integrace a časovéoznačení
Loading – přemístění dat do datového skladu
Jde o komplexní a časově náročný proces, který může zabratpodstatnou většinu času určeného pro přípravu analytickéhoprostředí.
Ing. Jan Přichystal, Ph.D. Business Intelligence
ETL
Prodeje
Sklady
Výroba
Úèetnictví
Datovýsklad
Extrakce
Transformace
Naèítání
Ing. Jan Přichystal, Ph.D. Business Intelligence
Extrakce
Úkolem tohoto kroku je získat data z různých nehomogenníchprovozních systémů a sjednotit je na jednom místě.
Extrakce se týká nejen dat aktuálních, ale při přípravě novéhoskladu musíme pracovat i s daty archivními.
Získávat můžeme data nejen z našich systémů, ale i od konkurencenebo různé volně dostupné statistické přehledy.
Extrakce není jednorázová akce. Datový sklad plníme periodicky.
Využíváme různé vyšší procedurální programovací jazyky (C++,C#) nebo procedurální nadstavby DB systémů (T-SQL, PL/SQL).
Ing. Jan Přichystal, Ph.D. Business Intelligence
Transformace
Velmi důležitý krok, který rozhoduje o kvalitě zkoumaných dat.
Údaje z provozních systémů mívají různou kvalitu. Jde o chybněvložená data nebo nekompletní data, případně o duplicitní data. Taje potřeba pročistit.
Údaje mají i různou strukturu, v každém systému jsou jiné datovétypy (rodná čísla), rozsahy (měna), zkratky (pohlaví) atd. Datajsou nejednoznačná. Tato data je potřeba transformovat dojednotné podoby.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Přenos
Je završením etapy ETL.
V této fázi dochází k přenosu dat z přípravné oblasti do datovéhoskladu.
Jde o plánovaný a hierarchizovaný proces s maximální možnoumírou automatizace.
Někdy je třeba použít i umělé primární klíče.
Po zavedení údajů obvykle následuje indexování.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Problémy ETL
Proces ETL nemusí vždy proběhnout úspěšně.
Může dojít k selhání technických prostředků případně i software.
Velmi důležité je následné ověření kvality a celistvosti údajů.
Pokud proces nedopadne dobře je obvykle nutné začít znovu odmísta selhání, případně opakovat celý proces znovu.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Analýza OLAP
„OLAP je volně definovaný řád principů, které poskytujídimenzionální rámec pro podporu rozhodování.ÿ (E. F. Codd)
Multidimenzionální konceptuální pohled vhodný pro analýzyTransparentnost – nástroj musí být snadno použitelnýDostupnost – využití jen potřebných údajů a toz heterogenních zdrojůKonzistentní vykazování – s rostoucím počtem údajů neklesávýkonArchitektura client-server s ohledem na cenu a výkonPodpora více uživatelů pracujících na stejném modeluNeomezené křížové dimenzionální operaceIntuitivní manipulace s údaji – drill down, drill upFlexibilní vykazování – různé uspořádání údajů v reportechvhodné pro různé situaceVíceúrovňové dimenze a agregace
Ing. Jan Přichystal, Ph.D. Business Intelligence
MOLAP, ROLAP, HOLAP
Multidimenzionální OLAP – data získává buď z datového skladunebo operačních zdrojů. Analytická data ukládá do vlastníchdatových struktur. Předpočítá maximální množství předběžnýchvýsledků. Výhodou je rychlost, nevýhodou redundance údajů.Relační OLAP – data získává z relačního datového skladu. Údajese předkládají jako multidimenzionální pohled. Využívá metadatapro dynamické generování SQL dotazů.Hybridní OLAP – kombinace přístupu MOLAP a ROLAP. Snažíse eliminovat nevýhody. Údaje jsou v relačních databázích,agregace se ukládají do multidimenzionálních struktur.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Doporučená literatura
Kimball, Ralph; Margy Ross (2002). The Data Warehouse Toolkit:The Complete Guide to Dimensional Modeling (Second Editioned.). New York: Wiley. ISBN 0-471-20024-7.
Lacko L. Datové sklady, analýza OLAP a dolování dat. Brno 2003.Computer Press. ISBN 80-7226-969-0.
Novotný O., Pour J., Slánský D. Business Intelligence. Praha 2005.Grada. ISBN 80-247-1094-3.
Rud O. P. Data mining. Brno 2001. Computer Press. ISBN80-7226-577-6.
Ing. Jan Přichystal, Ph.D. Business Intelligence
Závěr
Děkuji za pozornost
Dotazy?
Ing. Jan Přichystal, Ph.D. Business Intelligence