+ All Categories
Home > Documents > akela.mendelu.czjprich/predn/bi.pdf · 2010. 12. 3. · Created Date: 12/3/2010 9:22:57 AM

akela.mendelu.czjprich/predn/bi.pdf · 2010. 12. 3. · Created Date: 12/3/2010 9:22:57 AM

Date post: 01-Feb-2021
Category:
Upload: others
View: 3 times
Download: 0 times
Share this document with a friend
25
Business Intelligence Ing. Jan Přichystal, Ph.D. PEF MZLU v Brně 3. prosince 2010 Ing. Jan Přichystal, Ph.D. Business Intelligence
Transcript
  • Business Intelligence

    Ing. Jan Přichystal, Ph.D.

    PEF MZLU v Brně

    3. prosince 2010

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Úvod

    Intenzivní nasazení informačních technologií způsobuje hromaděníobrovské spousty nejrůznějších údajů.

    Příkladem mohou být informace z obchodování s cennými papírynebo údaje z pokladen supermarketů.

    Množství získaných údajů ovšem neznamená stejné množstvíinformací. Proces transformace je složitý a časově náročný.

    Tímto procesem se zabývá Business Intelligence. Jde nejeno zkoumání současných ale i predikování budoucích znalostí.

    Moderní DB servery umožňují budovat datové sklady a provádětnad daty analýzy (OLAP).

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Transakční vs. analytické databáze

    Transakční databáze (OLTP) jsou určené k ukládání operačníchúdajů. Databáze v nich jsou zpravidla pro snížení redundancenormalizovány což vede k velké strukturovanosti tabulek.

    Problémem transakčních systémů je decentralizace. Používají serůzné systémy pro zpracování různých údajů (účetnictví, sklady,apod.).

    Naproti tomu jsou data v analytických databázích (OLAP)ukládána do hvězdicových nebo vločkových schémat a snaží se mítvšechna data zpracovaná na jednom místě.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Nevýhody transakčních systémů pro analýzy

    Neuchovávají historické údaje

    Nehomogenní struktura údajů

    Dlouhý čas přípravy údajů

    Obtížné hledání příčin a závislostí jednotlivých údajů

    Analýza přímo v operačním prostředí snižuje výkon důležitýchsystémů

    Příliš rozsáhlé výstupy

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Kvalita údajů pro analýzy

    V současnosti se hojně využívají různé druhy ekonomického SW.Jde o účetní programy, skladové hospodářství, evidence pohybuzboží apod.

    Shromážděné informace jsou z části velmi cenné, ale z částii zbytečné.

    Důležité je aby se k zodpovědným osobám dostaly kvalitnía důležité informace.

    Manažeři jsou často v situaci hráčů puzzle, kteří mají před sebousmíchané různé krabice kostiček bez výsledných obrázků.

    Příkladem může být sledování 1000 druhů zboží, 10 prodejníchkanálů 100 odběratelů. Získáváme tak 1 milion různých kombinací.Při měsíčním sledování většího druhu zboží máme k dispoziciobrovské množství údajů.

    Řešení je použití multidimenzionálních struktur.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Multidimenzionální databáze

    Řešením omezení relačních DB je organizace domultidimenzionálních struktur. Používáme dva typynenormalizovaných tabulek (dimenze a fakta). Analytické DBoznačujeme pojmem OLAP (On-line Analytical Processing).Charakteristika:

    rychlý a komplexní přístup k velkému objemu údajů,

    možnost komplexních analýz,

    předpoklad pro modelování a prognózy,

    vyšší nároky na kapacitu úložiště.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Fakta a dimenze

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Fakta a dimenze

    Fakta – numerické údaje o objektech studia. Jde o největší tabulkyv databázi s velkým objemem dat. Obvykle obsahují dva typysloupců (údaje a klíče do tabulek dimenzí). Fakta se seskupujía vytváří metriky. Příkladem faktů je například množství prodanýchproduktů.Dimenze – hierarchické uspořádání údajů. Jde o menší tabulky.Dimenze umožňují zkoumat data z různých pohledů. Mluvímeo dimenzích časových, produktových, geografických atd.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Multidimenzionální databázový model

    Data jsou organizována v relačnídatabázi.

    Každý řádek se vztahuje k jistéudálosti, předmětu nebo jejichčásti.

    Výsledkem agregace údajů jemultidimenzionální datovástruktura – krychle.

    Krychle obsahuje mnoho dimenzí(časové, místní, věcné . . . ).

    Na průniku dimenzí se nacházíkonkrétní údaje.

    Čas

    Prod

    ukt

    Zákaz

    ník

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Zpracování údajů z operačního prostředí

    Zpracování údajů na informace a analýza obvykle neprobíháv operačním prostředí, protože by mohlo dojít k výraznému sníženívýkonu a tím i ohrožení hladkého běhu.

    Data se tedy obvykle přenášejí do jiného prostředí (datovýchskladů), kde se teprve zpracovávají.

    Výhodou tohoto řešení je i to, že data mohou být získávánai z různých zdrojů.

    Nevýhodou je redundance údajů, zvýšení zátěže IT pracovníků,snížení flexibility a částečná ztráta metadat.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Tvorba datového skladu

    Provoznísystémy

    Datovýsklad

    Uivatelé

    ETLprocesy

    Prezentaènínástroje

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Datový sklad

    Jde o strukturované úložiště údajů určených pro analýzy.

    „Datový sklad je podnikově strukturovaný depozitář subjektověorientovaných, integrovaných, časově proměnlivých, historickýchdat použitých a získávání informací a podporu rozhodování.V datovém skladu jsou uložena atomická a sumární data.ÿ(Bill Inmon)

    Do datového skladu se dostávají pravidelné informacez různorodých zdrojů i geograficky odlišných.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Datový sklad

    Subjektová orientace – uchovávají se údaje podle předmětuzájmu, nikoliv podle aplikace, ve které byly vytvořeny.

    Integrovanost – údaje o konkrétním předmětu se ukládají jenjednou za použití jednotné terminologie názvů, jednotek apod.

    Časová variabilita – údaje se ukládají jako série časovýchsnímků reprezentujících časové úseky.

    Neměnnost – v datových skladech se údaje obvykle nemění,jsou jen pro čtení.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Datové trhy

    Datové trhy jsou přesně specifikované podmnožiny datovéhoskladu, určené pro menší organizační složky.

    Samotný datový sklad je velmi náročný projekt, proto jej častobudujeme a členíme do menších částí.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Metody tvorby datového skladu

    Při návrhu datového skladu je potřeba brát v úvahu organizačnístrukturu subjektu. Vhodné metody jsou:

    Metoda „velkého třeskuÿ

    Přírůstková metoda

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Příprava údajů – ETL

    Proces BI/DW obvykle pracuje s nehomogenními zdroji údajů. Lišíse jak fyzickým způsobem uložení (různé DB systémy) taki logickou strukturou.

    Taková data je nutné před započetím analýz připravit. Procesnazýváme ETL.

    Extraction – výběr dat

    Transformation – ověření, čištění, integrace a časovéoznačení

    Loading – přemístění dat do datového skladu

    Jde o komplexní a časově náročný proces, který může zabratpodstatnou většinu času určeného pro přípravu analytickéhoprostředí.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • ETL

    Prodeje

    Sklady

    Výroba

    Úèetnictví

    Datovýsklad

    Extrakce

    Transformace

    Naèítání

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Extrakce

    Úkolem tohoto kroku je získat data z různých nehomogenníchprovozních systémů a sjednotit je na jednom místě.

    Extrakce se týká nejen dat aktuálních, ale při přípravě novéhoskladu musíme pracovat i s daty archivními.

    Získávat můžeme data nejen z našich systémů, ale i od konkurencenebo různé volně dostupné statistické přehledy.

    Extrakce není jednorázová akce. Datový sklad plníme periodicky.

    Využíváme různé vyšší procedurální programovací jazyky (C++,C#) nebo procedurální nadstavby DB systémů (T-SQL, PL/SQL).

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Transformace

    Velmi důležitý krok, který rozhoduje o kvalitě zkoumaných dat.

    Údaje z provozních systémů mívají různou kvalitu. Jde o chybněvložená data nebo nekompletní data, případně o duplicitní data. Taje potřeba pročistit.

    Údaje mají i různou strukturu, v každém systému jsou jiné datovétypy (rodná čísla), rozsahy (měna), zkratky (pohlaví) atd. Datajsou nejednoznačná. Tato data je potřeba transformovat dojednotné podoby.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Přenos

    Je završením etapy ETL.

    V této fázi dochází k přenosu dat z přípravné oblasti do datovéhoskladu.

    Jde o plánovaný a hierarchizovaný proces s maximální možnoumírou automatizace.

    Někdy je třeba použít i umělé primární klíče.

    Po zavedení údajů obvykle následuje indexování.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Problémy ETL

    Proces ETL nemusí vždy proběhnout úspěšně.

    Může dojít k selhání technických prostředků případně i software.

    Velmi důležité je následné ověření kvality a celistvosti údajů.

    Pokud proces nedopadne dobře je obvykle nutné začít znovu odmísta selhání, případně opakovat celý proces znovu.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Analýza OLAP

    „OLAP je volně definovaný řád principů, které poskytujídimenzionální rámec pro podporu rozhodování.ÿ (E. F. Codd)

    Multidimenzionální konceptuální pohled vhodný pro analýzyTransparentnost – nástroj musí být snadno použitelnýDostupnost – využití jen potřebných údajů a toz heterogenních zdrojůKonzistentní vykazování – s rostoucím počtem údajů neklesávýkonArchitektura client-server s ohledem na cenu a výkonPodpora více uživatelů pracujících na stejném modeluNeomezené křížové dimenzionální operaceIntuitivní manipulace s údaji – drill down, drill upFlexibilní vykazování – různé uspořádání údajů v reportechvhodné pro různé situaceVíceúrovňové dimenze a agregace

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • MOLAP, ROLAP, HOLAP

    Multidimenzionální OLAP – data získává buď z datového skladunebo operačních zdrojů. Analytická data ukládá do vlastníchdatových struktur. Předpočítá maximální množství předběžnýchvýsledků. Výhodou je rychlost, nevýhodou redundance údajů.Relační OLAP – data získává z relačního datového skladu. Údajese předkládají jako multidimenzionální pohled. Využívá metadatapro dynamické generování SQL dotazů.Hybridní OLAP – kombinace přístupu MOLAP a ROLAP. Snažíse eliminovat nevýhody. Údaje jsou v relačních databázích,agregace se ukládají do multidimenzionálních struktur.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Doporučená literatura

    Kimball, Ralph; Margy Ross (2002). The Data Warehouse Toolkit:The Complete Guide to Dimensional Modeling (Second Editioned.). New York: Wiley. ISBN 0-471-20024-7.

    Lacko L. Datové sklady, analýza OLAP a dolování dat. Brno 2003.Computer Press. ISBN 80-7226-969-0.

    Novotný O., Pour J., Slánský D. Business Intelligence. Praha 2005.Grada. ISBN 80-247-1094-3.

    Rud O. P. Data mining. Brno 2001. Computer Press. ISBN80-7226-577-6.

    Ing. Jan Přichystal, Ph.D. Business Intelligence

  • Závěr

    Děkuji za pozornost

    Dotazy?

    Ing. Jan Přichystal, Ph.D. Business Intelligence


Recommended