Date post: | 12-Apr-2017 |
Category: |
Technology |
Upload: | marketingarrowecscz |
View: | 191 times |
Download: | 0 times |
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
INTEGRACE DAT
DAVID VANÍK
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
INTEGRACE DAT O ČEM TO BUDE
• Proč se zabývat integrací dat
• Koncepce datové integrace z pohledu SASu
• SAS Data Integration Studio
• Virtuální integrace
• Metadata
• Workflow integračních procesů
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
INTEGRACE DAT PROČ
• Různorodá data
• Odlišná struktura
• Rozdílná kvalita
• Uložena na více místech
• Integrace a konsolidace dat
• Data uložená na jednom místě
• Stejná kvalita a struktura dat
• Aktuálnost dat
• Dostupná pro business uživatele
Správná data ve správný čas = Správná rozhodnutí
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
INTEGRACE DAT VYUŽITÍ
• Analýzy
• Reporting
• Data mining
• Prediktivní modely
• Marketingové kampaně
• Retenční aktivity
• Fraud system
Zvýšení ziskovosti firmy
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
DATOVÝ SKLAD
MS SQL
ORACLE
CRM
SAP
Excel
DATAMART
DATAMART
SOURCE DATA
Access
DATAMART
DATAMART
EDW
DATA WAREHOUSE REPORTING
MOBILE
HTML
EXCEL
VYSOKÉ NÁKLADY
POMALÁ IMPLEMENTACE
MALÁ FLEXIBILITA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
DATAMARTY
MS SQL
ORACLE
CRM
SAP
Excel
DATAMART
DATAMART
SOURCE DATA
Access
DATAMART
DATAMART
DATA WAREHOUSE REPORTING
MOBILE
HTML
EXCEL
NÍZKÉ NÁKLADY
RYCHLÁ IMPLEMENTACE
VELKÁ FLEXIBILITA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
INTEGRACE
MS SQL
ORACLE
CRM
SAP
Excel
DATAMART
DATAMART
SOURCE DATA
Access
DATAMART
DATAMART
DATA WAREHOUSE REPORTING
MOBILE
HTML
EXCEL
DQ
ETL
DATA INTEGRATION
METADATA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
INTEGRACE VIRTUÁLNÍ
• Ne všechna data je třeba fyzicky integrovat
• Některé systémy lze efektivněji integrovat virtuálně
• Bez nutnosti fyzické konsolidace a uložení
• Využívá se pro spojení dat z DWH i mimo DWH
• Výhodné při potřebě zachovat stále aktuální data
ÚSPORA ČASU A PENĚZ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
INTEGRACE VIRTUÁLNÍ
MS SQL
ORACLE
CRM
SAP
Excel
SOURCE DATA
Access
VIRTUAL DWH REPORTING
MOBILE
HTML
EXCEL
DATAMART
DATAMART
DATAMART
DATA WAREHOUSE
VIRTUAL DATA INTEGRATION
METADATA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
INTEGRACE
• Zajištění přehlednosti a budoucí udržitelnosti procesů datové integrace
• Kontrola datové kvality a čištění dat v rámci integrace dat
• Jednotná metadata
• Efektivní přístup
• Orientace na potřeby uživatelů
• Inkrementální přístup
CO BY MĚLA SPLŇOVAT
ETL NÁSTROJ = SAS DI STUDIO
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA INTEGRATION STUDIO
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO
Nástroj pro
tvorbu, implementaci a
řízení datových integračních
procesů
nezávislý
na datových zdrojích,
aplikacích
nebo platformách.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO
• Široké spektrum vstupních a výstupních formátů
• DB (Oracle, Teradata, SQL Server)
• Textové soubory (txt, csv)
• MS Excel
• MS Access
• ERP systémy (SAP, BW, Siebel)
• ODBC, OLEDB zdroje
• Hadoop, Postgre
• Napojení pomocí modulů SAS ACCESS
• DB nativní
• ODBC
• Registrace vstupů a výstupů v metadatech
VSTUPY A VÝSTUPY
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO RŮZNÉ ZDROJE DAT
Oracle
Txt
Access
Excel
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO
• Standardní integrační transformace
• Sort, join, merge, filter, create, update, insert, delete
• Využití SQL jazyka
• Speciální transformace
• Integrace datové kvality
• Inkrementální přístup
• Historizace dat
• Aktuální trendy
• Možnost využití Hadoop, Postgre
• Virtuální integrace
TRANSFORMACE
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO VYUŽITÍ DATABÁZE
Automatické efektivní
využití DB systémů
pomocí SAS
pass-through, které
umožňuje přenos
zpracování na stranu
databáze.
DB
SERVER ETL
SERVER
DB
SERVER ETL
SERVER
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO IDENTIFIKACE INKREMENTU
SAS DI studio umožňuje identifikaci inkrementu pomocí
speciální komponenty.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO CHANGE DATA CAPTURE
• Umožňuje efektivní realizaci inkrementálního
načítání
• Využívá změnových tabulek nebo značek na
straně databáze
• Výhodou je zrychlené načítání ETL procesů
• Přímo lze navázat historizaci SCD2
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO HISTORIZACE - SCD2 LOADER
SAS DI studio umožňuje řešit
historizaci dimenzionálních
tabulek pomocí SCD2 loaderu.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO INTEGRACE DATOVÉ KVALITY
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO INTEGRACE DATOVÉ KVALITY
Využití datové
kvality v rámci
datové integrace
pomocí DataFlux
Jobu nebo
Service.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO IMPACT ANALÝZA
SAS DI Studio
umožňuje
efektivně
realizovat
impact
analýzu ke
zjištění
závislostí v
ETL
procesech.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO MONITORING
Ukázka sledování stavu zpracování, doby běhu a dalších parametrů na úrovni
jednotlivých komponent v rámci workflow příslušné úlohy v SAS DI Studiu.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO DOKUMENTACE
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DI STUDIO VÝHODY
• Přehlednost – jsou lehce zjistitelná použitá data i transformace, vše je obsahem
komponent zapojených do workflow a registrováno v metadatech
• Maintenance – řešení není závislé jen na autorovi kódu, ale je lehce spravovatelné
širším okruhem osob
• Impact analýza – lze lehce dohledat, co všechno se musí upravit při změně určité
tabulky nebo transformace
• Repository – možnost práce více uživatelů
• Dávkové zpracování – výsledné joby jsou dávkově spustitelné s možností
schedulingu, což eliminuje manuální práci
• Zabudovaná podpora pro kvalitu dat
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
VIRTUÁLNÍ INTEGRACE
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
DB2 Greenplum Oracle SAS
Data Sets
SAP Teradata Other
(via ODBC)
SAS® FEDERATION SERVER
SOURCE SYSTEMS
ADVANCED FEATURES SMART CACHE
MANAGED ACCESS
QUERY ENGINE DATA ACCESS SECURITY
Business
Views Monitor Data Services
Federated
DSNs
Federation
Engine Optimizer
Native & ODBC
Drivers Authorization
Authentication
FEDERATION CLIENT
JDBC ODBC
USERS &
CONSUMING
APPLICATIONS
Row & Column
Multi-cache
Support
HIGH THROUGHPUT
READ/WRITE DATA ACCESS
FEDERATION SERVER
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
FEDERATION SERVER
• Ne všechna data musí být nutně v DWH
• Některé systémy lze efektivněji integrovat virtuálně
• Velká data s malým počtem přístupů
• Vysoká frekvence změn v datech
• Informace v DWH nemusí být zpožděné
• Virtuální integrace dat zajistí aktuální data
• Efektivní virtuální integrace
• Není třeba ETL procesů a kopií dat
• Úspora zdrojů a času
• Pružná reakce na změny
VIRTUÁLNÍ INTEGRACE
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
FEDERATION SERVER SECURITY MANAGEMENT
• Centrální security management
• Jednotné webové rozhraní
• Definice přístupových práv pro uživatele
a skupiny
• Přístupová práva na úrovni serveru,
schématu, tabulky, sloupce i řádku
• Umožňuje nastavení security i pro ne
DB systémy
• Excel, Access
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
FEDERATION SERVER MONITORING
• Aktivity uživatele
• Kdo, co, kdy dělá
• Připojení
• Dotazy
• Statistiky dotazů
• Identifikace často využívaných
dotazů
• Frekvence využití
• Průměrná délka trvání
• Tipy pro optimalizace dotazů
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
FEDERATION SERVER PŘÍNOSY
• Business
• Snadný přístup ke všem datům
• Integrace dat mimo DWH
• Stále aktuální data
• Častá, nejlépe real-time aktualizace
• Využití business vrstvy
• Bezpečnost
• Kdo přistupuje k datovým zdrojům
• Jaká data se používají
• Monitoring provozu
• Security i pro non DB systémy
• Security na úroveň řádků a sloupců
Too Big
Too Recent
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
FEDERATION SERVER PŘÍNOSY
• DWH
• Levná alternativa k tvorbě složitých DWH
• Datová samoobsluha, méně IT zdrojů
• Pružná reakce na změny
• Analýza a optimalizace dotazů
• Výhodné pro oblasti s obtížně řešitelnou
nebo neefektivní integrací dat
• Příliš velká data s malým počtem přístupů
• Vysoká frekvence změn v datech
Too Diverse
Too Ad-hoc
Too Inaccessible
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS METADATA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS METADATA
• Centrálně sdílená
• Definice uživatelů, skupin a rolí
• Definice architektury – servery a jejich konfigurace
• Data warehouse metadata – databáze, tabulky, indexy, sloupce
• Business metadata – reporty, informační mapy
• Procesy - joby, flow
• Metadata bridges
• Propojení SAS metadat např. s modelovacím nástrojem Power Designer
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS METADATA MANAGEMENT CONSOLE
Správa metadat se realizuje v
grafickém prostředí SAS
Management Console
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS WORKFLOW
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
WORKFLOW NASTAVENÍ ZÁVISLOSTÍ
Logické závislosti
Závislost na souboru
Závislost na úloze
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
WORKFLOW KALENDÁŘ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CO JE DŮLEŽITÉ
• Zajištění přehlednosti a budoucí udržitelnosti procesů datové integrace
• Kontrola datové kvality a čištění dat v rámci integrace dat
• Efektivní přístup k tvorbě DWH
• Orientace na potřeby uživatelů
• Inkrementální přístup
• Možnost využití moderních přístupů
• Virtuální integrace
• Napojení na Hadoop, Postgre, …
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS ADD-IN MS EXCEL
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS REPORTING SAS ADD-IN
• SAS je dostupný z MS Excel
• Zobrazení dat
• Ad-hoc analýzy
• Grafické výstupy
• Dynamické napojení Excelu na SAS
• Možnost využití výpočetního výkonu
SAS serveru
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com