Talend Open Studio DQ

Post on 21-Jun-2015

220 views 7 download

description

Tutorial for 4iz562 (Data Quality Management) course at UEP

transcript

Talend Open Studio DQ

Tutorial pro kurz 4IZ562Ing. David Pejčoch

KIZI / FIS VŠE Prahadavid@pejcoch.com

2013-05-26

Příklady používají Common Data

Model pro vertikálu Insurance

publikovaný na www.dataquality.

cz/kbase/

Instalace a spuštění

1. Stáhněte zip soubor z webu Talend.com (velikost cca 240 MB)2. Rozzipujte na disk3. Spusťte TOS_DQ-win32-x86.exe4. Při spuštění můžete přeskočit registraci kliknutím na „Register Later“

Sem se budou otevírat jednotlivé

záložky

Sem se budou ukládat jednotlivé analýzy

Knihovna jednotlivých komponent. Exchange složka představuje sdílené

komponenty v rámci komunity

Nadefinované datové zdroje

Integrovaný help „for Dummies“

Help se zobrazuje v záložce v pravé části úvodního okna. Neumožňuje přímé spouštění wizardů, pouze odkazuje na jednotlivé kroky.

Vytvoření připojení k databázi

Připojení k MySQL

Vyplňte příslušný login, heslo, adresu serveru a název databáze.

Vytvoření nového validačního pravidla

Validace pomocí regex

Analýza frekvencí vzorů

Dotaz nad tabulkou

Definice uloženého dotazu

Popis základních funkčních prvků

• Rules = pouze WHERE klauzule• Patterns = vzory pro validaci

– pomocí regulárních výrazů (nástroj obsahuje předpřipravené regulární výrazy v různých složkách podle domén)

– pomocí SQL LIKE klauzule specifické pro různá RDBMS• Source files = SQL příkazy, které lze spustit pomocí Data Expoloreru (v rámci

existujícího připojení na databázi)• Indicators = SQL příkazy s využitím sady předdefinovaných templatů

– Pattern Matching: počet záznamů, které vyhovují regulárnímu výrazu; počet záznamů, které vyhovují SQL LIKE klauzuli

– Pattern Finder = hledání četností vzorů– Soundex: tabulka četností Soundex hodnot– ...

Popis funkcionalit v rámci DB Connection

• Na úrovni připojení: porovnání databází, overview analýza (počty tabulek, řádků, indexů v tabulkách)

• Na úrovni databáze: overview analýza• Na úrovni seznamu tabulek: porovnání tabulek• Na úrovni tabulek:

– analýza tabulky pomocí SQL rules, – column analysis (na základě výběru datového typu, vzoru, indikátoru, sloupců

a where podmínky provede analýzu s grafickým výstupem),– pattern frequency analysis (viz. předchozí, ale zkoumá četnosti vzorů; z

výsledků lze vidět záznamy odpovídající jednotlivým vzorům, generovat ze vzorů regulární výrazy)

– preview table (přehodí do módu s konzolí pro SQL)

Popis funkcionalit v rámci DB Connection

• Na úrovni sloupce:– Analýza hodnot z množiny sloupců– Analýza korelace mezi sloupci– Analýza kategorií nominální proměnné– Pattern frequency analysis + další viz na úrovni tabulek