Bigdata · Bigdata pro začátečníky a pokročilé Bigdata_def.indd 7 6/21/12 3:25 PM Bez...

Bigdata

pro začátečníky a pokročilé

Bigdata_def.indd 7 6/21/12 3:25 PMBez názvu-31 ob1Bez názvu-31 ob1 21.6.12 16:1221.6.12 16:12

Všechny firmy bojují s nekončícím nárůstem objemu dat, vyvolávajícím tlak na jejich efektivní správu a zabezpečení. Tento boj zpravidla nemá vítěze. Řešení nespočívá v nákupu novějších, větších, efektivnějších či výkonnějších serverů a úložišť dat pro IT, které se „o TO přece postará“. GTS Data Storage je na míru vytvořené řešení pro ukládání dat, které je vysoce efektivní, bezpečné a škálovatelné. Využívá mimo jiné prověřenou infrastrukturu datových center a spolehlivou datovou konektivitu. GTS nabízí v garantované kvalitě komplexní portfolio telco a ICT služeb zákazníkům z oblasti firem a veřejné správy.

Více o službách a referencích najdete na GTS.cz a GTSworkingworld.com

Vyberte si seminář zdarma

BigData-2012-obalka.indd ob2 BigData-2012-obalka.indd ob2 21.6.12 8:2221.6.12 8:22

W W W.C I O.C Z | W W W.C W.C Z 3

Sázka na jistotu

Téměř 70 procent společností používá, nebo alespoň zvažuje či plánuje používání big dat. Toliko podle průzkumu softwa-rového integrátora Informatica Corporation. Největším důvo-dem pro zpracovávání big dat je nezvladatelně rychle rostoucí objem zpracovávaných dat. Roste také potřeba analyzovat udá-losti v sociálních sítích, zpracovávat komunikaci prostřednic-tvím mobilních telefonů a také řídit komunikaci mezi přístroji (machine -to -machine).

K největším problémům, které respondenti u big dat vidí, patří zejména stále ještě nevyspělé nástroje pro zpracování velkých objemů dat, absence podpory při práci s daty v reál-ném čase, nevyjasněné otázky ohledně bezpečnosti a sou-kromí a nedostatek zkušených vývojářů pro práci s big daty. Průzkumu se zúčastnilo na 600 odborníků z celého světa. Výsledky takového průzkumu tedy nelze hodit za hlavu.

To nechceme udělat ani my ve vydavatelství IDG. Proto jsme v redakcích Computerworldu a CIO – Business Worldu připravili pro vás speciální letní přílohu Big data pro začáteč-níky a pokročilé. Kromě redakčních článků, které by vás měly do problematiky zasvětit, přinášíme také pohledy firem, které mají k tématu co říci.

Věřím, že vám tento průvodce big daty bude nápomocný.Přeji vám příjemné čtení. ■

Big data nejsou žádným prázdným marke-tinkovým slovem. Jde o funkční a existující technologii, která si zaslouží vaši pozornost.

RADAN DOLEJŠ,

ŠÉFREDAKTORCOMPUTERWORLDU

EDITORIAL

BigData-2012.indd 3 BigData-2012.indd 3 21.6.12 8:4321.6.12 8:43

4 B I G DATA 2012

14Hadoop: Velká příležitost pro korporátní data

12Open source a big data

10Připravte se na big data

9Zamezí big data i atakům hackerů?

6Big data majestátně vstupují do firem

Obsah18 Otevřené úložné systémy se ZFS

20 Posuňte byznys

22 Správné informace ve správný čas

23 Data jsou důležitější než virtualizace!

24 Big data – jedinou cestou je komplexní řešení

26 Velká data jsou výzvou

27 Abeceda velkých dat

28 In -memory computing, bič na spoutání big data

30 S patřičným výkonem přeměníte big data ve znalosti

32 Big data budou časem norma

34 Big data (nejen) v marketingu

36 Velká data vyžadují špičková datová centra

37 Výkonná datová infrastruktura pro nejnáročnější prostředí

38 Příležitost pro IT profesionály


www.itregatta.cz

15.–19. září 2012

Kaštela, Chorvatsko

– C I O B U S I N E S S W O R L D C U P 2012

IT & Business Regatta

Nově 2 kategorie lodí: FIRST 45 a FIRST 35Až 20 lodí na startu!


6 B I G DATA 2012

Big data majestátně vstupují do firemNová sada technologií pro dolování informací slibuje navždy změnit způsob, jakým využíváme obrovská úložiště dat – zvýší se rychlost a zároveň se i sníží cena.

STACY COLLETTOVÁ

Předpovědi jsme slyšeli všichni: Do roku 2020 se množství elektronicky uložených dat zvýší na 35 bilionů gi-

gabajtů, což je 44násobek od roku 2009.Pro šiřitele poplašných zpráv je to zlo-

věstná předpověď soudného dne pro úlo-žiště. Pro oportunisty informace o zlatém dole, jehož bohatost bude odkrývána s rozvojem pokročilých technologií.

Vstupte do světa označovaného po-jmem „big data“ (rozsáhlá data). Vzniká skupina technologií dolování dat, která více než kdy předtím zrychluje a zlevňuje

ukládání, manipulaci i analýzu velkých objemů dat. Technologie big dat se stávají díky využití prostředí superpočítačů do-stupné pro velké množství organizací, a to změní způsob, jakým podnikají.

Stejně jako cloud byl také pojem „big data“ předmětem velkého humbuku a velké míry nejasnosti. Požádali jsme analytiky a nadšence z oboru, aby vysvět-lili, o co jde a o co naopak nikoli, a také aby odhadli, co mohou big data přinést do budoucnosti dolování dat.

Vytvoření etapy pro rozsáhlá dataBig data určená pro běžné korporátní zá-kazníky se v této době objevila do jisté míry i díky nižší ceně vztažené k výpočet-nímu výkonu a díky tomu, že jsou počí-tače schopny zpracovávat více úloh najed-nou. Ceny operačních pamětí také po-klesly a společnosti mohou na rozdíl od minulosti zpracovávat řadu dat přímo v nich. A co více, je snadnější propojovat počítače do serverových clusterů. „Kombi-nace těchto tří faktorů způsobila vznik pojmu big data,“ prohlašuje Carl Olofson, analytik správy databází v IDC.

„Nemůžeme tyto věci jen dělat správně, ale musíme je také provádět za cenu dostup-nou pro většinu,“ vysvětluje. „Některé z vel-kých superpočítačů v minulosti nabízely silný multiprocesing systémů, které byly pro-pojeny dohromady v rámci těsně prováza-ných clusterů. Jejich cena ale šla do stovek tisíc dolarů nebo více, protože šlo o speciali-zovaný hardware. Nyní si lze pořídit tento druh konfigurací s využitím levných komo-ditních řešení. To dovolilo zpracovat více dat rychleji a levněji.“

Ale ne každá společnost s obrovskými datovými sklady může říci, že využívá technologii big data. Aby vznikl nárok označovat technologii právě tímto po-jmem, musí podle IDC splňovat alespoň dvě ze tří kritérií, která IBM definovala jako tři „V“: variety (různorodost), volume (objem) a velocity (rychlost).

„Různorodost“ znamená, že se data na-cházejí ve strukturovaných i nestrukturo-vaných podobách. „Objem“ představuje to, že je množství shromažďovaných a analy-zovaných dat opravdu velmi velké. A ko-nečně „rychlost“ se vztahuje k tomu, že data musejí být zpracovávána rychle.

„Nejde vždy o stovky terabajtů,“ vysvět-luje Olofson. „V závislosti na případu po-užití může být několik set gigabajtů docela velké množství z důvodu důrazu na další pa-rametr, kterým je rychlost nebo čas. Pokud lze provést analytický proces na datech o ob-jemu 300 GB v řádu sekund, zatímco dříve to trvalo hodinu, tak to významně mění mož-nosti práce s daty či toho, co lze dělat s vý-sledky – takže tím vzniká další hodnota. Big data je tedy již dostupná aplikace, která spl-ňuje alespoň dvě ze tří uvedených kritérií.“

Souvislost s open source„Mnoho lidí považuje platformu Hadoop a big data za synonyma. To je omyl,“ vysvět-luje Olofson. Některé implementace Tera-data, MySQL či „chytrých clusterových technologií“, které nevyužívají Hadoop, lze také za big data považovat.

Platforma Hadoop, aplikační prostředí pro big data, získala v nedávné minulosti většinu pozornosti, protože je založena na principu MapReduce, což je přístup běžný v oblasti supercomputingu, který byl zjed-nodušen a v elegantní podobě vytvořen v rámci projektu z velké části placeného společností Google.

Hadoop je převažující implementací kombinace úzce souvisejících projektů Apache včetně databáze HBase, která je použita právě v prostředí MapReduce.

Softwaroví vývojáři zareagovali přípra-vou mnoha různých technik, jejichž cílem je optimální využití platformy Hadoop a podobných pokročilých technologií – mnoho z nich přitom bylo vyvinuto v ko-munitách open source. „Vytvořili závrat-nou rozmanitost takzvaných NoSQL data-bází, které jsou většinou založeny na páro-vání klíčových hodnot a jež pomocí různých technik optimalizují propustnost, různoro-dost nebo velikost,“ uvádí Olofson.

Technologie open source ale nejsou ko-merčně podporovány, takže se budou tyto



Roční předplatné tištěné a elektronické verze Computerworldu nyní

jen za 429 korun. Jako bonus navíc i roční předplatné tištěné verze

CIO Business World a SecurityWorld.

Zvýhodněné předplatné objednávejte na adrese http://cw.idg.cz

+ Přitažlivá správa zranitelnostíZabraňte nebezpečným situacím hned v zárodku

ČTVRTLETNÍK O INFORMAČNÍ BEZPEČNOSTI49 Kč 1,96 € | ZÁŘÍ 3/2011Máte mobily

pod kontrolou?Přehled bezpečnostního softwaru pro smartphony Kam kráčí šifrováníJe standard AES stále ještě dostatečný? Podniková SOASouhrn hrozeb, jež jí hrozí

PPřeehlleed bezpečnossttnníhoo sooffttwwwaaruu pproo smmartphony

JJee sstanndard AESS ssttállee jeeště dostaatečnnýý?

SSooouuhhhrrnn hhrroozeebbb,, jjeežž jjíí hhrroozzíí

Máte mobily pod kontrolou?Přehled bezpečnostního softwaru pro smartphony Kam kráčí šifrováníJe standard AES stále ještě dostatečný? Podniková SOASouhrn hrozeb, jež jí hrozí

Přečtěte si svůj Computerworld opravdu kdekoliv. Za jedno zvýhodněné předplatné nyní získáte Computerworld nejen v tištěné variantě, ale také jeho elektronickou verzi vhodnou pro stolní počítače, mobily i tablety.

na papíru, v počítači, mobilu i tabletu za jednu cenu!

PPPZZ e no zv odn nééale také jeho elektron

vůůůůjj ě é

COMPUTERWORLD

CICIOO BuBuss

nyní jen za

429 Kč!

Inzerce

věci muset chvíli vyvíjet a tříbit, což může trvat několik let. To je rodící se aspekt big dat, který ještě chvíli neponese ovoce pro obecný trh, dodává Olofson.

Modernizované RDBMSOboroví pozorovatelé se neshodnou, zda upgradované systémy správy relačních da-tabází lze také považovat za technologii big dat. „Myslím si, že vyhovují kritériím rychlejší, větší a levnější,“ tvrdí Olofson. Podle něho například Teradata zajistila vyšší dostupnost svého systému, který je škálovatelným clusterovým prostředím.

Ostatní však nesouhlasí. „Zpracování, které běžně děláte pomocí RDBMS s využi-tím standardních nástrojů BI, to skutečně nejsou big data,“ prohlašuje Marcus Col-lins, analytik správy dat v agentuře Gart-ner. „Takové zpracování tady je dlouho.“

Takže kdo tedy skutečně analyzuje big data?

Ještě před rokem byly primárními uži-vateli technologie big dat velké webové společnosti jako například Facebook nebo Yahoo, které chtěly analyzovat data ohledně klikání svých uživatelů.

„Dnes však dochází k přesunu směrem k libovolným firmám, které pracují s velkými objemy informací,“ tvrdí Collins. Banky, služby, zpravodajské komunity – všichni se přidávají k trendu big dat.

Některé z technologií jsou aktivně vy-užívány těmi, kdo jsou v problematické si-tuaci, protože je již nyní potřebují – na-příklad jsou závislí na tvorbě webových služeb řízených sociálními médii. Proto také k rozvoji těchto projektů intenzivně přispívají.

Také v ostatních oborech si firmy uvě-domují, že pro ně mají informace větší

hodnotu, než dosud předpokládaly, takže se pravděpodobně brzy také stanou vý-znamnými uživateli technologií big dat. Spojte si to s dostupným výkonným hard-warem i softwarem – a je tu záplava pří-ležitostí pro transformaci podnikání.

Například společnost TRA pomáhá or-ganizacím měřit hodnotu televizní re-klamy srovnáváním odvysílané inzerce s nákupním chováním u maloobchodních pokladen. Pro zjištění těchto souvislostí sbírá uvedená firma data z digitálních vi-deorekordérů poskytovatele kabelové tele-vize a programů věrnostních karet potra-vinových obchodů.

Systém big dat, s nímž pracuje TRA, zpracovává obrovské množství dat, která reprezentují přesné zachycení zvyků sle-dování televize u 1,7 milionu domácností.

U TRA je nasazena databáze Kognitio WX2, která společnosti umožňuje rychle načítat, profilovat a analyzovat informace, sbírat podrobné údaje o zobrazení rekla-

my z digitálních videorekordérů, integro-vat je s podrobnými daty z prodejen a ná-sledně vytvářet zakázkové reporty.

„Kognitio využívá technologii in -memory, takže v operační paměti může být polovina naší současné databáze. To znamená, že čas odezvy na dotazy našich zákazníků může být v řádu sekund namísto nedávných hodin či dnů,“ pochvaluje si výkonný ředitel TRA Mark Lieberman.

Databáze běží na komoditním hard-waru, přičemž TRA užívá svoji vlastní aplikaci, která zprostředkovává data uži-vatelům a je naprogramována na plat-formě Visual Studio.Net.

Greg Belkin, analytik společnosti Aberdeen Group, potvrzuje, že ná-stroje používané firmou TRA i dalšími mají poža-dovanou rychlost, objem a různorodost, aby je bylo možno označovat za big data. „To všechno je v malo-obchodě velmi důležité, pro-tože existuje mnoho prudce rostoucích zdrojů dat, které nebylo tradičním způsobem možné zkoumat, jako jsou například weby sociálních médií, digitální videorekor-déry či data z věrnostních karet potravinových ob-

chodů,“ prohlašuje Belkin.„Tato data jsou tak komplexní a je jich to-

lik, že je nelze analyzovat tradičními databá-zovými metodami, takže se prodejci obracejí k platformám big dat.“

Podobně proměnila technologie big dat i podnikání firmy Catalina Marketing. Ta provozuje obrovskou databázi informací

Tři mýty o rozsáhlých datechExistuje velké množství zmatku ohledně definice rozsáhlých dat a jejich použitelnosti. Uvádíme tři mýty o rozsáhlých datech:1. Relační databáze nemohou růst do velmi velkých objemů,

a proto je nelze považovat za technologii pro big data. (Není to pravda.)

2. Hadoop nebo rozšířeně libovolné prostředí s MapReduce je nejlepší volbou pro big data, a to nezávisle na pracovní zátěži nebo případu použití. (Také to není pravda.)

3. Éra schématických systémů správy databází je u konce. Vývoj schématu při nasazení big dat jen překáží. (Absurdní ne-pravda.)

Zdroj: IDC, „The Big Deal About Big Data,“ únor 2011


8 B I G DATA 2012

vztahujících se k zákaznické věrnosti. Má velikost 2,5 petabajtu a obsahuje údaje o několikaleté historii nakupování u více než 190 milionů prodejců potravin.

Její největší databáze má neuvěřitel-ných 425 miliard řádků a každý den při-bývá dalších 625 milionů řádků.

Prostřednictvím analýzy dat pomáhá Catalina hlavním výrobcům spotřebitel-ského zboží a řetězcům supermarketů předpovídat, co budou zákazníci pravdě-podobně kupovat a kdo se bude zajímat o nové produkty.

„Chtěli jsme přinést technologii pro data, a nikoli data pro technologii,“ prohlašuje Eric Williams, viceprezident a ředitel IT společnosti Catalina. „Nyní už existuje ře-šení, které společnostem jako SAS umožní přesunout své analytické technologie přímo do databáze. To exponenciálně změnilo ce-lou naši korporaci. Tyto věci jsme samozřej- mě dříve také dělali, ale s výraznými limity, které nám nedovolily dosáhnout vytoužených cílů. Museli jsme využívat nástroje vyvinuté svépomocí, které byly ve svých možnostech skutečně velmi omezené. Přínos technologie big dat změnil celou naši organizaci.“

Kromě určitého open source softwaru v proprietárních systémech využívá Cata-lina řešení SAS Analytics na platformě appli ance datového skladu Netezza.

„Korporace vyvíjejí technologii tak, aby fungovala na obecném hardwaru založeném na procesorech Intelu – to dovoluje využívat funkce sekundárních či terciárních produktů (například skórovacích řešení SAS Analy-tics) přímo na platformě Netezza, která pro-vozuje příslušnou databázi,“ vysvětluje Wil-liams. „Možnost vzít tuto technologii a po-užít ji rovněž k operacím nad databází při-nesla společnosti Catalina zrychlení dolování dat z původního časového rámce týdnů na nynější hodiny.“

Big data od základu mění také způsob, jakým funguje Bank of America, tvrdí Abhishek Mehta, nedávný šéf divize pro big data a analytiku této banky. „Pohlížím na platformu Hadoop jako na Linux před 20 lety. Všichni jsme viděli, co Linux udělal ve sféře podnikového softwaru. Přinesl ma-sivní změny existujícího podnikového IT pro-středí. Hadoop udělá totéž.“

Kromě analýzy transakcí a dat o kliknu-tích umožňuje Hadoop bance Bank of America rychle vyřešit podnikatelské pro-blémy. „Nyní můžeme jako banka vážně přemýšlet o efektivní eliminaci podvodů,“ tvrdí Mehta. „Můžeme vytvořit model sledu-jící každý výskyt možného podvodu pět let dozadu pro každého klienta – namísto sou-časného vzorkování, vytváření modelů a zjiš-ťování výjimek z nich vybočujících. Takové dny jsou u konce.“

Odvětví služeb teprve začíná chápat velká množství dostupných dat a jimi ne-

senou hodnotu. Jedna z organizací využívá Hadoop na analýzu dat ze svých „inteli-gentních měřičů“, které jsou primárně vy-užívány k automatizaci platebního pro-cesu, ale sbírají také informace o výky-vech odběru elektrického proudu přísluš-ným zákazníkem. „Pokud tyto informace shromáždíte a podíváte se na vzory, můžete identifikovat blížící se selhání místního in-frastrukturního modulu, jako je třeba trans-formátor, ještě předtím než k němu skutečně dojde,“ vysvětluje Olofson z IDC.

„Nebo pokud dojde k výpadku dodávky energie, způsobí to výkyvy, které pomohou poruchu detekovat.“

Časem podle něho budou dodavatelé energie využívat rozsáhlá data ke zlepšo-vání služeb zákazníkům a ke snížení pro-vozních nákladů díky detailnímu monito-ringu elektrické sítě, detekcí problémů a schopnosti upravovat sítě. Bude to ale vyžadovat významné investice do obnovy stárnoucí infrastruktury.

Marketingoví specialisté na obchodní značky zase experimentují s platformou Hadoop v oblasti analýzy sentimentu na základě dat ze sociálních médií. Objevují se už i poskytovatelé služby, která využívá Hadoop k „prosévání“ Twitteru podle po-žadavků svých klientů. Přitom například zjišťují, co přispěvatelé říkají a co si myslí o konkrétních produktech.

Obezřetné zaváděníTechnologie big dat se rychle vyvíjí. Spo-lečnosti, jež ji využívají, mají IT personál, který je výjimečně schopný a dokáže zajis-tit přizpůsobení změnám technologie i požadavkům vlastní firmy.

„Pokud se situace u vás liší, raději využí-vejte poskytovatele služby – možná cloudové služby – nebo vyčkejte, než dojde k dosažení bodu, kdy bude k dispozici dostatek ověře-ných softwarových produktů a služeb, které je budou podporovat,“ doporučuje Olofson.

„Budete mít něco, čemu budou lidé ve vaší firmě rozumět.“

Dolování dat se bezpochyby navždy změnilo. Analytici však tvrdí, že technolo-gie rozsáhlých dat zcela nenahradí sou-časné nástroje datových skladů.

„Současný datamaining je založen na vy-tváření relativně důmyslných modelů s ne-příliš velkými objemy dat,“ prohlašuje Col-lins z Gartneru. „Big data ale nyní pracují s obrovským množstvím dat, takže by se mohlo stát, že by již nebyly ony důmyslné modely natolik potřebné. To může znamenat posun ve způsobu dolování dat.“

„Podle mého názoru se ve skutečnosti roz-šíří trh datových skladů,“ prohlašuje Olof-son. „Budou využívat technologii jako Map-Reduce (ať už s rozšířením Hadoop nebo ně-jakým jiným na komerční bázi) k vytváření zajímavých dat postavených na produktech business intelligence, která dříve nemohla být získána. Potom budou kvůli opětovnému využití a sledování historických vzorů tato data ukládat do datových skladů a rozšiřovat tak jejich využití.“

Collins uvádí, že rozsah představuje další výzvu spolu se skutečností, že nee-xistují ustanovené architektonické vzory pro nasazování a využívání big dat.

Některé problémy samy vymizí s pří-chodem nových nástrojů, ale technologie big dat jsou stále z velké části programo-vým rozhraním – což je pro BI krokem zpět, vysvětluje Collins. „Například Ha-doop je spíše systém pro nadšence. Úsilí v ob-lasti BI bylo zaměřeno na zavedení užiteč-ných ukazatelů na desktopy patřičných pra-covníků, a to s využitím uživatelsky velmi přívětivého rozhraní. S platformou Hadoop jsme se dostali o krok zpět. Noví dodavatelé ale určitě pomohou situaci napravit.“

„Technologie rozsáhlých dat musí vykro-čit ze sféry IT a musíme dát nástroje do ru-kou uživatelů z řad firemních oddělení,“ dodává Collins. „To se ještě nestalo.“ ■

NoSQL zastiňuje starší RDBMSIT oddělení se obracejí na moderní architektury NoSQL a NewSQL namísto tradičních relačních databází. Ty sice zřejmě v dohledné době neskončí, ale dny jejich slávy jsou zřejmě u konce.

PAUL KRILLRelační databáze, dlouho kritizovaná část nasazení podnikového softwaru, jsou nyní nuceny sdílet trh s technologiemi lépe vybavenými pro ukládání nových datových struktur a pro práci s moder-ními hardwarovými systémy.

Spolehlivé RDBMS od dodavatelů softwaru, jako IBM, Microsoft nebo Oracle, jsou stále masivně využívány a všechny budou nadále ovládat základní funkce, jako jsou například finanční transakce. Databáze NoSQL a technologie rozsáhlých dat jako Apache Hadoop a MapReduce ale mají místo na scéně, kde se něco děje.

„NoSQL představuje databáze, které jsou nerelační, horizontálně škálovatelné, distribuované a open source. Mohou sloužit jako záložní úložiště pro servery webových aplikací, systémy správy obsahu, strukturovaný záznam událostí, úložiště mobilních aplikací na straně serveru a úložiště do-kumentů,“ tvrdí Dwight Merriman, spoluautor NoSQL databáze MongoDB.

Průkopník databází Michael Stonebraker, hlavní architekt Ingres RDBMS a současný technolo-gický ředitel VoltDB, rovněž kritizuje zastaralé SQL systémy RDBMS a podporuje řešení označované jako „NewSQL“, které podle něho zachovává SQL a relační model stejně jako ACID (atomicita, kon-zistentnost, izolace a odolnost) a nabízí přitom výkon a škálovatelnost.

NewSQL eliminuje díky běhu databáze v operační paměti potřebu vyrovnávací paměti, která spo-třebovává IT prostředky. Odstraňuje také nutnost zámků při spouštění jediného vlákna na serveru.



Zamezí big data i atakům hackerů?Rozvoj technologií pro big data podle všeho dá vzniknout datovým specialistům zaměřeným na bezpečnost, kteří budou mít nástroje a potřebné znalosti k odhalování útoků skrytých vetřelců, jejichž záměrem je krást vysoce citlivá data.

ELLEN MESSMEROVÁ

Chytání počítačových zlodějů při činu ve stále rostoucích sítích se ukazuje jako velmi obtížné a big data pro tuto

činnost přinášejí novou naději. Je však opodstatněná?

Scott Crawford, badatel firmy Enter-prise Management Associates, je o tom přesvědčen. „Analytici pracující se statisti-kami budou schopni identifikovat anomálie, ale nerozumějí bezpečnosti,“ poznamenal během nedávné konference firmy RSA zamě řené na téma big dat.

Crawford předpovídá, že se v blízké době objeví řešení využívající bezpeč-nostní algoritmy pro big data. Všiml si, že už dnes organizace jako Red Lambda a Palantir to jsou schopny dělat pomocí náročné matematické analýzy zaměřené na hledání anomálií.

Někteří analytici uvádějí, že záměr útočníka skrývat se je vlastně anomálií v obecně „dobrém“ chování síťových uži-vatelů uvnitř sítě, kde se útočník často schovává. „V současné době dokážou skrytí útočníci projít tradiční obranou, jako jsou systémy IPS, firewally a antiviry,“ poukazuje Neil MacDonald, analytik Gartneru.

Tyto ničivé útoky mající za cíl infiltraci a krádež velmi citlivých dat jsou někdy označovány jako sofistikované ataky typu APT (Advanced Persistent Threats) a jsou prováděny osobami schopnými účinně skrývat svou přítomnost uvnitř podniko-vých sítí.

MacDonald je přesvědčen, že v sou-časné době prostě nelze rozlišit dobré a zlé síťové aktivity. Abyste dokázali za-znamenat odchylky od tzv. klasických ak-tivit, musíte nejdřív vědět, jak vypadají.

Inovované nástroje SIEMBig data nabízejí nové možnosti pro bez-pečnostní analýzy, což by mohlo zname-nat, že jeden typ dnes využívaných bez-pečnostních nástrojů – SIEM (Security Information and Event Management) a podobné nástroje, nemusí být pro tyto účely dostatečně vhodný, takže bude nutný vývoj jiného produktu.

„Do určité míry již tento proces započal,“ tvrdí MacDonald a poukazuje mj. na pro-dukt RSA NetWitness pro detekci hrozeb

nebo na HP ArcSight SIM. Některé začí-nající firmy, jako třeba CrowdStrike, pro-hlašují, že problém APT budou schopny řešit zcela inovátorskými způsoby.

Budou se však produkty SIEM vyvíjet tak, aby byly schopné zpracovat big data související s podnikáním, nebo nikoli? A není celá myšlenka, že budou rozsáhlá firemní data přidána k tradičnějším da-tům SIEM z různých firewallů, serverů, systémů IPS apod., aby jim poskytla smys-luplnou inteligenci v souvislosti s hledá-ním útočníků, jen krásnou iluzí?

„Lidé nemohou požadované odpovědi dostat od současných nástrojů SIEM,“ tvrdí analytik John Kindervag ze společnosti Forrester. Podle něho se bude muset objevit něco nového, kde budou mít nástroje SIEM roli pouhé komponenty.

Jon Oltsik se skupinou Enterprise Strategy Group jsou ale nejskeptičtější, že by technologie big data byla odpovědí na problém útoků APT.

„Obávám se, že budeme ukládat větší množství dat a nebudeme vědět, co s nimi dělat,“ tvrdí Oltsik. Šéfové zabezpečení v současných podnicích podle něho ne-jsou nijak výraz ně nakloněni myšlence, že by byla tech nologie big data nějakým zvláštním přínosem pro zabezpečení je-jich infrastruktury.

„Když mluvím s CSO a zeptám se jich na big data, doslova se smějí,“ popisuje Oltsik současnou situaci.

Přesto jsou však výsledky některých raných osvojitelů použití big dat pro bez-pečnostní účely nadějné.

Například bankovní holding Zions Bancorporation vytvořil obrovské úložiště pro aktivní analýzy kombinace dat ze za-bezpečení v reálném čase a firemních dat. Cílem je zjišťovat phishingové útoky, předcházet podvodům a odrážet pokusy hackerů o vniknutí.

Tvoří ho datový sklad Zettaset využí-vající Hadoop pro distribuované aplikace s vysokými nároky na práci s daty.

Dodavatelé produktů SIEM ale prohla-šují, že rozruch okolo big dat a zabezpe-čení teprve začíná.

„Je to cesta, kudy se musejí produkty SIEM do budoucna vydat,“ říká Matt Ul-mer, ředitel produktového managementu společnosti NetIQ, která je výrobcem pro-duktu SIEM s názvem Sentinel.

Ulmer tvrdí, že bezpečnostní odvětví je teprve na počátku cesty k nalezení mo-delu SIEM se začleněnou firemní inteli-gencí. „Big data mohou odhalit to, co se vy-myká běžnému modelu,“ tvrdí Ulmer.

Ulmer však zdůrazňuje, že není snadné definovat to, co je dobré. Upozorňuje, že útočník může „převzít účet, takže je otázka, zda jde o zaměstnance nebo o útočníka“. Tajné útoky podle něho probíhají jen pár sekund každý den, takže cílem je defino-vat důvěryhodného zaměstnance tak, aby byl odlišen od útočníka. Big data k tomu mohou poskytnout velkou pomoc.

Překážky v cestěUlmer však dodává, že koncept zabez-pečení s využitím big dat bude z mnoha praktických důvodů čelit překážkám.

Jedním z praktických omezení pro do-sažení živatoschopných produktů je sou-časný obecný tlak na přesunutí podniko-vých dat do cloudu, kde je tradiční po užití SIEM obtížnější než při jejich nasazení v rámci infrastruktury podnikové sítě.

Další překážkou je, že CSO věřící v mož nosti technologie big data budou muset vytvářet nové strategie a dopo-ručení.

V době, kdy jsou s vedením firem ře-šeny další podnikové problémy, například zda povolit používání osobních mobilních zařízení pro firemní účely (BYOD), může být zavedení technologie big dat do ob-lasti bezpečnosti obtížně prosaditelné. ■


10 B I G DATA 2012

Připravte se na big dataUž máte svůj plán pro big data? Pokud ne, možná budete chtít o nějakém přemýšlet.

BETH STACKPOLEOVÁ

Technologie big dat je oslavována (nebo medializována, záleží na úhlu pohledu) jako klíčový strategický

projekt podniku budoucnosti. To zna-mená, že je jen otázkou času, než firemní manažeři budou chtít vědět, co si o tom myslí jejich oddělení IT.

Co jim říci? Aby bylo jasno, zvládání velkých objemů dat není pro většinu IT oddělení nic neznámého, ale jak analy-tici říkají, big data se od technologií dato-vých skladů, dolování dat a business intel-ligence, které přišly dříve, skutečně liší.

Data jsou generována s větší rychlostí a variabilitou než kdykoli dříve a na rozdíl od údajů v minulosti je většina z nich v nestrukturované a surové podobě (ně-kdy se pro ně používá název „gray data“).

Blogy, sociální sítě, senzory strojů a ná-stroje využívající údaje o poloze vytvářejí zcela nový vesmír nestrukturovaných dat, která – když jsou rychle zachytávána, spravována a analyzována – mohou po-moci společnostem odhalit fakta a vzory, které v minulosti nebylo možné spolehlivě rozpoznat.

„Dlouhou dobu jsme shromažďovali data, ale bylo to velmi limitované – produkce byla hojná, ale nikdo s tím nebyl schopen něco vý-znamnějšího udělat,“ říká Paul Gustafson, ředitel technologických programů Lea-ding Edge Forum společnosti Computer Sciences.

„Docházelo k archivaci dat a k modelo-vání v souvislosti s podnikovými procesy, ale ne k modelování v rámci širšího souboru základních znalostí o podniku. Mantrou je posun od sběru k souvislostem.“

Jak tvrdí Eric Williams, ředitel IT spo-lečnosti Catalina Marketing, je to příle-žitost vstoupit do kanceláře výkonného ředitele a prohlásit: „Mohu změnit firmu a poskytovat znalosti na dosah ruky během několika sekund za cenu, která nebyla před několika lety vůbec do sažitelná.“

Williams by to měl vědět – Catalina udržuje 2,5petabajtovou věrnostní data-bázi zákazníků, která obsahuje údaje o více než 190 milionech klientů největ-ších maloobchodních potravinářských ře-tězců v USA. Tyto informace jsou použí-vány k výrobě pokladních kuponů podle historie nákupů.

Williams i další pozorovatelé říkají, že při přechodu organizací do éry pre-

diktivní inteligence v reálném čase mu-sejí techničtí manažeři své podnikové architektury pro správu informací vy-víjet tak, aby podporovaly pokročilé analýzy datových skladů, které mají ve-likost terabajtů či dokonce petabajtů (a s potenciálem rozšíření na exabajty a zettabajty).

„Lidé z IT vždy říkají, že chtějí najít způ-sob, jak se dostat blíže potřebám podniku – a big data nabízejí příležitost udělat přesně to,“ prohlašuje Williams.

Chytří IT lídři by neměli čekat, že se mozaika poskládá sama, a měli by začít připravovat sebe a své organizace na pro-sazení transformace, radí Mark Beyer ze společnosti Gartner.

Uvádíme pět hlavních akcí, které by měli techničtí manažeři nyní provést, aby vytvořili správné základy pro budoucí éru podnikových big dat.

1 Proveďte inventuru datTéměř každá organizace má přístup ke stabilnímu toku nestrukturovaných

dat – ať už pocházejí například ze sociál-ních sítí nebo ze senzorů sledujících vý-robní prostory.

Jen proto, že produkuje tento silný tok informací, však ještě neznamená, že je po-třeba ukládat a zkoumat každý bajt.

„S počáteční vlnou očekávání kolem big dat cítí lidé umělou potřebu pochopit všechna data pocházející z webových proto-kolů nebo senzorů,“ tvrdí Neil Raden, ana-lytik společnosti Constellation Research.

Část této touhy může mít počátek v enormní snaze dodavatelů i konzul-tantů, kteří dychtí po příležitosti nasadit

v podnicích platformy pro big data. „Exi-stuje určitý tlak od lidí, kteří tuto technologii komercionalizují,“ poznamenává Raden.

Inteligentní IT manažeři by měli místo toho vytvořit určitý filtr, který jim po-může zjistit, jaké údaje jsou a jaké nejsou pro organizaci důležité.

„Prvním dobrým krokem je udělat si po-drobný přehled, jaká data jsou vy tvářena interně, a určit i externí zdroje dat, pokud existují, aby se zaplnily mezery ve znalostech a získal se další pohled na firmu,“ prohla-šuje Raden.



Jakmile se rozběhne zjišťování rozsahu dat, IT oddělení by se mělo zaměřit na velmi dobře zaměřené projekty, které mo-hou být použity k prezentaci výsledků – na rozdíl od monstrózních projektů big dat.

„Nemusíte utratit několik milionů dolarů na zahájení projektu, abyste zjistili, zda se vůbec vyplatí,“ připomíná Raden.

2 Nechte převládnout podnikatelské potřebyMožná jste to už slyšeli dříve – při-

způsobení IT samotnému podnikání je pro tuto iniciativu rozhodující, stejně jako jsou big data potřebná pro rozsah a roz-manitost informací.

Řada prvních příležitostí pro big data se totiž objevila v oblastech mimo IT seg-ment – například oddělení marketingu se snažilo analyzovat komunikaci sociálních sítí, aby získalo lepší představu o požadav-cích zákazníků a nákupních trendech.

Zatímco specialisté v konkrétních obo-rech na podnikatelské straně mohou roze-znat příležitosti pro vydělávání peněz, je povinností oddělení IT postarat se o sdí-lení informací a koncepci sdružování dat, které jsou nedílnou součástí strategie pro big data.

„To není něco, co mohou udělat oddělení IT samostatně,“ upozorňuje Dave Patton, hlavní analytik pro správu informací ve společnosti PricewaterhouseCoopers.

„Pokud není iniciativa přizpůsobena pod-nikatelským cílům firmy, bude těžké dosáh-nout úspěchu.“

Na počátku iniciativy big dat ve společ-nosti Catalina Marketing sezval Williams dohromady firemní manažery a skupinu pro plánování a analýzy, aby společně vy-tvořili podnikatelský záměr.

Tento pohled identifikoval oblasti, kde by mohly nové poznatky přinést hodnotu – například při určování následných nákupů podle položek v nákupním košíku nebo pomocí analýz dalších nákupů na zá-kladě produktových nabídek.

Tým plánování a analýz použil čísla ke kvantifikaci, které výsledky by znamenaly některé kroky, pokud jde například o zvý-šení prodejů.

3 Znovu posuďte infrastrukturuBeyer z Gartneru i další experti jsou přesvědčeni, že ve většině společností

budou iniciativy spojené s big daty vyža-dovat zásadní změny v infrastruktuře ser-verů, úložišť a architektuře správy infor-mací. IT manažeři musejí být připraveni rozšířit své systémy, aby zvládli neustále rostoucí sklady strukturovaných a ne-strukturovaných dat.

To vyžaduje zjistit nejlepší přístup pro vytváření rozšiřitelných a škálovatelných systémů a vyvinout plán pro integraci

všech dílčích systémů, které budou do analýzy big dat zapojeny.

„V současné době má většina podniků různorodé oddělené systémy pro mzdy, pro správu zákazníků či pro marketing,“ tvrdí Anjul Bhambhri, viceprezident produktů big data společnosti IBM.

„CIO potřebují strategii pro integraci těchto separátních řešení a k vybudování ,systému systémů‘. Chcete přece klást otázky, na které budou odpovědi získány vyhodno-cením dat ze všech odpovídajících zdrojů.“

4 Naučte se tuto technologiiSvět big dat přichází s dlouhým se-znamem nových zkratek a technolo-

gií, se kterými se pravděpodobně ředitel IT dosud nikdy nesetkal.

Největší pozornost je věnována nástro-jům open source. Technologie jako Ha-doop, MapReduce či NoSQL získávají dobrou pověst díky jejich implementaci webovými giganty, jako jsou Google a Fa-cebook, kteří díky ní spravují své studnice informací.

Mnohé z těchto technologií jsou ale stále poměrně nezralé a vyžadují personál s velmi specifickými schopnostmi, přes-tože už nyní existují i v komerčně dostup-ných podobách.

Další technologie, které jsou důležité pro svět big dat, zahrnují analytiku v rám- ci databází, sloupcové databáze a appli-ance datových skladů. IT manažeři a je-jich týmy budou muset tyto nové nástroje pochopit, aby byli schopni přijímat správ- ná rozhodnutí.

5 Připravte personálVětšina podnikových IT oddělení výrazně postrádá talenty potřebné

k provádění kroků spojených s big daty – chybějí jim experti na Hadoop i takzvaní

datoví vědci. Analytické schopnosti jsou v tomto směru zřejmě nejdůležitější a je to oblast, kde má většina IT personálu největší mezery.

Společnost McKinsey očekává, že jen v samotných Spojených státech bude do roku 2018 potřeba dalších 140 ti-síc až 190 tisíc odborníků v oblasti sta-tistických metod a technologií pro ana-lýzu dat.

McKinsey navíc předpokládá buď v ob-lasti podnikání, nebo techniky potřebu dalších 1,5 milionu datově gramotných manažerů, kteří budou mít oficiální vý-cvik v prediktivní analýze a statistice.

U některých firem tedy bude persona-listika pravděpodobně jedním z nejproble-matičtějších aspektů iniciativ big dat. „Technologie big data rozhodně vyžaduje jiný způsob myšlení a dovedností v řadě oblastí,“ připomíná Rick Cowan, ředitel IT společ-nosti True Textiles.

„Jako u středně velké firmy bylo pro nás obtížné získat pracovníky a zajistit, aby udr-želi krok s neustále se měnícím prostředím,“ říká Cowan. Kvůli vyřešení svých potřeb začal s rekvalifikací programátorů a data-bázových analytiků, aby zvládli pokročilé analýzy.

Vedoucí IT oddělení se budou muset sami změnit, aby v novém světě vynikli. Zatímco nejlepší techničtí manažeři mi-nulosti byli částečně knihovníkem infor-mací a zčásti inženýrem infrastruktury, budoucí manažeři IT budou kombinací datového vědce a inženýra podnikových procesů, jak tvrdí Beyer z Gartneru.

„Ředitelé IT kdysi spravovali infrastruk-turu podle daných firemních pokynů, což je protiklad k těm současným, kteří jsou schopni identifikovat příležitosti a prosazo-vat inovativní využití informací. To je trans-formace, která musí nastat.“ ■


12 B I G DATA 2012

Open source a big dataNáklady, flexibilita a dostupnost kvalifikovaných pracovníků jsou hlavními důvody pro boom softwaru open source. Hadoop, R a NoSQL jsou nyní nosné sloupy mnoha velkých podniků v oblasti strategií big dat, ať už jde o správu nestrukturovaných dat nebo o složité statistické analýzy.

BRIAN BLOOM

Společnost SAP nedávno vydala nový produkt, BusinessObjects Predictive Analysis, software integrující algo-

ritmy z open source jazyka R, který je značně používán v akademické obci pro pokročilé statistické modelování.

Několik týdnů předtím společnost Te-radata oznámila, že její nové portfolio in-tegrovaných analýz by mělo zahr-novat funkcionalitu R a stejně tak připojení ke GeoServeru, což je geolokační open source plat-forma založená na jazyce Java.

Bezpočet dalších společností se snaží rychle začlenit podporu Hadoopu do svého portfolia.

Všeobecné přijetí a horečnatá inovaceJames Kobielus, dřívější analytik Forresteru Research a nyní ředi-tel programu pro produktový marketing řešení analýz big dat v IBM, tvrdí, že „open source pří-stupy mají potenciál nejrozšíře-nějšího přijetí a nejrychlejších inovací“.

Za prvé Kobielus vysvětluje, že stejně jako notoricky známé open source produkty – od Mo-zilly až po Android – získaly ši-roké přijetí v IT komunitě po překonání některých porodních bolestí, open source software pro ukládání dat a analýzy dat je už dosta-tečně vyzrálý a nehrozí riziko, které zde existovalo před rokem.

Za druhé Kobielus tvrdí, že platformy jako Hadoop, R či NoSQL mají oproti proprietárnímu softwaru výhodu, protože se dokázaly vyvinout rychleji. Jsou také mnoha různými stranami neustále rozví-jeny a zdokonalovány. Kobielus předpo-vídá, že ve světě big dat začne open source velmi brzy dominovat.

„Protože se v mnoha datových a analytic-kých prostředích zmenšuje rozšířenost soft-waru s uzavřeným kódem, budou mnozí za-vedení dodavatelé rozvíjet své obchodní mo-dely právě směrem k přístupům open source,“ říká Kobielus, A také prý rozjedou

profesionální služby a systémovou integ-raci, aby pomohli zákazníkům v jejich cestě směrem k open source a cloudově orientované analýze. Mnoho z nich se za-měří na Hadoop a jazyk R.

„Forrester například považuje Hadoop za jádro nové generace EDW (Enterprise Data-warehouse) v cloudu a jazyk R za klíčovou programovací základnu přicházející vlny in-

tegrovaných nástrojů pro vývoj ve sféře big dat. Očekávám také, že se různé open source NoSQL databáze a nástroje spojí do boha-tých alternativ k obsahu analytických na-bídek s proprietárním kódem,“ dodává Ko-bielus.

Model Red HatuRůzné podniky přistupují k integraci soft-waru open source různými způsoby. Ně-kteří, jako SAP, se rozhodli využívat svou vlastní interní odbornost pro vývoj pro-duktů s funkcionalitou Hadoop nebo R, zatímco jiní (například Teradata) delegují velkou část práce na firmy jako Revolu-tion Analytics, která je jakýmsi ekvivalen-tem „Red Hatu v oblasti big dat “.

Tato společnost nabízí komerční verzi jazyka R zaměřenou na podniky, stejně jako to Red Hat dělá s Linuxem.

„Je to relativně malá společnost stojící vedle gigantů big dat a specializující se na úpravy jazyka R pro různé obchodní pro-cesy,“ vysvětluje David Smith, viceprezi-dent pro marketing a komunitu v Revolu-tion Analytics. „Zabýváme se zejména po-užitím pro opravdu velké objemy dat.“

„Použití open source řešení ve svých vlast-ních produktech je způsob, jak se mohou firmy na trhu odlišit,“ říká Smith. „Znamená to, že neděláte totéž co vaše konkurence.“

Smith uvádí, že pro organizace, které používají pokrokový vědecký přístup k analýzám big dat, jsou technologie open source přirozenou volbou.

„Tyto společnosti mívají alespoň částečné znalosti z oblasti datové vědy, průzkumu a zvláštností dat a skutečně tíhnou k open source technologiím, protože jsou díky nim

flexibilní a poskytují možnosti různých způ-sobů pojetí práce s daty a zkoumání různých věcí, které s informacemi mohou dělat.“

Scott Gna u, pr ezi-dent společnosti Tera-data Labs, která spolu-pracuje s firmou Revo-lution Analytics, je pře-svědčen, že velké podniky budou mít nej-větší prospěch z ko-merčních balíčků tech-nologií open source, které jim pomohou udržet koncentraci na svou vlastní podnikatel-skou činnost.

„Je potřebné vytvořit velkou hodnotu přijetím některých novějších tech-nologií, které jsou vyví-jeny v prostředí Hadoop a MapReduce, a nasazo-

vat je jako software podnikové třídy, kde existuje spolehlivá správa verzí, škálovatel-nost a dostupná podpora,“ vysvětluje Gnau.

„Výsledek musí být spolehlivý a ve formě balíčků, aby mohlo docházet k jednodu-chému nasazení, protože hlavní proud po-tenciálních uživatelů nemá zájem suplovat práci vývojových firem.“

Will Davis, manažer produktového marketingu v EMC Greenplum, s tímto tvrzením souhlasí. Větší společnosti po-třebují stabilnější a spolehlivou podobu open source platforem pro big data – ať už si zajistí tuto dokonalost samy, nebo to pro ně udělá někdo jiný.

„Mnoho tradičních zákazníků EMC – vel-kých společností ze seznamu Fortune 500 –



skutečně potřebuje při nasazení této techno-logie využít její připravenost pro velké pod-niky, aby splňovala přísné smlouvy SLA a byla vždy k dispozici,“ popisuje Davis.

Někteří raní osvojitelé open source technologií měli či získali vlastní znalosti, takže si mohli tyto systémy nasadit svépo-mocí, ale „druhá vlna“ firem si přeje rych-lou implementaci bez nutnosti mít vlastní talentovaný personál.

Angažujte datové vědceV oblasti big dat je v současné době opravdu velká sháňka po talentovaných odbornících. Společnosti si uvědomují, že při provozu open source platforem budou v nejlepší pozici, aby přitáhly vyškolené pracovníky. Otevřené technologie, ze-jména jazyk R, jsou široce využívány v akademické sféře.

Tito datoví vědci navíc s platformami open source lépe pracují. Například Im-ran Ahmad je badatelem, který vyvinul svůj vlastní algoritmus grid computingu – jde o konkurenci technologie Hadoop s názvem Bileg a je založen na open source sadě nástrojů Globus Toolkit (GT4).

Tento člověk, který je dnes preziden-tem firmy Cloudanum, která vyvíjí tech-nologie analýzy dat pro cloudová pro-středí, prohlašuje, že zásadní výhodou platforem open source je, že lidé jako on mohou vidět i jejich matematický základ.

„Pokud je to open source, můžete se v tom vrtat a uvidíte, proč dostáváte tyto výsledky a proč jsou optimální,“ uvádí Ahmad.

„Proprietární software pro analýzy dat bude fungovat po většinu času docela dobře. Když však nastane neobvyklý scénář, nemu-sejí být vaše výsledky důvěryhodné. Mohou být na hony vzdáleny tomu, co hledáte,“ pro-hlašuje Ahmad. „A to je děsivá situace.“

Není divu, že nejchytřejší hlavy se zna-lostmi statistického modelování jsou také vysoce žádané, zejména proto, že je nabí-rají organizace v odvětvích, jako jsou fi-nanční instituce.

„Najali spoustu lidí ze školy do odděle- ní datové vědy, oddělení výzkumu a vývoje a do oddělení modelování,“ uvádí Smith, „a zjistili, že všichni z nich byli vyškoleni v oblasti jazyka R a ne třeba pro platformu SAS.“

„Poskytujeme konzultační služby Green-plumu,“ říká Davis, „což je náš tým datové vědy tvořený personálem s doktorátem. Tito lidé mají znalosti z různých oborů a úrovní a spolupracují se zákazníky, aby jim umož-nili správně využívat vlastní data.“

Jason Kuo, marketingový manažer sku-piny ve společnosti SAP, potvrzuje, že firmy požadující provádění složitých úloh, jako je prediktivní analýza, loví své pra-covní síly na univerzitách.

Uvádí, že jejich nový produkt, který obsa huje uživatelsky přívětivé rozhraní, usnadní datovým vědcům přechod do kor-porátního světa.

„Tito lidé přinášejí své znalosti jazyka R a další zkušenosti a ptají se na nástroje pro tento jazyk,“ vysvětluje. „Je zajímavé, že v akademickém prostředí, ať už je to z jaké-hokoli důvodu – rozpočet nebo znalost –, budou mnohem pravděpodobněji pracovat s jazykem R bez grafického uživatelského rozhraní. A nyní vkročí do firemního světa, kde jsou vyšší nároky, časový rámec projektů je kratší, dochází ke sledování návratnosti investic atd.“

Firmy jim mohou říci: Co potřebujete, abyste byli úspěšnější? Jak můžeme zvýšit vaši produktivitu? A mají pro tyto statis-tické specialisty rozpočet, se kterým se oni nikdy v minulosti nesetkali.

Pokud je nemůžete porazit…Paul Kent je viceprezidentem rozvoje analytické platformy společnosti SAS Institute. Tato firma leží na opačné straně oblasti big dat a vyvíjí proprietární algoritmy pro analýzu dat, které jsou alterna tivami k těm, jež se používají v open source jazycích, jako je třeba zmíněný R.

Kent uvádí, že SAS do určité míry po-važuje open source komunitu za svého soupeře, se kterým musí udržet krok. V open source prostředích mohou být vyvi nuty nové techniky velmi rychle, za-tímco jeho firma může potřebovat více času na jejich studium, než k nim pak může vytvořit odpovídající funkci v ko-merčním produktu.

„Trvá nám trochu déle, než zareagujeme na takovou techniku a než otestujeme všechny způsoby a obměny, jakými může být použita. Máme trochu pomalejší reakci.“

Uvádí však, že má SAS výhodu velké technické podpory segmentu a odborné znalosti, které umožňují zajistit použitel-nost některých technik pro různé organi-zace, ať už jde o maloobchodní podniky, banky nebo zdravotnická zařízení.

„Síla SAS spočívá v použití matematiky pro jednotlivé oblasti,“ prohlašuje Kent.

SAS však zároveň drží krok s trendy a rozhodl se dát svým zákazníkům stejné možnosti jako open source. Kent prohla-šuje, že SAS „postavil most k jazyku R“ stejně jako k platformě Hadoop.

Když přichází open source komunita s dobrým nápadem, Kent tvrdí, že tomu SAS věnuje dostatečnou pozornost.

„Z dlouhodobé perspektivy je užitečnější vystavět most nebo rozhraní k takové myš-lence, než se pokoušet předstírat, že vlastně neexistuje.“ ■

Redakce časopisu Computerworld vyhlašuje 3. kolo soutěže

IT produkt 2012Cílem je vyzdvihnout produkty s takovými vlastnostmi, které přinášejí významné pozitivní odlišení od konkurenčních produktů stejné kategorie. Může přitom jít o celkově inovativní pojetí produktu, pozoruhodné funkční zdokonalení,

výrazně zjednodušené ovládání nebo třeba o výjimečně příznivou cenu.

Podrobná pravidla soutěže i další doplňující informace naleznete na adrese

cw.cz/it-produktUzávěrka 3. kola přihlášek je 14. 9. 2012.

O možnosti přihlásit produkty uvedené na trh po tomto datu se prosím informujte na [email protected]

Inzerce


14 B I G DATA 2012

Hadoop: Velká příležitost pro korporátní dataJedním z nesprávně chápaných aspektů big dat je, jak lze vy-užívat existující databáze s enginy pro ukládání dat, které jsou ve své podstatě nerelační. Co je nutné udělat při přenášení dat ze systému správy relační databáze (RDBMS) do distribuovaných řešení? A jak nejlépe využit big data ve firmě?

BRIAN PROFFITT

Zřejmě nejpopulárnějším příkladem systému správy nerelační databáze (NDBMS, Non -Relational Database

Management System) je Hadoop, distri-buovaný datový framework, který se uka-zuje jako hlavní tvář pro big data a tzv. NoSQL databáze.

Ale i tyto definice zakrývají skutečnou povahu Hadoopu a způsobu fungování. Co tedy Hadoop skutečně je a jak mohou firmy a IT personál začít s jeho využívá-ním? Pro jaké organizace je Hadoop vhodný a kde můžete najít zdroje pro jeho implementaci?

Co Hadoop neníExistují dva aspekty, které je nutné v sou-vislosti s řešením Hadoop vyjasnit hned na začátku: Není to určitě systém, který by byl exkluzivně svázán s technologií big data, a není to ani nástroj NoSQL.

I když je pravda, že Hadoop patří k ne-relační třídě systémů správy dat, nebrání

to jeho využití pro jazyk SQL. Není to ani NoSQL. Je to jen způsob, jak popsat data-báze, kde SQL není nutně jediným systé-mem kladení dotazů, který lze užít. Ve skutečnosti lze dotazy jako SQL po užívat se systémem Hadoop poměrně snadno.

Mnoho lidí spojuje Hadoop se správou skutečně obrovského množství dat. A to z dobrého důvodu: Úložiště Hadoopu je využíváno společnostmi Facebook či Yahoo, které si mnoho lidí správně spojuje s obrovskými objemy dat.

Použití Hadoopu však sahá daleko za hranice big dat. Jednou z nejsilnějších schopností Hadoopu je škálování, které dovoluje její nasazení v nejvyšší kategorii firem jako zmíněný Facebook, ale také umožňuje škálování směrem dolů pro li-bovolně velkou společnost, která potře-buje levné úložiště a správu dat.

Pro pochopení těchto širokých mož-ností škálování a souvisejících důsledků je důležité porozumět, jak Hadoop pracuje.

Co tedy Hadoop jeArun Murthy je muž, který Hadoop zná opravdu podrobně. Jako viceprezident je současným lídrem projektu Hadoop v or-ganizaci Apache Software Foundation. A nejen to – Murthy se zabýval technolo-gií Hadoop od jejích počátků, kdy Yahoo pro své potřeby adaptovala datový open source framework společnosti Google poté, co byl Hadoop definován Dougem Cuttingem kvůli získání výhod z datového programovacího frameworku Map Reduce.

Cutting je nyní zaměstnán ve společ-nosti Cloudera, která je komerčním doda-vatelem řešení Hadoop, Murthy se stal v červnu 2011 spoluzakladatelem firmy Hortonworks s několika dalšími z týmu Hadoop společnosti Yahoo, a to včetně Erica Baldeschwielera, který je nyní vý-konným ředitelem společnosti Horton-works.

„Hadoop lze složit z několika součástí, ale největší dvě jsou framework MapReduce pro zpracování dat a distribuovaný souborový sy-stém pro ukládání dat – Hadoop Distributed Filesystem (HDFS),“ vysvětluje Murthy.

HDFS je v mnoha směrech nejjedno-dušší součástí Hadoopu, co se týče samot-ného pochopení (i když ne vždy nejjedno-dušší pro správu). Přesně podle názvu „distribuovaný souborový systém“ uloží data na jakékoli zařízení připojené k síti Hadoop. Samozřejmě že je v tom systém a není to jen nahodilé, ale ve srovnání s přísně řízenou infrastrukturou úložiště databází typu RDBMS se tomu dá říkat doslova chlívek.

Ve skutečnosti je to právě ona flexibi-lita, která přináší Hadoopu vysokou hod-notu. Zatímco RDBMS často potřebuje skvěle vyladěné a zpravidla vyhrazené stroje, systém Hadoop může využívat vý-hody běžně prodávaných klasických ser-verů s několika dobrými pevnými disky.

Namísto potýkání se s velkou režií správy související s ukládáním dat do tabulek relačních databází využívá Ha-doop k ukládání dat více strojů a disků HDFS a automaticky vytváří redundanci dat ve víceuzlových systémech. Pokud je-den uzel selže nebo zpomalí, jsou data jinde stále dostupná.

Tento přístup přináší významné úspory nákladů na úrovni hardwaru a správy. Je ale třeba poznamenat, že i když je HDFS obvyklým souborovým systémem používa-ným s technologií Hadoop, není v žádném případě jediným.

Například Amazon pro svá řešení EC2 (Elastic Compute Cloud) adap toval svůj vlastní file systém S3 pro Hadoop. Data-Stax Brisk je zase distribuce Hadoopu, ve které je HDFS nahrazen souborovým sy-stémem Apache CassandraFS. Pro oblast datových dotazů a analýz navíc využívá


datový sklad Hive – tak dokáže zajistit sjednocení funkcí ukládání a analýz dat v reálném čase.

Takové úpravy a přizpůsobení jsou díky open source podstatě technologie Hadoop značně zjednodušeny.

Pochopení frameworku MapReduce je poněkud obtížnější. Murthy ho popisuje jako programovací model pro zpracování dat. Co to ale přesně znamená?

Pro ilustraci – na MapReduce je dobré pohlížet analogicky jako na databázový stroj, podobně jako je Jet strojem pro Microsoft Access (mnoho lidí si na to už ani nevzpomene).

Když přijde žádost o informace, pou-žije MapReduce dvě součásti: JobTracker, který je umístěn v takzvaném master uzlu Hadoopu, a komponenty TaskTracker, kte- ré jsou dostupné v každém uzlu Hadoopu.

MapReduce rozdělí datové požadavky na oddělené sady úloh a poté použije Job-Tracker k zaslání úloh MapReduce jednot-livým Task Trackerům.

Kvůli eliminaci síťové latence jsou úlohy přiřazeny tomu uzlu, kde jsou data, nebo alespoň k uzlu ve stejném racku.

Na obrázku můžete vidět, že Hadoop není jen distribuovaný souborový systém doplněný o MapReduce. Schéma repre-zentuje framework Hadoop od Horton-works a ukazuje další komponenty, které lze pro Hadoop využívat:

HCatalog – služba správy úložiště a ta-bulky pro data Hadoopu.

Pig – programové rozhraní a rozhraní datových toků pro MapReduce.

Hive – řešení datového skladu, které umožňuje použití jazyka podobného SQL (HiveQL) k vytváření dotazů vůči datům Ha doopu.Murthy uvádí, že právě Hive usnadňuje

použití řešení Hadoop více, než by se dalo čekat od tzv. databáze NoSQL. Pomocí HiveQL mohou datoví analytici získávat z databáze Hadoop informace stejným způsobem, jako to jsou zvyklí dělat při používání RDBMS.

Přechod na Hadoop ale samozřejmě bude předpokládat přivyknutí určitým změnám, protože mezi SQL a HiveQL určité rozdíly existují, ale nejsou až tak moc velké.

Všem datům stejná hodnotaÚložiště dat bývala drahá, vysvětluje Mur-thy. Přibližně před pěti lety se velké pod-niky i malé a střední firmy ocitly v situaci, kdy sledovaly rostoucí řadu zdrojů dat: e -maily, výsledky vyhledávání, údaje o prodejích, skladové informace, data o zákaznících, o klikání na webu atd…

A to všechno se pokoušely zvládnout pomocí relační databáze, což ale bylo finančně velmi nákladné.

Všechny tyto události a související okolnosti vedly organizace ke snaze sni-žovat náklady. Rozumná správa dat z to-hoto pohledu obvykle zahrnovala snižo-vání jejich objemu pomocí zmenšování vzorků.

Tyto údaje vzniklé omezením vzorku, které Murthy nazývá jako „his torické“, by měly být automaticky klasifikovány podle určitých předpokladů – prvním z nich je,

• Integrace dat• Přesuny dat

• Správa aplikačních úloh• Správa systému

Hive(SQL)

Pig(Datové toky)

HCatalog(Správa schématu a tabulek)

MapReduce(Distribuovaný programovací framework)

HDFS(Distribuovaný souborový systém Hadoop)

Am

bari

(Spr

áva)

Zook

eepe

r(K

oord

inac

e)

HB

ase

(Slo

upco

vé ú

loži

ště

NoS

QL)

Základní Apache Hadoop Nezbytné projekty Hadoop Otevřená API pro:

Podoba frameworku Hadoop od Hortonworks

Inzerce


16 B I G DATA 2012

že některé údaje budou vždy důležitější než ostatní.

Například priority u elektronického ob-chodování by byly založeny na předpokla- du, že data o kreditních kartách jsou vždy důležitější než ta o produktech – a ta zase důležitější než údaje o kliknutích na webu.

Pokud jste se snažili provozovat ob-chodní model na nějaké dané množině předpokladů, nemělo by být těžké takové informace extrahovat a používat je pro ob-chodní rozhodování.

Tyto informace by však vždy vycházely z těchto předpokladů – co by se ale stalo, pokud by se změnily? Protože došlo k ome-zení vzorku dat, využíval by každý nový obchodní scénář převzorkovaná data, jež by na úložišti zbyla. Všechna původní su-rová data přitom již byla dříve ztracena.

Z důvodu nákladů na úložiště založená na technologii RDBMS by tyto údaje byly často v rámci organizace silážovány. Svá specifická data by mělo obchodní oddě-lení, marketing, účetní oddělení atd. Roz-hodování podle obchodního modelu by bylo omezeno na jednotlivé zkoumané části organizace – nešlo by tedy o celek.

„Díky řešení Hadoop nejsou žádné před-poklady potřebné, protože uchováváte všechna data,“ prohlašuje Murthy. A to je možná největší přínos technologie Ha-doop, přestože je často ukryt v pozadí za představou snížení finančních nákladů, které Hadoop umožní.

„Omezení vzorku je založeno na předpo-kladu, že některá data budou rozsáhlejší a důležitější než ostatní,“ vysvětluje Murthy a dodává: „V rámci ekosystému Hadoop je všem datům přisuzována stejná hodnota.“

Protože ale v Hadoopu mají všechny údaje stejnou hodnotu a jsou stejně do-stupné, mohou být obchodní modely kdy-koli zkoumány pomocí surových dat, a to bez omezení. Navíc je možné stejně při-stupovat k již dříve silážovaným datům a lze je shodně sdílet kvůli získání ucele-nější analýzy podnikání organizace.

Tento posun ve způsobu vnímání infor-mací je obrovský, protože nyní ztrácí smysl původní pojem „historická data“. Protože mohou být údaje ukládány ve své surové podobě, bude docházet ke snížení velké části režie na správu, která je spo-jena s extrahováním, transformacemi a operacemi načítání (ETL, Extract, Transform and Load).

Kolik zaplatíte?Není asi třeba příliš diskutovat, že nejvíce propagovaným přínosem Hadoop je jeho příznivá cena. Protože je celý framework tvořený open source softwarem pod li-cencí Apache Software, neexistují zde žádné licenční poplatky za základní software.

Společnost Cloudera, která dodává ko-merční platformu Hadoop, využívá tzv. model open core – základní software Ha-doop je zdarma, ale za rozšíření od firmy Cloudera se platí licenční poplatky.

Hortonworks, kterou Murthy spoluza-kládal s několika členy týmu Hadoop z firmy Yahoo v první polovině roku 2011, udržuje všechen software bezplatný jako open source a generuje svůj obrat pro-střednictvím školení a programů podpory.

Zdroje dalších úspor: Na rozdíl od RDBMS nevyžaduje Hadoop drahý hard-ware ani špičkové procesory. Stačí jaký-koli běžně prodávaný server. To znamená, že příslušný uzel Hadoop potřebuje jen procesor, síťovou kartu a několik pevných disků, takže bude stát kolem čtyř tisíc do-larů, zatímco specifický systém pro pro-vozování RDBMS by mohl stát asi deset až 14 tisíc dolarů za každý terabajt.

Tak velký rozdíl jasně vysvětluje, proč Hadoop získává velkou pozornost.

Je však třeba opatrnosti. Všechny tyto úspory nejsou alarmem, který by firmy nutil hromadně a okamžitě vytvářet mig-rační plány na Hadoop.

Jak již bylo zmíněno na začátku, je po-třeba mít techniky a administrátory, kteří mají specifický druh zkušeností, takže orga nizace mající zájem o nasazení Ha-doo pu pravděpodobně budou muset na za-čátku investovat hodně peněz do zaměst-nanců bez ohledu na to, zda nasadí ko-merční nebo bezplatnou verzi Hadoopu.

Ve skutečnosti se stali kvalifikovaní in-ženýři zvládající Hadoop na trhu tak žá-daní, že se dva největší aktéři ekosystému Hadoop – Google a Facebook – dostali do války nabídek ve výši několika milionů dolarů za odpovídající kvalifikované inženýry.

Nezávisle na druhu vámi nasazeného softwaru tak můžete očekávat v tomto směru velké výdaje za kvalifikovaný per-sonál. V závislosti na potřebách a lokalitě to mohou být ročně i miliony korun (ne-počítaje v to další benefity pro zvýšení atraktivity nabídky). Neznehodnotí to úspory vzniklé v oblasti levnějšího hard-waru a softwaru?

Pokud se pokusíme zanalyzovat nasa-zení systému Hadoop s využitím zcela bezplatného softwaru a budeme předpo-kládat 100 uzlů za čtyři tisíce dolarů amortizovaných za tři roky a inženýra pla-ceného ročně částkou 150 tisíc dolarů, do-stáváme toto:

Hodinové náklady na hardware (za tři roky): 15,21 dolaru.

Hodinové náklady na údržbu: 17,11 do-laru.To vytváří provozní náklady asi 32 dolarů za hodinu pro celý systém, což je přibliž- ně 283 320 dolarů celkem ročně (nepočí-taje v to elektrickou energii).

Nyní se podívejme na podobně velký systém RDBMS – v roce 2008 počítala společnost Oracle za databázový stroj se 168 TB úložného prostoru 650 tisíc do-larů za hardware a 1,68 milionu dolarů za software, což je cena systému na horní hranici (14 tisíc dolarů za terabajt). Při předpokladu ročního platu správce data-báze Oracle asi 95 tisíc dolarů vycházejí provozní náklady takto:

Hodinové náklady na hardware (za tři roky): 88,60 dolaru.

Hodinové náklady na údržbu: 10,27 do-laru.

I při nižším platu administrátora Orac- lu vůči luxusní výplatě inženýra pro Ha-doop tedy dostáváme provozní náklady za systém Oraclu 98,87 dolaru za hodinu, což je přibližně 866 694 dolarů ročně. To je ale ve srovnání s podobně velkým nasa-zením Hadoopu opravdu velký rozdíl – více než trojnásobné roční výdaje.

Ani předpoklad nejnižší hranice ná-kladů za RDBMS (tj. 10 tisíc dolarů za terabajt) tuto situaci o moc nezlepší. Při použití takového čísla jsou roční náklady 644 827 dolarů, což je stále 1,8× více než náklady na distribuovaný systém Hadoop.

Jde samozřejmě o provozní náklady a nejsou v nich zohledněny výdaje na mig-raci ani žádné náklady na průběžnou pod-poru Hadoopu, kterou byste mohli využí-vat od externího dodavatele.

Dramatický rozdíl ve výdajích však zna-mená, že i při placení vysoce nadprůměr-ného platu správci systému Hadoop firmy stále ušetří z dlouhodobého hlediska ob-rovské množství financí.

Pokud se pro vaši organizaci zdá být Hadoop dobrou volbou, můžete si stáh-nout open source software, který zahrnuje datový framework, a relativně snadno jej vyzkoušejte.

Implementace HadoopuStejně jako mnoho dalších nadějných technologií, zejména ze světa open source, i platforma Hadoop těží z výhod „ku-tilského přístupu“ IT oddělení, které ji chtějí vyzkoušet.

Kdy byste Hadoop neměli použít?Existují určitá omezení, která byste měli mít na paměti, pokud vaše firma o přecho du na Hadoop uvažuje.

Pokud potřebujete interaktivní reporty s dobou odezvy menší než jedna sekunda nebo pokud využíváte data ve vícekrokových složitých transakcích, může být řešení RDBMS stále nejlepší volbou, protože Ha-doop není v těchto oblastech příliš silný.

Pokud jsou vaše údaje aktualizovány a měněny pomocí vkládání a mazání, je to další důvod, proč se řešení Hadoop vyhnout.



V současnosti Hadoop získává mnoho pozornosti v technologických médiích i na konferencích, takže se o tuto techno-logii začínají zajímat i vrcholoví firemní manažeři a chtějí vědět, kolik by Hadoop mohl jejich společnostem ušetřit.

Existují dva samostatné vektory při-jetí – zdola nahoru a od exekutivy.

Zdola nahoru: Plíživé experimen-tální nasazeníTakzvaná stínová IT mohou být pro firmu požehnáním, anebo prokletím. Častokrát se stalo, že experimentální či testovací konfigurace se nakonec firmě neuvěřitel-ným způsobem vyplatila a přinesla jí cel-kově velký užitek. Například Linux byl jednou z takových přínosných stínových IT technologií na přelomu století.

„Nyní takovým řešením může být Ha-doop,“ tvrdí Arun Murthy. „Při plíživé me-todě nasazení se obvykle objeví pár techniků, kteří stáhnou a nasadí Hadoop na jeden uzel nebo možná na malý cluster se čtyřmi či pěti uzly.“

Potom se obvykle stává to, co Murthy viděl ve své praxi již mnohokrát – IT per-sonál využívající cluster Hadoop si začne uvědomovat hodnotu této sady nástrojů. Často si i ostatní divize ve společnosti vy-tvoří vlastní clustery Hadoop.

Nakonec se hodnota Hadoopu význam- ně zvýší (díky škálovatelnosti nosného distribuovaného souborového systému) a oddělené clustery Hadoop jsou propo-jeny do jednoho velkého clusteru třeba s asi 50 uzly.

Murthy tvrdí, že přesně toto se stalo, když společnosti Yahoo a Facebook po-prvé zaváděly Hadoop. Jakmile se hodnota Hadoopu stala pro všechny oddělené týmy a aplikace zřejmou, bylo zjevné, že ideální by bylo vše zkombinovat do jedné velké sítě s Hadoopem.

Samozřejmě že ne všechny společnosti potřebují škálování systému až tisíců uzlů, jako to udělaly Facebook a Yahoo, ale obecný princip je stále stejný.

Shora dolů: Podle příkazu šéfůDalší běžný způsob nasazení Hadoopu je na základě pokynu vrcholového vedení. Firemní manažeři sledující trendy si všimnou informací o velmi nízkých nákla-dech na ukládání dat v systému Hadoop a začnou formálně zkoumat, zda je toto řešení vhodné i pro jejich společnost.

To je prostor pro dodavatele, jako je Hortonworks. Tato firma obvykle spolu-pracuje s potenciálním novým klientem a vytvoří pro něho malou sadu doporučení založenou na jeho potřebách.

Také nasadí malý cluster pro lokální ověření konceptu Hadoop, který má mezi 20 až 100 uzly, a nechá zákazníka, aby sám

posoudil hodnotu navrženého projek tu. Tento formální proces je podobný tomu, co nabízejí další dodavatelé ekosystému Hadoop, jako jsou Cloudera či MapR.

Tak má zákazník ohledně konzultací a podpory pro Hadoop velké možnosti výběru.

Použijte SqoopAť už si to budete zajišťovat svépomocí nebo si na to někoho najmete, v určitý moment budete potřebovat provést mig-raci svých dat z existujícího úložiště do sy-stému Hadoop.

Pravděpodobně nejlepším nástrojem pro tento úkon, zejména pro migraci z RDBMS, je produkt Sqoop („SQL -to -Ha -doop“) společnosti Cloudera. Sqoop je aplikace, jež využívá příkazovou řádku a dokáže importovat jednotlivé tabulky nebo celé databáze do distribuovaného souborového systému Hadoop (HDFS).

Sqoop využívá Java konektor DBInput-Format, který umožňuje MapReduce zís-kat data z relační databáze přes rozhraní JDBC, které se nachází v databázích MySQL, Postgresql, Oracle a většině dal-ších populárních klasických databází.

Sqoop také vygeneruje třídy Java po-třebné pro MapReduce ke komunikaci s daty a takzvaně deserializuje řádky zá-znamů do oddělených polí informací. Sqoop můžete použít rovněž pro importo-vání dat RDBMS přímo do datového skladu Hive.

Díky této funkci nemusíte pro přípravu svých dat na migraci do systému Hadoop udělat o moc více než jen rozumné úkony, jako je vedle klasické údržby RDBMS třeba deduplikace dat.

Prozkoumejte HiveJak bylo již popsáno na začátku – Hive je součást frameworku Hadoop, která analy-tikům umožňuje vytvářet strukturu dat a dotazy v HDFS.

Data lze sumarizovat, vytvářet dotazy a analyzovat pomocí jazyka HiveQL (Hive Query Language), který je velmi

podobný SQL, takže pro analytiky není obtížné tento jazyk pro takové operace používat.

Hive také umožňuje programátorům MapReduce přímo připojit své vlastní da-tové funkce Map a Reduce pro případ, že by jazyk HiveQL nebyl schopen poskyt-nout potřebné informace.

Při posuzování vhodnosti Hive je nutná opatrnost, protože Hadoop je systémem dávkového zpracování a jeho úlohy mají vysokou latenci, která se nakonec proje-vuje u dotazů Hive (v minutách, nikoli sekundách).

Hive proto není dobrým systémem pro zpracování dat v reálném čase. Pokud po-třebujete tento typ úlohy, zvažte použití řešení Apache Cassandra, které je open source DDMS (distributed database ma-nagement sy stem) a je pro splnění potřeb v reálném čase mnohem lepší. ■


18 B I G DATA 2012

Otevřené úložné systémy se ZFS od AbacusuUnified Nexenta Storage (UNS) společnosti Abacus představuje otevřené řešení, které kombinuje standardizovaný hardware Supermicro s operačním systémem NexentaStor a je využitelný nejen pro big data.

Hlavní výhody Unified Nexenta Storage

Otevřenost Systém je založený na open source produktu NexentaCore.

Data uložená na discích nejsou „uzamčena“ pod proprietárním operačním systémem. Jakýkoli server či PC s podporou ZFS data zpřístupní.

Upgrade hardware není vázaný na jednoho dodavatele – šasi je vybaveno hotswap rámečky ve všech diskových pozicích. Uži-vatele tedy nečeká žádné nepříjemné překvapení v podobě pře-dražených disků ve „značkových“ hotswap rámečcích.

Stejně tak jsou používány běžné paměti a procesory. Díky po-užití standardizovaných serverových komponent je nízká nejen pořizovací cena, ale i pozdější upgrade.

Škálovatelnost a robustnost: 128bitová architektura umožňuje takřka neomezenou škálo-

vatelnost. Velikost jednoho souboru, počet a hloubka adresářů i celková kapacita jsou prakticky bez omezení.

Pokud budete dělat každou vteřinu milion snapshotů(!), je-dinečná 128bitová architektura vám je umožní generovat tímto šíleným tempem po dobu 600 tisíc let!

Řada konkurenčních řešení pro ukládání dat je rozšiřitelná pouze pomocí proprietární diskových polic. Výjimečnou vlastností Unified Nexenta Storage je možnost zvýšit kapacitu připojením SAS2 JBOD police. Stejně jednoduše lze zvýšit šířku pásma a/nebo IOPS výkon prostým doplněním běžných Ethernet nebo FC portů.

Díky originální, vícevrstvé architektuře čtecí (ARC, L2ARC) a zápisové (ZIL) cache lze využít libovolnou kapacitu RAM a SSD pro zvýšení výkonu. RAM a MLC SSD je vhodné využít

pro čtecí cache. Spolehlivější SLC SSD pak pro vyrovnávací pa-měť pro zápis.

Univerzálnost Jeden unifikovaný systém pro všechny požadavky – UNS fun-

guje souběžně jako: SAN úložiště s protokoly iSCSI a FC, NAS úložiště s podporou CIFS, NFSv3, NFSv4, HTTP a FTP server.

Nejenže maximální kapacita není omezena, ale máte k dispo-zici vlastnosti, za které se u tradičních storage řešení hodně při-plácí – prohledávatelné snapshoty, HA (aktiv -aktiv) clustering, NFS single name space, deduplikace, několik úrovní synchronní a asynchronní replikace, SSD cache.

UNS je plně připraveno pro cloud a virtualizaci – Unified Nexenta Storage si rozumí s VMware, MS Hyper -V i Xenem.

Bezpečí pro uložená data Díky Copy -On -Write (COW) transakčnímu způsobu práce

jsou data na UNS vždy bezpečně uložena. Výjimečný 128bitový souborový systém ZFS automaticky do-

hledává a opravuje chyby na „spících“ datech.

Jednoduchá správa a údržba, dosažitelná odkudkoli UNS je vybaveno komfortním webovým rozhraním i příkazo-

vou řádkou. Samozřejmostí je podpora SNMP protokolu. K dispozici je také plnohodnotný IPMI modul včetně KVM-

-over -Ethernet a Virtual Media over LAN, které vám zaručí pl-nou kontrolu nad systémem od okamžiku zapnutí.

Co je SAS2 JBOD?V případě, že potřebujete vytvořit úložiště s kapacitou větší, než kolik vám umožní šasi serveru, nebo potřebujete zvětšit diskovou kapacitu serveru, jehož všechny hotswapy jsou plné, představuje pro vás SAS2 technologie ideální levné a výkonné řešení. Výhodami SAS2 JBOD boxů jsou jejich nízká cena a snadná škálovatelnost kapacity.

Celé SAS2 úložiště funguje tak, že na začátku je jeden výkonný SAS2 RAID nebo HBA řadič (v serveru či SAN poli) a za něj se postupně připojují jednotlivé SAS2 JBOD. SAS2 JBOD je prakticky šasi pro mnoho disků s tzv. SAS2 expandérem, který zajišťuje distribuci dat, která do JBOD přišla jedním SAS2 kabelem mezi jednotlivé SAS/SATA disky. Pro SAS2 JBOD se po-užívá také někdy označení disková police.

Pro zajištění vysoké dostupnosti je nutné umožnit přístup k jednomu disku ze dvou řa-dičů či řídicích serverů souběžně (active--active) – SAS2 JBOD tedy musí být dvoucestný stejně jako SAS disky, které jsou vybaveny dvěma IO porty.

V nabídce výrobce Su-permicro je řada SAS2 JBOD boxů pro 3,5" i 2,5" disky. Použití oboustranných JBOD šasi Supermicro umož-ňuje osadit do jednoho 45U racku téměř 1 PB kapacity ve 2 TB discích.



Unified Nexenta Storage společnosti Abacus je dostupný v ně-kolika variantách, které se liší maximální kapacitou, rozšiřitel-ností a využitím prvků vysoké dostupnosti.

UNS1 – základní storage box v několika rackmount provedeních od 2U pro 12 hotswap disků 3,5" po 4U pro 36 hotswap disků 3,5". Všechny varianty jsou vybaveny redundantními zdroji s vysokou účinností a dostatkem rozšiřujících pozic pro I/O porty. UNS1 je ideální pro zálohování.

UNS HA box – unikátní HA storage box obsahující dvojici HA aktiv-aktiv uzlů v kompaktním 3U šasi pro 16 hotswap disků 3,5". Vhodné pro instalace do kapacity 32 TB s požadavkem na vyso-kou dostupnost.

UNS HA Head – výkonný řídicí box určený pro nasazení ve dvo-jici v rámci HA Nexenta Clusteru se sdílenými SAS2 JBOD boxy. Výhodou je rozšiřitelnost paměti RAM, kterou lze využít jako čtecí cache až do kapacity 768 MB, a šest volných slotů PCI Ex-press třetí generace, každý s prostupností 16 GB/s. Samozřej-mostí jsou redundantní zdroje s vysokou účinností. Vhodným doplňkem rozsáhlejších instalací s více SAS2 JBOD boxy je 16portový SAS2 switch.

Jak funguje ZFS a Copy -on -Write?Data v ZFS jsou organizována ve stro-mové struktuře. Kořen stromu se nazývá Uberblock a z něho vede odkaz na první dvojici podřízených ukazatelů. Každý ukazatel ve stromu obsahuje kontrolní součet dvou podřízených bloků. Tento kontrolní součet je opakovaně verifiko-ván při každém čtení některého z podří-zených bloků.

Blok obsahující data není nikdy pře-psán, namísto toho je vytvořen nový, do kterého jsou modifikovaná data za-psána (obrázek 2). Po té, co jsou vlastní data zapsána, dochází obdobným způso-bem k postupné modifikaci metadat, tedy nadřízených ukazatelů, a to směrem zdola nahoru (obrázek 3). Na závěr je vytvo řen nový Uberblock. Předchozí Uberblock tak ukazuje na původní verzi dat a lze ho použít jako odkaz na snap-shot či zahodit (obrázek 4).

Co je LSI SAS2 switch?Doposud byla SAS úložiště považována za typický Direct -Attached -Sto-ra ge (DAS), tedy za zařízení, které lze připojit pouze k jednomu či dvěma serverům. Uvedením SAS2 switche firmou LSI se z levného a velmi vý-konného SAS konceptu stává základ SAN struktury. LSI6160 je první 16portový 1U SAS2 switch s rychlostí každého portu 24 Gbs (2krát více než 10GbE iSCSI a 3krát více než FC 8Gbs). Porty switche jsou plně konfi-gurovatelné, lze nastavit tzv. zoning v souladu se standardem T10 (SCSI). Hlavní předností proti starší FC technologii je, kromě trojnásobné rych-losti, také výrazně nižší cena a spotřeba.

O společnosti Abacus electric, s. r. o.(www.abacus.cz)Abacus electric, s. r. o., je největším lokálním výrobcem serverů s certi-fikací ISO9001 a dvacetiletou tradicí na trhu. Dodává široký sortiment serverů a storage zařízení pro webhosting, virtualizaci, privátní i veřejný cloud, HPC, ukládání dat a další aplikace. Díky partnerství s klíčovými výrobci (Supermicro, AMD, Intel, 3Ware/LSI, Areca, Asus, Mellanox, Nexenta, Promise, QLogic, WD) je sortiment serverů a storage řešení výjimečné svou šíří a vlastnostmi (nabídka sahá od 1 U s hloubkou 25 cm po 8procesorové stroje s 80 fyzickými jádry).

O společnosti Supermicro(www.supermicro.com)

Super Micro Computer, Inc. (NASDAQ: SMCI), vyvíjí, vyrábí a dodává energeticky efektivní, optimalizované servery architektury x86. Firma vyrábí široké portfolio serverů, high -endových pracovních stanic, sto-rage systémů a dalších serverových komponent souhrnně nazývaných Server Building Blocks Solutions®.

O sp olečnosti Nexenta Systems(www.nexenta.com)

Nexenta Systems je lídrem trhu v oblasti podnikových open storage ře-šení. Hlavní produkt – NexentaStor je založen na OpenSolaris /open sto-rage ZFS technologiích.

Servery Supermicro a Hadoop(www.supermicro.com/hadoop/)Serverové řešení Supermicro představuje díky své univerzálnosti a šká-lovatelnosti ideální platformu nejen pro NexentaStor, ale pro všechny otevřené, neproprietární implementace v oblasti big dat. Společností Cloudera, lídrem trhu v oblasti implementace Apache Hadoop, jsou cer-tifikovány servery Supermicro pro Hadoop/Cloudera cluster.

4. Vytvoření nového Uberblockua �m i snapshotu

3. COW nadřízených ukazatelů

2. Nový požadavek na zápis

1. Všechna data jsou zapsaná


20 B I G DATA 2012

LUKÁŠ ERBEN

V minulém roce EMC začalo mluvit o defi-nitivním konci páskových systémů. Jaká je realita například v Česku? Jak rychle zá-kazníci tuto technologii skutečně „odsta-vují“?EMC na trend odklonu od páskových technologií směrem k diskově orientova-ným úložištím v oblasti zálohování pouka-zuje již několik let a snaží se jej spoluvy-tvářet. Výrazně vyšší dynamiku tento trend získal právě uvedením deduplikač-ních diskových technologií v oblasti zálo-hování (DataDomain/Avamar).

Provozní finanční úspory těchto řešení oproti klasickým páskám jsou zřejmé i pro většinou konzervativní středoevrop-ské zákazníky. Pokud firmy nenahradí páskové zařízení úplně, snaží se jej úspěšně minimalizovat využitím dedupli-kačních zařízení alespoň pro operativní zálohy s možností rychlé a elegantní ob-novy v kombinaci s dlouhodobou zálohou na pásku .

První zákazník, který kompletně vymě-nil páskovou technologii za zálohu na de-duplikační zařízení, se v Česku objevil již v roce 2007 a každým rokem přibývají de-sítky dalších.

Jak mohou nové technologie úložišť po-moci při zvyšování efektivity či škálování virtualizace v datových centrech a jaké mají v tomto směru zpravidla rezervy čeští zákazníci?Nastavený technologický trend spěje k plné virtualizaci nejen ve světě aplikač-ních serverů, ale i úložiště jako takového. Už existující možnosti tzv. federated sto-rage, které dovolují použít zařízení jiných výrobců jako samostatnou úložnou vrstvu, čímž dochází ke sjednocení roz-hraní pro správu a obecně pokročilé funkce úložiště, jsou významným krokem k dalšímu zvýšení efektivity v oblasti správy dat.

Naši zákazníci na lokálním trhu jsou většinou velmi konzervativní a nevyuží-

vají plně možnosti, které jim nabízejí ze-jména high -end řady diskových polí, jako je thin provisioning umožňující nabíd-nout uživatelům více kapacity, než je fy-zicky v diskovém poli osazená, nebo FAST -Cache, která poskytuje cílené vy-užití speciálních technologií EFD disků pro nejnáročnější aplikace.

Nicméně tlak na snižování nákladů společně s rostoucí důvěrou v tyto pokro-čilé technologie neustále posouvá hranice jejich využití směrem ke standardnímu nasazení.

EMC pokračuje ve významných akvizicích, jako byly Isilon, RSA, Greenplum a nově například Pivotal Labs. Který z těchto pří-růstků má pro váš tuzemský byznys nej-větší význam?Krátkodobý dopad na trh v České repub-lice je velmi těžké odhadnout. Akviziční strategie EMC dává smysl v celistvosti, ni-koliv v jednotlivých nákupech. Každá ze zmíněných investic, a stejně tak další jako specializovaný koncept diskového pole XtremeIO, nám umožňuje poskytovat zá-kazníkům koncepční a ucelený přístup k poskytování infrastruktury a služeb při přechodu na cloud.

Na letošním EMC Worldu bylo představe- no 42 novinek – od nejvýkonnějších a nej-větších systémů VMAX 40K přes škálova-telné NAS OS Isilon OneFS podporující ne-strukturovaná data, úložiště VNX, novinky Data Domain a Avamar, virtuální storage EMC VPLEX až po cloudová řešení, jako jsou Atmos či DataBridge. Které z těchto nebo jiných novinek jsou podle vás nejdů-ležitější či nejrelevantnější pro tuzemský trh?Nejdůležitější zprávou pro lokální trh je zejména masivní investice do zkvalitnění celého portfolia EMC, které je mezi na-šimi zákazníky zastoupené. Každé z uve-dených oznámení si svého adresáta v ČR najde – klienti využívají téměř všechny naše produkty a samozřejmě vítají další posun v nabídce jejich funkčností.

Posuňte byznysIT oddělení nemusí čekat, až bude požádáno o analýzu dat, o které se dosud staralo pouze ve smyslu jejich ukládání. Může aktivně přicházet s inspirativními nápady, co všechno je v datech ukryto za informace a jak je předvést a použít ve vhodné formě, říkají Vladimír Kyša, BRS partner territory representative společnosti EMC, a Luděk Šafář, manager tech consultant společnosti EMC.

Velká data a menší zákazníci

Řada firem dnes chápe nejen oblast big dat, ale též pokročilých datových úložišť jako cosi, co se jich netýká. Můžete nabíd-nout nějaké příklady toho, co nasazení kvalitnějších technologií pro ukládání a zejména další využívání dat může při-nést středně velkým podnikům?Otázka v sobě kombinuje dva možné pří-stupy ke zpracování dat. Prvním z nich je maximalizace úspor při ukládání dat. K tomu pomáhají nejen pokročilé techno-logie úložišť umožňující využívání růz-ných vrstev (tierů) s rozličnou kvalitativní charakteristikou, jako doba přístupu, rychlost přenosu dat, typ a architektura použitých disků, a cenou, ale důležitý je i způsob, jakým jsou technologie obecně nakupovány. Zde pozorujeme přechod od investičních nákupů k modelům „jako služba“. Ve stejném duchu pomáhají změ-něné koncepční přístupy v oblastech ochrany dat, jako jsou deduplikace a ar-chivace.

Naproti tomu klíčovým přínosem big dat je hodnota vyplývající přímo z ob-chodních procesů v podnicích, kdy infor-mace v datech obsažené mohou významně přispět ke kvalitě služeb nabízených zá-kazníkům a obchodní efektivitě. Klasic-kými případy z této oblasti jsou analýzy nákupního chování, korelační mecha-nizmy, skoring klientů apod. Popsané pří-stupy umožňují významně ovlivnit přes-nost odhadu budoucích trendů a dovolují podnikům mnohem lépe plnit přání svých klientů.

Můžete zhodnotit aktuální stav v oblasti „storage jako služba“ na českém trhu? Jak

Vladimír Kyša, BRS partner territory representative společnosti EMC



se daří vašim partnerům tuto sféru rozví-jet a na co se případně můžeme těšit v příštím roce?Vnímáme trend prosazovat způsob konzu-mace úložiště jako službu zejména in-terně, to znamená přímo v prostředí na-šich zákazníků. S přístupem, kdy by tuto službu poskytoval externí subjekt, se se-tkáváme velmi ojediněle, zatím převažují zejména vnímání případných bezpečnost-ních rizik a obecně psychologické pře-kážky „vzdání se“ dat třetí straně.

Nicméně především naši partneři v ka-tegorii cloud service provider se na tuto oblast soustřeďují a vytvářejí nabídky slu-žeb pro zákazníky, které komponentu ukládání dat obsahují. V ročním hori-zontu se dá předpokládat další posun v této oblasti, kdy bude služba ukládání dat mnohem častější, než je dnes.

Datová věda a specialisté

Práce s nestrukturovanými či „velkými“ daty bude nejspíše vyžadovat nové typy datových expertů, lidí, kteří pokrývají ob-lasti technologií, statistiky a matematiky i byznysu zároveň. Jak snadné je bude v českém prostředí najít a vychovat? Od-kud se budou podle vás nejčastěji rekruto-vat?Z pohledu EMC opravdu jde o samostat-nou odbornost, kterou shrnujeme pod ter-mín „data scientist“ – datový vědec. Lidé s touto kvalifikací už existují, zejména v BI a datawarehouse prostředí velkých společností poskytujících služby individu-álním klientům, jako jsou banky či pojiš-ťovny. Obecně jde o odborníky na ob-chodní model společnosti jako takový, kteří nicméně zároveň disponují dostateč-nou znalostí problematiky zpracování dat,

tedy s jakými datovými zdroji společnost pracuje, jaké externí datové zdroje lze po-užít, jaké jsou v datech dostupné infor-mace.

Nepředpokládáme, že by v dohledné době v ČR vznikly speciální vzdělávací obory nebo cílené kurzy, které by připra-vovaly pracovníky v této oblasti, a tak bude těžiště ve vytváření potřebné pra-covní síly nejspíš přímo ve společnostech, které budou tento typ práce poptávat.

Na velkých trzích se již dnes hovoří o tom, že „datová věda“ bude natolik obsáhlým oborem, že budou vznikat společnosti za-měřené jen na tuto oblast či dokonce ur-čité vertikály, v nichž budou postupy u jed-notlivých zákazníků – například při ana-

lýze dat a modelování scénářů (prediktivní analýza) – velmi podobné. Myslíte, že se podobného vývoje dočkáme i v ČR?Myslíme si, že ano a nebude to tak dlouho trvat. Mnoho společností, které na lokálním trhu fungují, je součástí me-zinárodních skupin, které na globální úrovni budou tyto služby využívat. Soci-ální sítě, které z definice fungují meziná-rodně, zatím nejsou dostatečně využívány při plánování a měření efektivity marke-tingových aktivit – to bude v blízké bu-doucnosti určitě jeden z prvních „pro-duktů“ firem nabízejících služby popsané v otázce.

EMC hovoří o zásadním posunu v oblasti IT – o novém „centru gravitace“, kterým jsou data, a nikoliv technologie. Jak se po-dle vás dokážou IT oddělení vyrovnat s přechodem od T (technologií) k I (infor-macím, datům)? Jakou strategii byste do-poručili pro úspěšné zvládnutí této zá-sadní změny?Pro IT oddělení je složitý nejen přechod od technologií k datům, ale i od dat k in-formacím. Základní obecnou strategií je zaměřit se na přerod z nákladové položky na element schopný přinášet reálnou hod-notu (ať ve formě zkvalitňování existují-cího IT nebo nových nápadů, kam ob-chodní aktivity posunout). A data jsou ideálním prostředkem, jak toho dosáh-nout.

IT oddělení nemusí čekat, až bude po-žádáno o analýzu dat, o které se dosud staralo pouze ve smyslu jejich ukládání. Může aktivně přicházet s inspirativními nápady, co všechno je v datech ukryto za informace a jak je předvést a použít ve vhodné formě.

A nám bude samozřejmě ctí být u toho!

Luděk Šafář, manager tech consultant společnosti EMC

PRAHA, 20. ZÁŘÍ 2012, HOTEL DIPLOMATPodrobnosti najdete na www.emc.com


22 B I G DATA 2012

Big data a Fujitsu: Správné informace ve správný časDokážete si představit pocit, že vás na dálnici předjede nejrychlejší automobil světa Bloodhound SSC uhánějící rychlostí až 1 600 km/h? Tak podobně budete vnímat rozdíl odezvy na váš dotaz do systému ERP provozovaného na standardní platformě vůči platformě SAP Hana na infrastruktuře od Fujitsu.

LUBOMÍR ŠTEFEK

Neustále rostoucí množství dat z růz-ných zdrojů je nejen skvělou příleži-tostí pro vytváření složitých analýz,

ale současně i velkou výzvou. Big data jsou základem pro hluboké analýzy, bohu-žel zpracovávání takto rozsáhlých dat často způsobuje nepřijatelné odezvy.

Řešení SAP Hana je speciální propojení softwarových a hardwarových prostředků, které využívá inovativní technologie In memory computing. SAP Hana pomáhá překonat právě takovéto překážky, když obrovská množství dat mohou být zpraco-vána v hlavní paměti serveru v reálném čase, což výrazně urychluje přístup k da-tům pro analýzu. Z obchodního hlediska tak umožňuje rychleji se rozhodovat na základě důkladné analýzy dat.

Výhody in memory computing infra-struktury od Fujitsu a řešení SAP jsme znásobili jejich využitím při vývoji společ-ného produktu SAP Hana. Fujitsu zajiš-ťuje optimalizovanou infrastrukturu a na-bídku kvalitních komplexních služeb.

Fujitsu řešení infrastruktury jsou zalo-žena na výkonných serverech Primergy certifikovaných od SAP. Nabídky začínají na ekonomicky výhodných konfiguracích, které mohou být postupně rozšiřovány, v současné době až na „multi node“ pro-středí s až 8 TB operační paměti. Takováto řešení spojují atributy velmi výkonného a vysoce dostupného prostředí s optimál-ními celkovými náklady na vlastnictví (TCO).

Rychlá a exkluzivní HanaPro zákazníky, kteří chtějí začít s předde-finovanými aplikacemi pro nejdůležitější obchodní procesy, nabízí Fujitsu Smart-Start end -to -end nabídku kombinující vý-hody rychlého nasazení SAP řešení pro Hana s infrastrukturou, odbornými zna-lostmi a službami od Fujitsu.

Ač to tak na první pohled nevypadá, malé a střední firmy se ve skutečnosti také potýkají s problémy velkých objemů dat.

Naštěstí přístup k datům v reálném čase je nyní dosažitelný i v rámci jejich li-

mitovaných IT rozpočtů. Nová aplikace SAP Business One s analýzami provádě-nými na platformě SAP Hana je dodávána předinstalovaná a připravená ke spuštění na výkonném serveru Fujitsu Primergy TX300. A tak i tyto společnosti mají mož-nost využít okamžitý přehled nad daty, a tím i rychlé a především správné rozho-dování.

Fujitsu, které nedávno získalo ohodno-cení 2012 SAP Pinnacle award v kategorii Technologický inovátor roku, je nyní jedi-ným dodavatelem poskytujícím zařízení pro SAP Business One podporované SAP Hana. Certifikovaná infrastruktura od Fu-

jitsu postavená na standardních kompo-nentech, jako jsou x86 servery a operační systém Suse Linux, spolu s nabídkou pří-slušných služeb otevírá přístup k výkon-ným technologiím in memory computing od SAP a nabízí velmi vysoké výkony v přijatelných cenových hladinách.

Ekonomicky výhodné systémy pro pod-niková prostředí jsou implementovány na serverech Fujitsu Primergy RX600 ve třech variantách – M, S a XS, lišících se navzájem počtem osazených procesorů a kapacitou operační paměti.

Tyto T -shirt konfigurace jsou vhodné právě pro:

prokázání hodnoty projektu a správ-nosti využití řešení SAP Hana

počáteční SAP Hana implementaci s omezeným rozsahem

prostředí SAP Hana pro vývoj, test, školení a řízení kvality

Kromě ekonomicky výhodných „single

node configuration“ variant Fujitsu při-pravilo pro zákazníky také vlajkovou loď pro rozsáhlé implementace – „multi node configuration“, která je určena pro roz-sáhlé implementace.

Zde lze využít velkou rozšiřitelnost ce-lého systému pro pokrytí ohromných po-žadavků na systém, kladených v reálném čase. Základním stavebním kamenem této varianty je tzv. Block – server Fujitsu Pri-mergy RX600 a diskové pole FAS 3240. V iniciální konfiguraci jsou implemento-vány dva takovéto bloky, které lze po-stupně rozšiřovat až na zatím konečný po-čet 16 bloků pro jeden systém. Tím dosáh-neme na kapacitu 8 TB operační paměti využitelné pro řešení in memory compu-ting.

Uvedeným „multi node“ řešením kromě vysokého výkonu a škálovatelnosti dosáhneme také:

efektivního řešení vysoké dostupnosti snadné integrace řešení zálohování/ob-

novy do zákaznického prostředí umístěním do dvou lokalit získáme zo-

tavení z katastrofy „Disaster Resilience“Fujitsu bylo prvním part-

nerem, který od SAP obdržel certifikaci pro „multi node“ SAP Hana infrastrukturu s možností škálovatelnosti až do 8 TB operační paměti.

Řešení na klíč, které spo-lečnost SAP zvolila, umožní oddělením IT dosáhnout nej-vyšších výkonů, které od nich jejich společnosti oče-kávají. Koncept Hana byl vy-vinut jako zařízení v úzké spolupráci SAP a technolo-

gických partnerů, jako je Fujitsu.Fujitsu je však prvním z dodavatelů,

jenž nabízí svá Hana zařízení s end -to -end dodávkou s měřením, konzultacemi a službami, tak aby společnosti mohly vy-užívat tuto technologii pro podporu svých obchodních procesů v co nejkratším čase od rozhodnutí po investici. Zajímavé je, že rychlejší uvedení do produkce je téměř nezávislé na specifických požadavcích zá-kazníka.

Pro zájemce, kteří by chtěli vidět SAP Hana pozitiva v praxi, připravilo Fujitsu vzdálený přístup do Fujitsu SAP Hana Global Demo Centra. Nabízíme lepší po-rozumění přínosu řešení SAP Hana s vy-užitím „ready -to -use“ prostředí SAP Hana zahrnující i typické SAP Hana scénáře po-užití jako CO -PA a Obchodní Analýzy.

Autor je product group manager, Fujitsu Technology solutions

Další rozšiřitelnost1 TB RAM

NetApp_1 (FAS 3240) NetApp_2 NetApp_n

10 gbps Network (redundant 10GBit Switches)

HANABlock n

HANABlock 1

PY RX600 S6512 GB RAM

PY RX600 S6512 GB RAM

HANABlock 2



Data jsou důležitější než virtualizace!V souvislosti s technologickým rozvojem a fenoménem cloud computingu jsme zvyklí číst o různých výhodách virtualizace výpočetního výkonu a trochu zapomínáme, že servery jsou jen nástroje na operaci s daty, o která by mělo jít v první řadě.

RICHARD NOVÁK a MIL AN PETRÁSEK

Data a znalosti představují pro podni-kání v dnešní době stejně hodnotná aktiva, jako jsou peníze. Stejně jako

dříve v historii vznikly finanční instituce, kam lidé ukládali své peníze, aby je měli v bezpečí a kdekoliv přístupné, dnes vzni-kají ICT operátoři, ke kterým ukládáme svá data.

Sdílíme názor, že pro firmy s důležitý- mi daty nejsou poskytovatelé obsahu jako např. Google to správné místo pro uložení citlivých dat. Naopak se zdá, že operátor, který zároveň poskytuje služby fixní ko-nektivity, datových center a cloud compu-tingu, může být pro poskytování služeb uložení firemních dat ta správná volba.

V následujících odstavcích přiblížíme službu uložení dat (GTS Data Storage) a zálohování (GTS Backup).

Rodina produktů GTS Data StorageZahrnuje standardní služby úložiště a zá-lohování v GTS datových centrech nebo ve vzdálených lokalitách. Služby jsou po-skytovány pomocí L2 nebo L3 sítě, buď použitím vyhrazené SAN sítě v datových centrech (Storage Area Network), nebo pomocí konektivních služeb GTS „Datová a Internetová řešení“ (DIA, MPLS nebo EVPL).

Rodina produktů GTS Data Storage pat-řící do skupiny ICT řešení nabízí následu-jící služby:

Standard Storage Dedicated Storage BackupVšechny vyjmenované služby používají

technologie předních světových výrobců Cisco, NetApp, Dell, Commvault.

Společnými jmenovateli jsou garanto-vaná úroveň služeb SLA a přístup přes zá-kaznický portál spolu s professional servi-ces zahrnující správu, optimalizaci atd.

GTS Standard StorageJe úložné řešení vhodné pro zákazníky hledající outsourcing úložiště pro servery, aplikace a data. Služba vhodně doplňuje další služby z portfolia GTS:

Housing v datových centrech

Virtuální hosting (cloud)Služba je zákazníkovi poskytována s ná-

sledujícími parametry: Úložný prostor – organizovaný do jed-

noho nebo několika LUN. Třída úložiště – je popsána typy disků

v závislosti na požadovaném výkonu: Tier 1 – nejvyšší parametry výkonu

díky použití SSD disků Tier 2 – vysoký výkon poskytovaný

SAS disky (15k rpm) Tier 3 – nízkonákladový prostor

tvořený SATA disky (7,2k rpm) Konektivita SAN – definuje, jak jsou

zákaznické servery připojeny ke službě: iSCSI 1 a 10Gbps FibreChannel FC4

GTS Dedicated StorageJe řešení plně vyhrazeného úložného sy-stému. Jde o obdobu Standard Storage s tím, že celé úložiště je vyhrazené pro jednoho zákazníka. Toto řešení může být požadováno z různých důvodů:

bezpečnost – interní firemní pravidla nedovolují umístění dat na sdílené pro-středky

výkon – v případě požadavků na vysoce výkonné garantované parametry

specifické parametry nedostupné ve standardním produktu – např. přístup přes FCoE, FC8 apod.

požadavky na metro/geo cluster atd.U tohoto řešení je možné použít sdíle-

nou nebo vyhrazenou SAN v závislosti na požadavcích zákazníka.

GTS BackupPoskytuje funkce provedení zálohy či ob-novy veškerých zákaznických dat bez-pečně uložených v této službě. Zálohování může být využíváno prostředky umístě-nými uvnitř datových center GTS nebo ze vzdálených lokalit.

Službu nabízíme ve dvou variantách: Standard – správa je prováděna zákaz-

níkem pomocí uživatelsky přívětivého zá-kaznického portálu.

Managed – správa je prováděna speci-alisty GTS.

Bez ohledu na zvolenou variantu mo-hou zákazníci:

Nastavit/zvolit vlastní zálohovací sché-mata a vybrat data k zálohování.

Iniciovat plnou nebo částečnou obnovu zálohovaných dat ve vy-brané periodě.

Služba nabízí formou měsíčního po-platku za zálohovaný prostor veškeré zálo-hovací agenty pro on -line zálohování zahr-nuté v ceně. GTS Backup podporuje různé souborové systémy (Unix/Linux, Win-dows, Apple MacOS) a databáze (Oracle, MS SQL, IBM DB2…) či aplikace (MS Ex-change, Lotus Domino, MS SharePoint…) a také celé virtuální stroje (VMware…).

Výše uvedené produkty je možné nasa-zovat jako stavební kameny komplexních outsourcingových projektů, tak jak to GTS dělá např. pro rozsáhlá řešení BCM/DR.

Autoři jsou ředitel pro strategii a produktový manažer společnosti GTS Czech


24 B I G DATA 2012

Big data – jedinou cestou je komplexní řešeníDůvod, proč jsou big data, tedy velká data, často prezentována jako problém, vychází už přímo z jejich běžné definice. Jde o data, která díky povaze – objemu, rychlosti růstu či obrovské variabilitě – nemohou být zpracovávána či ana-lyzována s využitím tradičních technologií a nástrojů. Objem dat kolem nás neustále roste, přestože schopnost jejich analýzy a dalšího vy-těžení postupně klesá – a to nemluvíme pouze o velkých podnicích, ale i o men ších a středních firmách. Jak s daty efektivně pracovat, radí ma-nažerka soft warové divize IBM Česká republika Lucia Belková.

IBM

Proč se velká data často prezentují jako problém?S mírnou nadsázkou se dá říci, že „kdo neměří, ten neřídí“. Data nestačí pouze sbírat, ale je nutné je umět i vyhodnotit, aby bylo možné monitorovaným procesům lépe porozumět. Za obrov-ským nárůstem objemu zpracovávaných dat dnes velkou měrou stojí moderní podnikové informační systémy, rychlé datové sítě a mobilní technologie schopné monitorovat a sbírat data takřka z čehokoliv.

Problém tedy není ve shánění dat, ale v jejich analýze?Ano, data, ačkoli často pouze v nestrukturované podobě, k dispo-zici máme. Otázkou tak zůstává, jakým způsobem s nimi praco-vat. Cílem je přeměna na hodnotné informace a ideální je, po-kud se to daří v reálném čase. Podle studie vypracované IBM In-stitute for Business Value, mají podniky, které využívají nad svými daty sofistikované analytické nástroje, téměř třikrát větší pravděpodobnost, že se zařadí mezi nejlepší firmy ve svém oboru.

Kde začít s řešením big dat?Velká data jsou na začátku malá, což si bohužel řada firem ne zcela uvědomuje. Data, se kterými pracujete, musí být stopro-centně správná, aktuální a jednoznačná. Na základě špatných dat neudělá ani s nejlepšími nástroji dobré rozhodnutí vůbec nikdo.

I proto řada projektů IBM zaměřených na big data začíná konzultační činností a také racionalizací dat, která je opravdu nutné pro chod firmy sledovat. Druhým krokem je pak způsob jejich sběru.

Bez infrastruktury to nejde

Co považujete za naprostý základ potřebný pro zvládnutí velkých dat?Výrobci UPS s velkou oblibou uvádějí, že pravou hodnotu UPS si firma uvědomí až v okamžiku, kdy ji nemá a kvůli výpadku napá-jení přijde o data a třeba i o zákazníky. Problém je v tom, že o serverech a datových úložištích tohle tak úplně říci nejde. Pro velkou řadu firem a organizací je totiž jejich serverová infra-struktura natolik kritická, že nevhodně načasovaný výpadek může firmu i zlikvidovat.

Hardware je tedy podle vás pro big data také klíčový?Je to druhá významná kapitola při komplexním přístupu k řešení problému s velkými daty. Řada firem zde přitom dělá chybu.

Buď hardware zcela ignorují, což se promítne do toho, že ne-jsou schopny vůbec nasadit potřebné softwarové nástroje a je-jich byznys začne stagnovat, anebo naopak do IT infrastruktury investují raději více, což vede ke zbytečně velkým investičním a provozním nákladům, které pak firmu neúměrně finančně za-těžují.

I proto například IBM nabízí nejrůznější formy veřejného a privátního clou du šité přímo na míru anebo nástroje schopné automatizovat správu a údržbu již zakoupené infrastruktury. Nejnovější evoluční krok v oblasti korporátních IT řešení jsou expertní integrované systémy – IBM PureSystems – slučující veškerý potřebný hardware a software, který dostane firma ve formě připraveného racku. Ten je navíc možné uvést do pro-vozu během pouhých hodin.

Jak byste popsala přínos analytických nástrojů a databází?Analytické nástroje a databáze existovaly dlouho před tím, než pojem velká data spatřil světlo světa. Práce s big daty na analytic-kých nástrojích doslova stojí.

Dodávají totiž velkým objemům dat nejen smysl, ale také ne-vyčíslitelnou hodnotu. Díky těmto nástrojům lze identifikovat nejúspěšnější produkty a služby, nejvýznamnější zákazníky a pře-devším na první pohled nezřejmé trendy na trhu.

Nezřídka nás pak tyto nástroje mohou dostatečně včas varovat před blížícími se problémy. Odpovídající softwarové nástroje však mohou šetřit i peníze za hardware. Kupříkladu jeden z na-šich zákazníků v Česku nasadil databázovou platformu IBM DB2. Podařilo se mu tak obrovské množství zpracovávaných dat zkomprimovat až o 66 % a následně výrazně ušetřit na hard-waru.

Velice podstatné také je, jak rychle si softwarová platforma dokáže s daty poradit. Nejde o to, že když manažer čeká na pří-pravu reportu den, musí nutně být vždy pozdě. Libovolné zdlou-havé čekání na analytické výstupy automaticky zvyšuje psycholo-gickou bariéru k jejich opětovnému a častějšímu používání, a tím vlastně znehodnocuje příslušné analytické nástroje i zpra-covávaná data.

V případě zmiňovaného zákazníka přitom IBM DB2 zrychlila výkon datového skladu o celých 40 % a systému SAP o 34 %.


Vizualizace dat týkající se očekávaných příjmů uvádějí měsíční objem prodeje lodí.

IBM, logo IBM, ibm.com, Cognos, Chytrejší planeta a ikona planety jsou ochrannými známkami společnosti International Business Machines Corp. registrované v řade zemí světa. MarineMax a MarineMax logo jsou ochrannými známkami společnosti MarineMax Inc. Ostatní názvy produktu a služeb mohou být ochrannými známkami společnosti IBM nebo jiných firem. Aktuální seznam ochranných známek společnosti IBM naleznete na webových stránkách www.ibm.com/legal/copytrade.shtml. © International Business Machines Corporation 2012.

Existují tisíce různých typů lodí. Jejich prodejci ovšem rozlišují pouze dva: prodané a neprodané. Společnost MarineMax, největší maloobchodní prodejce lodí na světě, používá systém Cognos – software určený k firemní analýze a optimalizaci. Díky němu tak ví, o které lodě budou mít zákazníci zájem a které již nechtějí. Správným rozhodováním o produktech na skladě podle poptávky zákazníků společnost MarineMax zkrátila cyklus plánování dodávek ze tří měsíců na tři týdny, snížila náklady o 48 % a v konečném důsledku prodala více lodí. Chytřejší planeta vychází z chytřejšího softwaru, systémů a služeb.

Pojďme vytvářet chytřejší planetu.

Chytřejší podnikání pro Chytřejší planetu:

Většinu lodí pohání lodní šroub. Tato loď se dala do pohybu díky inteligentnímu systému.


26 B I G DATA 2012

Velká data jsou výzvouKaždých pět let se objem zpracovávaných dat zvyšuje přibližně desetkrát. Data, se kterými firmy pracují, přitom obsahují velké množství důležitých informací, z nichž lze získat konkurenční výhodu, odhalit nové trendy na trhu i ochránit firmu před krizí. K tomu je však nutné s nimi umět pracovat.

ROBERT HAVRÁNEK

Při rostoucích objemech dat obvykle z několika různých zdrojů – samo-statných souborů, účetních systémů,

ERP a CRM systémů, e -shopů atd. – je zcela nezbytné, aby i nestrukturovaná data umožňovala rychlé vyhledávání, třídění, automatizované zpracování i sdílení na-příč týmem. Tato data totiž obsahují důle-žité informace nejen pro samotný provoz, ale také pro rozvoj a budoucnost firmy.

To, co je pro jedny zdrojem informací o spokojenosti zákazníků, je pro druhé zdrojem informací o přáních zákazníků a pro další zase zdrojem informací o slo-žení zákaznické báze a jak se v čase a jed-notlivých regionech mění. Právě proto třeba Microsoft dlouhodobě prosazuje po-litiku propojení databázového Microsoft SQL Serveru, případně i podnikových in-formačních systémů Microsoft Dynamics, s portálovým řešením Microsoft Share-Point, který slouží jako společná, jedno-duchá a srozumitelná prezentační vrstva pro podniková data ze všech zdrojů, včetně třeba samostatných souborů.

Data jsou až na prvním místěSharePoint je tak velice efektivním ná-strojem pro sdílení informací napříč fir-mou doplněný o rychlé vyhledávání na-příč datovými zdroji. Důležitou roli ve světě zpracování, třídění a segmentace dat hraje ve světě technologií Microsoftu také Microsoft Excel, jehož funkce dnes do-káže ovládat dlouhá řada zaměstnanců.

Pro ten existují třeba i bezplatné rozši-řující moduly, jako je například PowerPi-

vot, které umožňují rychle a efektivně zpracovávat nejrůznější analýzy využíva-jící všechny uživatelům důvěrně známé nástroje, které Excel nabízí, a to nad daty přímo z databáze v SQL Serveru. Důleži-tým novodobým trendem také je, že firmy, které potřebují s daty pracovat na globální úrovni nebo nechtějí investovat do ná-kupu a správy vlastní infrastruktury, se

mohou obrátit i na cloudové alternativy těchto nástrojů, a soustředit se tak sku-tečně jen na data samotná.

Velkou výhodou současných techno-logií Microsoftu také je, že od nástupu nástrojů pro automatizovanou správu IT infrastruktury Microsoft System Cen-ter 2012 už lze plynule přesouvat celé aplikace mezi vlastní IT infrastrukturou a cloudovou infrastrukturou Windows Azure. Tím se do popředí dostává samotná aplikace a nikoliv IT infrastruktura, kte-rou momentálně využívá.

Interaktivní analytické nástroje jako cesta k přidané hodnotěSkutečnou přidanou hodnotu dat však tvoří až analytické nástroje, které z nich dokážou jednoduše vytáhnout důležité trendy a informace a případně, s využitím regresních funkcí a dalšího matematic-kého aparátu, připravit také možné scé-náře budoucího vývoje.

V letošním roce navíc prostřednictvím Microsoft SQL Server 2012 i jeho clou-dové alternativě Microsoft SQL Azure nastu puje trend plně interaktivních ana-lýz, které lze navíc prostřednictvím SharePoin tu jednoduše sdílet napříč fir-mou. To posouvá analytické zpracování dat z dosavadní statické roviny reportů,

stavových ukazatelů a trendových křivek k dynamické rovině, kdy lze prakticky v reálném čase aktivně hledat v takřka li-bovolném objemu dat nové trendy a sou-vislosti, a to dokonce i v týmu, který už díky dnešním komunikačním technolo-giím jako třeba Microsoft Lync nemusí ani sedět v jedné zasedací místnosti či zemi.

Pro zpracování velkých dat je potřeba jiná infrastrukturaAby bylo možné data podrobovat statické či dokonce dynamické analýze a získat tak ze zpracovávaných dat skutečnou přida-nou hodnotu a informace pro podporu rozhodování managementu, je nezbytné, aby všechny analýzy byly rychlé. Report, na který musí manažer čekat čtyři hodiny, sice může fungovat a může managementu dát potřebné informace k rozhodování, ale rozhodně nemůže plnit roli nástroje

motivujícího management, aby v datech, která má firma k dispo-zici, zkoušel aktivně hledat nové trendy a souvislosti.

Proto Microsoft SQL Ser-ver 2012 i cloudový SQL Azure nabízí systémovou architekturu od začátku připravenou na zpra-cování velkých objemů dat. Ne-chybí zde přitom ani podpora pro populární open -source knihovnu Apache Hadoop, která umožňuje efektivní paralelní

zpracovávání nestrukturovaných dat na více serverech spojených do clusteru. Ukázkou, s jak velkým objemem dat mu-sejí některé firmy pracovat, je například společnost Yahoo!, která sbírá data řadu let. S využitím SQL serveru dnes pracuje s databází, jejíž velikost přesahuje 24 TB.

Data i výstupy snadno začleníte do svých aplikacíZpracovávání dat ve firmách má však ještě jeden aspekt – propojení dat a analytic-kých výstupů s dalšími aplikacemi a pro-cesy ve firmě. Proto Microsoft nabízí možnost snadného vývoje aplikací využí-vajících knihovny Hadoop i všech dostup-ných nástrojů SQL Serveru 2012 nebo SQL Azure na platformě .NET. Stejně tak je možné zpracovávat jednotlivé výstupy ve vývojovém prostředí pro SharePoint, kde jsou pro řadu systémů už předpřipra-vené interaktivní funkční celky webparts.

A s daty zpracovávanými prostřednic-tvím knihovny Hadoop i analytických ná-strojů Microsoft SQL Serveru lze stejně tak jednoduše pracovat i ve vlastních mo-dulech vyvinutých pro podnikové infor-mační systémy Microsoft Dynamics.

Autor je produktový manažer serverové divize, Microsoft

Příklad analýzy velkých dat pro Twitter pomocí ná-stroje Microsoft Business Intelligence platformy, PowerPivotu

Microsoft nabízí komplexní řešení pro práci s velkými daty



jako jsou neomezená velikost, migrace bě-hem života, compliance… Nejen pro od-borníky na ukládání dat je zřejmé, že každé řešení představuje zcela odlišné ná-roky na diskové úložiště.

Zdá se, že přichází doba, která mění pravidla hry v oblasti diskových úložišť. Společnosti si dnes pokládají otázky jako: Jsou nějaké možnosti jak na základě infor-mací získat konkurenční výhodu? Co kdy-bychom spojili trendy v nákupech s lokali-tou, kde se zákazníci aktuálně nacházejí? Jaké přístupy pomohou našim obchodním výsledkům?

Výčet takovýchto otázek je neomezený, ale odpověď je vždy stejná – tyto společ-nosti potřebují partnera, který jim umožní z „velkých dat“ získat výhodu a transfor-movat ji na obchodní hodnotu.

Společnost NetApp nabízí pro všech- ny oblasti prověřená řešení založená na professional services a na diskových úložištích řady E -Series, která mají špič-kové parametry z hlediska datové pro-pustnosti. Mezi tato řešení patří např. Net App Open Solution For Hadoop, NetApp High Performance Lustre Solu-tion, Net App StorageGRID Healthcare Solution, NetApp Solution for Archive as a Service a další.

Pokud začínáte přemýšlet o řešení, které spadá do jedné z kategorií, a zatím nevíte, kolik petabajtů nebo milionů IO operací musíte umístit do jednoho racku, ale už tušíte, že diskové úložiště bude velké až těžko představitelné, doporu-čujeme vám využít zkušenosti z na-šich instalací a hledat cestu společně s námi.

Autor je pre -sales konzultant, NetApp

Abeceda velkých datO „velkých datech“, tedy o big datech, se hovoří již delší dobu. Z počátku to byl termín, jako kdysi býval „cloud“, a stejně jako cloud ani tento pojem nebyl dodnes jasně definován.

JAN PAVLÍČEK

To je samozřejmě záměr – název byl vytvořen už v roce 2010 a byl to pri-márně marketingový termín použí-

vaný k popisu velkého množství dat, tj. nelehce představitelného množství dat jako (tehdy) např. petabajt. Vágnost to-hoto názvu znamenala, že mohl být použí-ván více skupinami odborníků, a to s růz-nými cíli a v rozdílných souvislostech. Ji-nak řečeno trh pro tento „termín“ zůstal otevřený a každý získal dojem, že je sou-částí big data světa. Z toho samozřejmě měly prospěch firmy prodávající infra-strukturu, ale přineslo to i nečekaná pozi-tiva a termín big data se stal mnohem dis-kutovanějším, než se čekalo.

Pro většinu lidí v oboru znamenají big data jeden typ dat a tento pojem tak pro ně má jeden význam. Termín big data ale můžeme v zásadě použít pro tři kategorie řešení. Ve společnosti NetApp tak hovo-říme o „ABC's of big data“. A co se za tě-mito třemi písmeny skrývá? Pro nás jsou tyto kategorie definovány způsobem vy-užití uložených informací.

AnalytikaV této oblasti jsou zpracovávány i po re-dukci velmi velké soubory dat. Charakte-ristické je, že po „systematizaci dat“ se zpracovávají mnohem větší objemy dat, než bylo možné u existujících systémů, a to nejlépe při mnohonásobném urych-lení. Data obvykle pocházejí z vědecké ob-lasti nebo finančních institucí a konti-nuálně přibývají. Často je potřeba zpraco-vávat data opakovaně při třeba jen malé úpravě algoritmů. Data jsou primárně čtena, a nikdy ne přepisována. Cílem ta-kových analýz bývají např. zrychlení cho-vání firmy na trhu, identifikování budoucí příležitosti, a to vše co nejrychleji a na zá-kladě co nejvíce dostupných zdrojů infor-mací. V této oblasti dnes dominují řešení založená na systémech MapReduce a open source platformě Hadoop.

Bandwidth (propustnost)Tato oblast se samozřejmě také týká vel-kého množství dat, ale charakteristické pro ně je, že se spíše jen přesouvají z jed-noho místa na druhé. Příklady mohou být zpracování dat o počasí z mnoha senzorů a satelitů s potřebou dostat data do cen-trální lokality či prosté ukládání videa

z mnoha bezpečnostních kamer. V době, kdy termín big data vznikl, si možná ni-kdo neuměl představit, že data mohou přibývat rychlostí 1 TB/s, dnes taková pro-středí existují.

Content (obsah)To je oblast, kde je požadováno ukládání velkého množství záznamů za účelem vy-generování přidané hodnoty. Je to jedna z nejčastějších forem podoby „velkých dat“ a oblast, kam se zařazuje většina tra-dičních dodavatelů v oboru, kteří se ne-specializují na výše uvedené formy uklá-dání dat. Na rozdíl od analýzy zde není vyžadován paralelní přístup k velkým sou-borům dat v jeden okamžik. Jednotlivé zá-znamy mohou být i velmi malé, ale vždy patří do obrovského fondu informací, který bývá potřeba uchovat velmi dlouho. Na rozdíl od Bandwith kategorie zde není důležitá schopnost pojmout nové infor-mace rychle. Dobrým příkladem je uklá-dání lékařských snímků.

Uživatel bude mít u každé kategorie zcela jiné požadavky. Zákazník A se bude zají-mat, kolik záznamů může vzít při analýze v úvahu, a bude se ptát, jak rychle dostane výsledky. Zákazník B se bude obávat, jestli řešení stihne pojmout všechny informace, a konečně zákazník C se bude zajímat o otázky spojené s dobou existence dat,

Big Data ABCs


28 B I G DATA 2012

In -memory computing, bič na spoutání Big DataTéměř každý proces, činnost nebo aktivita, které se uskuteční, za sebou nechávají datovou stopu. Množství dat přibývá nezadržitelným tempem a firmy si s nimi přestávají vědět rady. Existuje však mnoho způsobů jakými je možné Big Data zhodnotit a výsledné informace využít pro další růst a vznik inovací. In-memory computing představuje ten nejsnazší a zároveň nejefektivnější způsob.

MICHAL BEZÁK

Dat je moc a bude jich ještě víc. Dají se z nich získat zajímavé informace, ale musíme s nimi umět pracovat.

Čím více jich je, tím je zpracování obtíž-nější a náročnější, a to jak na IT infra-strukturu, tak hlavně na čas a v konečném důsledku i na z toho plynoucí náklady.

Přínos dat se tak minimalizoval. Při-tom možnost získat z nich informace, a to ideálně v reálném čase, představuje pro společnost a její řízení významný přínos.

Spása jménem SAP HANATechnologický pokrok nám naštěstí při-nesl in -memory computing. Vývojem in--memory principu se již více než jedno desetiletí zabývá Hasso Plattner Institut. Ten založil Hasso Plattner, spoluzaklada-tel a současný předseda představenstva společnosti SAP. To je také důvod, proč je SAP lídrem v oblasti in -memory compu-tingu. Jednoduše má dekádu náskok.

Na bázi in -memory vyvinula společnost SAP databázovou platformu SAP HANA, která oproti současným databázovým technologiím nabízí až 100 000násobné zrychlení výpočtů. Jak je to možné? Ze-jména díky tomu, že veškerá transakční data jsou uchovávána v operační paměti, která je už z principu o několik řádů rych-lejší než v současnosti využívané pevné disky. Sloupcovité uspořádání navíc redu-kuje potřebua vytváření indexů a agregátů a dochází tak k výraznému zmenšení sa-motné databáze.

Než se řešení SAP HANA objevilo na trhu, nemohly společnosti některá data vůbec analyzovat. Buďto by musely inves-tovat příliš do rozšíření kapacit své IT in-frastruktury, nebo to i tak trvalo příliš dlouho. Když potřebujete informace do hodiny, aby to pro vás mělo smysl, ale ana-lýza trvá například den a půl, tak ji zkrát- ka nebudete dělat, protože je to jen plýt-vání vašimi zdroji.

Lidé ve firmách chtějí mít informace k dispozici hned a nechtějí s každou žá-dostí chodit za IT oddělením. Chtějí mít možnost upravovat zadání svých analýz,

a to také nejde, když na výsledek čekají několik hodin. Zákazník nemůže čekat a „pomalá“ data zpomalují i byznys.

Přínosy in -memory computinguSpolečnosti všech velikostí ze všech prů-myslových odvětví mohou těžit z výhod in -memory computingu, jako jsou úspory nákladů nebo jednoduchost a efektivnost řešení. Náklady na správu databází v sou-časné době představují více než čtvrtinu většiny IT rozpočtů. Avšak databáze zalo-

žené na in -memory technologii využívají hardware, který je méně energeticky ná-ročný než tradiční technologie pevných disků, čímž se dramaticky snižují náklady na provoz a údržbu hardwaru.

In -memory databáze, jako je SAP HANA, zjednodušují IT prostředí, při-čemž uvolňují pracovní zdroje, které byly dedikované pro práci s analytickými ná-stroji a pro tvorbu reportů. Díky osvěd-čené a vyspělé technologii nezpůsobují implementace přerušení provozu a umož-ňují společnostem rychlý návrat k běž-nému stavu.

Migrace na in -memory databázi umož-ňuje odstranění celé technologické vrstvy z firemní IT architektury, přičemž se sni-žují komplexita a požadavky na infrastruk-turu, které vyžadují tradiční systémy. Sní-žená úroveň komplexity přináší zvýšenou efektivitu pracovních týmů kvůli lepší do-stupnosti dat v čase. Vyšší výkonnost zase umožňuje firemním uživatelům získat po-

SAP HANA

www.experiencesaphana.com



třebné informace prostřednictvím mobil-ních zařízení a v reálném čase. To platí nejen pro databáze, ale i jiné technologie. S podporou in -memory přístupu lze na bázi SAP HANA vyvíjet i jednotlivé apli-kace a SAP tuto iniciativu podporuje.

In -memory technologie usnadňuje or-ganizacím sestavení uceleného přehledu o obchodních datech a není omezována množstvím analyzovaných dat, které se shromažďují v datovém skladu. In -me-mo ry technologie navíc nabízí zvýšenou dostupnost informací, které umožňují ob-chodní rozhodování v reálném čase.

Neustálé technologické pokroky, jako jsou chytré telefony a tablety nebo vyhle-dávače a sociální sítě, změnily způsob, jakým lidé technologie vnímají a jakým způsobem je využívají. Poptávka po aktuálních informacích se neustále zvy-šuje a s tím souvisejí zvýšené požadavky na zpracování neustále narůstajících ob-jemů dat.

SAP HANA nabízí nejlepší možnou al-ternativu k pomalým a nákladným databá-zovým systémům založeným na pevných discích. Společnosti, které adoptují in--memory technologii, získávají skutečnou konkurenční výhodu v podobě zvýšené efektivity, snížení nákladů na IT a zvýšení schopnosti porozumět obchodním datům.

Dva hlavní trendy, kterými jsou klesa-jící pořizovací náklady paměťových médií a masivní systémové architektury s multi-jádrovými procesory, mění svět podniko-vého softwaru tak zásadním způsobem, že se dá svým významem srovnat snad jen s konceptem klient -server architektury. Tak jak tomu bylo v případě přechodu na klient -server architekturu na začátku de-vadesátých let, způsob tvorby softwaro-vých řešení se musí zásadně změnit, tak aby bylo možné využít tyto inovace.

Přidaná hodnota in -memory technolo-gie spočívá i v tom, že umožňuje vznik no-vého přístupu, jakým se dodávají služby zákazníkům. Součástí podnikového dato-vého skladu je proces kopírování, trans-formace a agregace dat, který začíná zpra-cováním dat z transakčních aplikací, jako je ERP, a končí analýzou dat v analytic-kých aplikacích. Jendou z klíčových vlast-ností tohoto procesu je optimalizování výkonu.

V případě změn typů nebo množství analyzovaných dat je IT nuceno provést změny, které mohou trvat několik týdnů. Vysoce výkonná a flexibilní podniková ře-šení založená na in -memory technologii umožňují provést změny tohoto typu v mnohem kratší době.

In -memory computing zvyšuje rychlost a efektivnost existujících řešení a umož-ňuje vznik zcela nových procesů a byznys modelů.

Úspěch SAP HANA v praxiSAP HANA je špičkovým řešením a plat-formou pro práci s rozsáhlými daty v reál-ném čase. Jeho úspěch a kvalitu dokládá i to, že se stal nejrychleji prodávaným ře-šením v celé čtyřicetileté historii SAP. Je-den příklad z praxe za všechny.

Nongfu Spring, největší výrobce bale-ných vod v Číně, má obchodní majetek ve výši zhruba 10 miliard jenů a vlastní desítky závodů. Pro další růst, zvýšení efek tivity a snížení nákladů však společ-nost potřebovala mít k dispozici přístup k aktuálním datům v reálném čase. Vzhle-dem k velkému objemu dat trvala Nongfu Spring práce s daty a vytváření reportů z prodejních míst déle než jeden den. Vedení Nongfu Spring si však uvědomilo výhody plynoucí z použití in -memory technologie v podobě snížení času potřeb-ného na zpracování a dotazování dat a zvolilo si jako databázové řešení SAP HANA. A s výsledkem byla společnost nadmíru spokojena.

Patrick Hoo, CIO Nongfu Spring, do-slova řekl: „SAP HANA je komplexní a so-fistikovaná in -memory databázová plat-forma, která vysoce předčila naše existující řešení založené na Oracle 11g. Se SAP HANA jsme dosáhli tří cílů: extrémně rychlého zobrazení dat, vysoce efektivního provádění operací a synchronizace dat v reálném čase. Například provedení jednoho skriptu je se SAP HANA 200× až 300× rychlejší než při použití PL/SQL skriptu v původním řešení.“

Společnost Nongfu Spring s použitím SAP HANA dokázala snížit čas potřebný na zprocesování postupů a funkcí potřeb-ných pro výpočet dopravného z 24 hodin na 37 sekund, což umožnilo zkrátit proces harmonizace účtů o jeden den. Kromě toho platforma SAP HANA umožnila

Nongfu Spring usnadnit tradiční údržbu IT a problémy s odezvou pomocí prů-běžné synchronizace dat ze SAP systémů a dalších heterogenních datových zdrojů.

Jsou zde ale i další příklady.Společnost Red Bull, která vyrábí známý energetický nápoj, nasadila Business Warehouse na bázi SAP HANA, a v dů-sledku toho se jí kromě enormního zvý-šení rychlosti práce s daty a reportingu podařilo dosáhnout komprese databáze o 80 procent, z 1,5 TB na 250–300 GB. Společnost Lenovo zase plánuje pomocí SAP HANA zpracovávat 1,8 milionu zá-znamů, každý s několika atributy, za méně než jednu sekundu.

Dnes je společnost SAP díky databázo- vé platformě SAP HANA schopna u svých zákazníků v reálném čase analyzovat data v databázích o rozsahu desítek terabajtů. Ale ve spolupráci s IBM už se připravuje řešení schopné adresovat petabajtové pole, a to je teprve začátek. To je také je-den z důvodů, proč je SAP nejrychleji ros-toucí společností na světovém databázo-vém trhu.

Autor je Presales Consultant pro SAP HANA

Změna technologického paradigmatu byla českému publiku představena i v rámci In-memory Summitu pořádaném v květnu předními IT dodavateli


30 B I G DATA 2012

S patřičným výkonem přeměníte big data ve znalostiModerní společnosti v oblasti Web 2.0, bioinformatiky, výroby, financí a mnoha dalších odvětví musí zachytit, uložit a analy-zovat obrovské množství dat a stále častěji nestrukturovaných dat. Porozumění vlastním datům dává organizacím možnost odhalit významné trendy na základě vlastních dat, která jim pomohou zvýšit konkurenceschopnost, inovovat a dosáhnout důležitých rozvojových cílů.

MICHAL KLIMEŠ

Rozsáhlá data jsou součástí high--performance computing (HPC) trhu po celá desetiletí. Co se v poslední

době změnilo, je množství dat generova-ných i mimo obor HPC. Jedním z nejvý-znamnějších zdrojů jsou internet a v po-slední době aplikace sociál-ních sítí.

Dalším zajímavým příkla-dem je výzkum klimatu, který může využívat hetero-genní historické údaje za po-sledních 100 let pro jednu simulační analýzu. Cílem práce s velkými daty je ob-vykle maximalizovat porozu-mění a inovace za použití jak zavedených, tak i novějších metod na stejné vědecké nebo průmyslové problémy.

Narůstá i počet imple-mentace systému pro specia-lizované využití k řešení jedi-ného kritického problému, jako je napří-klad odhalování extrémního rozsahu pod-vodů za použití jedné nebo více novějších analytických metod. Právě pro tyto souvis-losti a podobnosti je dnes oblast big dat vnímána na rozhraní HPC a transakčního zpracování.

Jedním ze současných přístupů je Ha-doop framework pro vytváření datových systémů a pro analýzu dat pomocí rozsáh-lých distribuovaných clusterů. Hadoop je ideální pro velké objemy dat, které lze snadno rozložit do mnoha menších ob-jemů. Společnost SGI již nasadila tisíce

Hadoop serverů na několika svých systé-mových architekturách včetně serverů řady Rackable, CloudRack C2, SGI ICE a 8400.

HadoopHadoop implementuje výpočetní přístup nazvaný MapReduce, v němž je aplikace rozčleněna do mnoha malých fragmentů úloh, z nichž každá může být vykonána nebo znovu spuštěna na jakémkoli uzlu daného clusteru. Hadoop framework transparentně zajišťuje aplikacím jak spo-lehlivost, tak přístup k datům. Kromě toho nabízí také distribuovaný souborový systém, který ukládá data na výpočetních uzlech, což zajišťuje velmi vysokou celko-vou propustnost napříč clusterem.

MapReduce přímo umožňuje distribuo-vané zpracování. Pokud je každá mapovací operace nezávislá na ostatních, mohou být všechny mapovací operace prováděny najednou, i když v praxi jsou limitovány

počtem jednotlivých datových zdrojů a/nebo počtem CPU v blízkosti každého zdroje.

MapReduce může být aplikován na vý-razně větší datové soubory, než jaké doká-žou zvládnout standardní servery. Velký cluster umí využít MapReduce k roztří-dění dat o velikosti petabajtu i více během několika málo hodin. Souběžnost také za-jišťuje obnovu dat po částečných výpad-cích serverů nebo úložišť během operace. Pokud jeden mapovací či redukční krok selže, úloha může být přeplánována za předpokladu, že vstupní data jsou stále dostupná.

Jak MapReduce, tak distribuovaný sou-borový systém jsou vytvořeny tak, aby vý-padky uzlů byly automaticky řešeny

clusterovou infrastrukturou. Díky vel-kému počtu serverů v Hadoop clusteru se očekává, že může dojít k výpadku jednotli-vých uzlů. Infrastruktura Hadoop toto do-káže rozpoznat a je navržena tak, že za-braňuje selhání celého clusteru při se-lhání dílčích uzlů.

Clusterové systémy SGI pro HadoopAplikace Hadoopu se mohou lišit v závis-losti na potřebách I/O, paměti a CPU zdrojů. Ideální serverové konfigurace pro clusterové uzly Hadoopu se velmi liší, ale obecně se doporučuje, aby bylo nasazeno nejméně šest, a pokud možno více jedno-tek s PCI HBA pro dosažení výkonu. Na-příklad různé velikosti a kapacity SATA disků mohou být různě namíchány pro dosažení ideální kombinace výkonu, kapa-city, nákladů a úspory energie.

Pokud jsou lokální disky umístěny na každém uzlu, jako je tomu u Hadoop in-

SGI UV 10

SGI ICE 8400



stalací řady Rackable nebo CloudRack, pak Gigabit Ethernet poskytuje dostateč-nou síťovou propustnost i latenci. Jsou -li na jednom matherboardu k dispozici dvě síťové karty, mohou být propojeny s cílem zvýšit propustnost. Pro některé instalace bylo zvoleno síťové propojení 10GigE kvůli větší propustnosti oproti GigE.

U instalací systémů řady SGI ICE je dostatečná propustnost zajištěna přes pá-teřní Infiniband. Testy, které společnost SGI prováděla, prokázaly, že podobných výsledků bylo dosaženo u aplikací, jež přistupují k vysoce výkonným diskům přes síť Infiniband ve srovnání s disky s nižším výkonem, které jsou k dispozici na lokálním uzlu. Administrativní provoz je oddělen od aplikačního provozu do-datečnou administrativní sítí založenou na GigE.

Hadoop je k dispozici jako sada open sourcových softwarových komponent, které je možné stáhnout na webové strán- ce www.hadoop.apache.org. Doporučo-vaná je verze Hadoopu 0.21.0 či novější, která obsahuje funkční vylepšení a kde jsou opravené chyby z předchozích verzí.

Na základě vztahů SGI s klíčovými po-skytovateli business intelligence (BI) soft-waru přináší SGI Hadoop Cluster refe-renční, implementací prověřený, optima-

lizovaný, ready -to -run Hadoop systém spolu s ekosystémem analytických řešení, která umožňují vývojářům jednodušeji vy-tvářet nejvhodnější BI řešení.

SGI spolupracuje s partnery Kitenga, Datameer, Pentaho a Quantum4D a poskytuje tyto diferencované analy-tické možnosti zákazní-kům z oblasti vládního a finančního sektoru, ze sociálních médií, teleko-munikací a z další klíčo-vých oborů.

SGI a Kitenga nabízí novou generaci Big Data Insight Engine s integro-vaným vyhledáváním, in-formačním modelováním a vizualizačními funk-cemi. Partnerství SGI a Datameer nabízí busi-ness intelligence plat-formu pro Hadoop s integ-rací dat, tabulkovým roz-hraním pro analýzu a vi-zualizaci dat.

Díky tomu je podniko-vým uživatelům umož-něno přistupovat, analyzo-vat a zobrazovat obrovské

Datové centrum HLRN v Berlíně

SGI® UV 1000SGI® UV 1000

objemy dat v tabulkových reportech. SGI spolupracuje také s firmou Pentaho a na-bízí Pentaho Business Analytics, jež vy-užívá grafické ETL prostředí pro vytváření a správu Hadoop MapReduce úloh. Tento software snadno integruje data z jiných zdrojů a poskytuje end -to -end byznys ana-lýzu pro Hadoop včetně reportingu, ad hoc vyhledávání, interaktivních analýz a datové integrace. Spolu s firmou Quan-tum4D nabízí SGI pro Hadoop datové mo-delování a interaktivní vizualizaci dat pro smysluplné využití nabitých poznatků.

SGI řešení pro business intelligenceHadoop je ideální pro velké objemy dat, které lze snadno rozložit. Pokud data ne-lze snadno rozložit, je vhodné použít ke zkopírování všech dat do paměti najednou velký server se sdílenou pamětí jako SGI UV jako součást výpočetního komplexu Hadoop.

Díky velmi nízké latenci propojení může systém SGI UV pracovat na objem-ných datových souborech v reálném čase a je používán pro typy aplikace, jako jsou například odhalování podvodů a bezpeč-nostní analýzy.

Systémová paměť standardních uzlů má omezenou velikost a není logicky sdí-lena. Neexistence jednoho paměťového, dostatečně velkého prostoru pro všechny údaje je pro značnou část big data úloh problém. Místo toho musí být údaje roz-děleny do menších pamětí jednotlivých uzlů. To funguje docela dobře pro výpo-četně náročné problémy, které vykazují pravidelné (tj. snadno členitelné) datové struktury, ale některé výpočetně náročné

nebo rozsáhlé datově náročné problémy zahrnují nepravi-delné struktury a neumožňují rozdělení na jednoduché da-tové celky.

Proto absence velké, glo-bálně sdílené paměti může u některých náročných big data problémů omezit jejich řešitelnost, případně výrazně omezit výkon z důvodu komu-nikačních limitů paměťových subsystémů.

Z těchto důvodů se instituce s nutností spouštět i nejnároč-nější big data problémy už snaží využívat systémy se sdíle-nou pamětí, vysoce převyšující paměťové možnosti standard-ních clusterů.

Autor je managing director Eastern Europe, SGI


32 B I G DATA 2012

Big data budou časem normaDatové potřeby každého z nás budou dál narůstat a ze správy dat se stane klíčové odvětví s očekávaným desetinásobným nárůstem výkonnosti, říká generální manažer společnosti Terracota Gary Nakamura.

SOFT WARE AG

Můžete v krátkosti vysvětlit, jak se díváte na dnes ve všech pá-dech skloňovaný buzz word big data, a podělit se o odhad vývoje trhu s big daty během příštích pěti let?Kromě toho, že jde o buzzword, je to reálný problém dneška. Množství dat zákazníků a partnerů roste exponenciální řadou, že s tím dnes používané technologie nemohou držet krok – nelze škálovat a zároveň zvyšovat výkonnost. Co se týče pre-dikcí trhu – z big, tedy z množství se stane norma pro každého, je jen otázkou času kdy. Datové potřeby kaž-dého z nás dále porostou a ze správy dat se stane klíčové od-větví s očekávaným desetiná-sobným nárůstem výkonnosti.

Společnost SAP tvrdí, že v bu-doucnu hodlá hrát vyznamnou roli na databázovém trhu. Vy jste, na rozdíl od nabídky SAP Hana, zaměřeni pouze na velké java zákazníky. Máte v plánu zúčastnit se ini-ciativ a posunů směrem od OLTP k OLAP?Máme strategii pro vícekaná-lové přístupy a využívání na-šich technologií. Java je dnes jedním ze způsobů, jak využít náš nástroj BigMemory. Ale naše mateřská společnost Software AG nedávno koupila MyChannels, což představuje další možnost (kanály), jakým lze data ukládat a přistupovat k nim z našeho BigMemory řešení. SAP sice říká, že chce v budoucnu hrát významnou roli na databázovém trhu, ale já to v současnosti chápu tak, že SAP funguje pouze s jinými SAP aplikacemi. Samozřejmě, že se mohou snažit to změnit, ale mají před sebou řadu nelehkých úkolů. Na databázovém trhu je Orac le, se kterým se budou potýkat.

Co se týká OLTP versus OLAP iniciativ, myslíme si, že Big-Memory může oboje spojit. Takže namísto nutnosti extrahovat z OLTP do OLAP budete mít jednu společnou vrstvu, ve které budete mít data v paměti a budete schopni analyzovat, tak dělat transakce z jednoho společného datového uložiště. A právě tam vidíme v budoucnu místo pro BigMemory.

Když vezmete v úvahu ostatní dodavatele v oblasti big dat, co považujete za největší konkurenční výhodu řešení, jako je BigMemory?BigMemory má dvě zásadní konkurenční výhody. Za prvé, po-třebnou výkonnost můžete škálovat. Hodně lidi si myslí, že dnes

zpracováváme hodně dat, ale znovu, takové velikosti dat budou za pět let normou. Rychlost, se kterou budeme schopni pracovat s big daty, bude pro zákazníky to podstatné a to, co budou očeká-vat od řešení pro správu dat v budoucnu. Za druhé, pro imple-mentaci BigMemory není potřeba žádný speciální hardware. Po-užívá se běžně dostupný hardware, třeba HP, Dellu nebo jiných komoditních doda vatelů.

Spolupráce se Software AG

Terracotta byla minulý rok koupena integrační společností Software AG, ale stále působí, na rozdíl od jiných akvizicí Software AG, nezávisle. Existují něj aké plány na integraci Terracotta do Software AG?Máme v plánu integrovat produktovou řadu Terracotta mezi ná-stroje Softwa re AG. Dneska fungujeme jako nezávislá společnost, protože se zaměřujeme na in -memory správu dat. Společně s ko-

legy ze Software AG hledáme příležitosti, jak využívat technolo-gie pro in -memory computing v kmenových produktech jako jsou například řada pro process intelligence, nástroje pro kom-plexní zpracovávání událostí (CEP), integrační servery a další.

Na jaře na CeBITu 2012 Software AG oznámila svou strategii pro in -memory správu dat. Můžete nám přiblížit, jakou úlohu v ní představují technologie Terracotta?Data Management 2.0 je společná strategie pro Terracottu i Soft-ware AG. Cítíme obrovský potenciál, jak posouvat dál společ-nosti, které budou schopny využívat data ze společně přístup-ného paměťového úložiště a které využijí hodnoty, které se skrý-vají ve velkých objemech dat, ve svých strategiích, podobně jako při využití Hadoop frameworku.

BigMemory

Je BigMemory jediný produkt, který budete nabízet pro big data? Jak vlastně spolu souvisejí?Dnes je BigMemory naší vlajkovým produktem, ale v budoucnu svou roli vidíme v analytice. S využitím komplexního zpracová-

Naši zákazníci běžně implementují BigMemory jeden až dva týdny, říká generální manažer spol. Terracota Gary Nakamura



vání událostí (CEP) a zmíněným vícekanálovým přístupem bu-dou moci zákazníci rychle analyzovat jak v reálném čase, tak dávkově z dat, jejichž velké objemy budou uloženy v paměti (in--memory). Takže odpověď zní: Ne, není to jediný produkt pro big data, který budeme nabízet.

Můžete popsat obvyklý postup při nasazení BigMemory? Kolik času potřebujete na typickou implementaci?Naši zákaznici běžně implementují jeden až dva týdny a prů-měrná doba pro finální nasazení je kratší než 90 dní od samotné implementace do produkce. Samozřejmě, složitější projekty mo-hou trvat trochu déle, ale tohle je obvyklý časový rámec, který umožňuje poměrně rychlou návratnost investic.

Část Terracotta technologií se vyvíjí v open source modelu. Jak je to vlastně s verzováním BigMemory, máte v plánu další verze? Můžete se vyjádřit k vašemu přístupu k open source v bu-doucnosti?Některé komponenty nástroje BigMemory jsou opensourcové, jako například Ehcache a Quartz, zatímco jiné jsou proprietární a jsou vyvinuty kompletně u nás. Ještě pro tento rok, počínaje podzimem, představíme několik významných novinek, které bu-dou velmi zajímavé pro trh s big data a pro kohokoli, kdo se snaží řešit s problémy datovou výkonností.

Hodláme v budoucnu dál investovat do komunit kolem Quartz a Ehcache a bude me přidávat nové funkcionality a chceme být prospěšní ve světě open source.

Je to velikost společnosti, co určuje vaše in -memory zákazníky? Jaké jsou jiné faktory, kterými byste popsal zákazníky společ-nosti Terracotta?Ne, není to velikost nebo odvětví, co je podstatné. Naši zákaz-níci jsou třeba z oblastí financí, ale i ze zábavního průmyslu nebo herního odvětví. Je to kdokoli, kdo má datově náročné aplikace a jednoznačné požadavky na celkovou výkonnost, které musejí být plněny okamžitě. Vlastně zákazníkem může být ten, kdo se potřebuje spolehnout na řešení, které ho podpoří při jeho růstu.

Na vašich webových stránkách uvádíte zákazníky jako Adobe, BBC, JP Morgan, takže trochu velké ryby. Hodí se vaše řešení také pro menší či střední firmy? Můžete zmínit nějaká jména?Určitě – našimi zákazníky jsou třeba Alt Ego, Omnifone nebo Oil Deck… Mohl bych pokračovat dál, ale problémy s výkon-ností a škálováním nejsou vyhrazené pouze pro největší z nej-větších společností. Pro přežití jakékoli společnosti, bez ohledu na velikost, je potřeba dosahovat výkonnosti a škálovat stej-nými způsoby, jako to dělají ony velké ryby – a naše řešení je i pro ně.

Myslíte si, že nedostatek standardů v oblasti big dat a cloud technologií může být překážkou, při integracích, které zákazníci potřebují?Nemyslím si to. Pro big data existuje pár de facto standardů. Pro analytiku s big daty byste se měli poohlédnout po Hadoop fra-meworku a jeho standardním rozhraní. V případě databázových technologií lidé mají tendenci zůstat u SQL. Pro ukládání v pro-storu big dat se pravděpodobně uchytí NFS. Pravděpodobně se příliš „nevykročí z řady“, co se týká přístupu k datům. Nenazval bych to „nedostatek standardů“, protože tu nějaké standardy jsou a není to žádný divoký západ.

V cloudech je to ovšem jiná hra, tam se nedá opřít o žádné z „legacy“ řešení pro správu dat, jako jsou rozhraní nebo NFS, takže to pravděpodobně v oblasti cloudu bude trochu kompliko-vanější než v oblasti big data.

10 důvodů, proč pracovat s daty v in -memoryIT experti souhlasí: operační paměť RAM je nový disk. Stále více společností přesouvá svá data do operační paměti – mimo disková úložiště a vzdálené relační databáze. Data jsou přesně tam, kde se s nimi pracuje a kde běží aplikace. Nabízíme 10 hlavních důvodů, proč začít s in -memory technologiemi.

1 Ohromující rychlosti Přístup do paměti je realizován v mikrose-kundách. To znamená, že důležitá data máte dostupná v reálném

čase, 100× rychleji než při přístupu k datům na diskovém úložišti, které je dostupné přes síť.

2 Vyšší propustnost Výrazně nižší latence vede k výrazně vyšší propustnosti. Organizace, které pracují s velkým množstvím

transakcí, mohou při využití in -memory zvětšit množství zpracováva-ných dat bez navyšování výpočetního výkonu.

3 Zpracovávání v reálném čase Pro některé aplikace, jako jsou například detekce zneužívání (fraud), online obchodování nebo

monitorování sítě, mohou mít zpoždění v řádu sekund či milisekund nedozírné následky. Pro tyto aplikace je akceptovatelný pouze oka-mžitý přístup k datům, která mohou být zpracována při obrovské rychlosti.

4 Rychlejší analýzy Proč čekat hodiny na reporty, které jsou se-staveny ze starých dat? S in -memory daty můžete analyzovat

v reálném čase. Rozhodovat se pak budete rychleji a na základě ak-tuálních informací.

5 Padající ceny pamětí Během několika let jsme zaznamenali vý-razný pokles cen operačních pamětí RAM. Dnes můžete koupit

server pracující s 96 GB paměti za méně než sto tisíc korun, in--memory práce s daty tak dává smysl po technické i obchodní stránce.

6 Servery s množstvím paměti Výrobci hardware přidávají stále více paměti. Dnešní terabajtové servery jsou stavěné na zpraco-

vávání obrovských toků dat, v in -memory samozřejmě, které gene-rují mobilní zařízení, webové stránky, různé senzory a jiné zdroje.

7 In -memory datový sklad In -memory datový sklad může hrát ústřední roli ve správě, agregaci, distribuci a neustálé dostup-

nosti BIG dat (data, se kterými obtížně pracují tradiční databáze) a to při rychlosti, kterou poskytují dnešní paměti.

8 Snadné pro vývojáře Neexistuje snadnější způsob jak ukládat data než v jejich nativní podobě v paměti. Nejsou potřeba žádná

komplexní API, knihovny nebo rozhraní a mizí i strasti způsobené konverzí do relačního nebo sloupcového formátu.

9 Očekáváno zákazníky In -memory data uspokojí potřeby „nutně a hned teď“ všech zákazníků nebo lidí z byznysu. Ať už žádají

rychlejší hledání, rychlejší webové služby nebo okamžitý přístup k více relevantním informacím.

10 Změny podnikání In -memory data vytvářejí další příležitosti pro inovaci byznysu. Společnosti mohou změnit přístup, ana-

lýzu a reakci na zpracování dat. Mohou vybudovat něco, co přináší výhody ze všech stran.


34 B I G DATA 2012

LUBOŠ MUSIL

Již dlouhou dobu je normální součástí obecného povědomí fakt, že „data jsou bohatství společnosti“. Integrace struk-

turovaných dat v řadě organizací vedla před mnoha lety k datovým úložištím s objemem dat od jednotek terabajtů až po desítky petabajtů, přesto jsme tato úložiš- tě neoznačovali pojmem „big data“. Proč?

Důvodem bylo a je to, že jde o vysoce strukturovaná relační data, kdy každý de-tailní záznam a jeho části měly a mají svoji jasně určitelnou informační hod-notu. Objem dat, řádově v petabajtech, je zpravidla dán růstem velikosti těchto spo-lečností v globálním ekonomickém pros-toru, kde není neobvyklé mít desítky až stovky milionů zákazníků, navíc s velice složitým předmětem obchodní činnosti.

Oproti tomu informační hodnota ne-strukturovaných a semistrukturovaných dat není v každém jednotlivém znaku či slově datového záznamu, ale je jen v ně-kterých záznamech nebo ve vybraných částech některých záznamů. Navíc se po-hled na to, co pro mě hodnotu má nebo nemá, v čase mění. To vede k ukládání mnohem většího množství dat s nižší in-formační hodnotou na jednotku objemu. Jinými slovy, musím ukládat i data, u kte-rých dopředu vůbec není zřejmé, zda je vůbec bude možné využít. Tento přístup k řešení spadá do kategorie „big data“.

Potřeba rozboru takto velkých objemů dat tohoto typu se opírá o požadavky na analýzy nových datových zdrojů (např. clickstream data, web logy, senzorová data, mikrotransakční data, social media data atd.), nové typy analýz (pattern matching, grafová analýza, textová ana-lýza atd.) a nové vlastnosti úložiště (filo-sofie data scientist, interaktivní analýzy).

Povaha nestrukturovaných a semistruk-turovaných dat má za následek nejenom jiné způsoby zpracování, ale i rostoucí tlak na úsporu nákladů spojených s uklá-dáním těchto enormních objemů. Je zřejmé, že nelze tato data ukládat způso-

bem analogickým s relačními databázemi.Podívejme se ilustrativně, jak vypadá

datový záznam ve weblogu jednoho klik-nutí na e -shop (obrázek dole vlevo).

Jaké informace lze z tohoto záznamu získat? Známe všechny požadavky na vytě-žení informací v tomto okamžiku? Mají všechny znaky datového záznamu infor-mační hodnotu? Kdo a jak informace v zá-

znamech vyhledá? Jaké jsou s tím spojené náklady? Jak budou zabezpečeny funkč-nost a výkon řešení?

Odpovědí na uvedené požadavky a otázky byl již v roce v roce 2001 vznik nové koncepce masivně paralelního ře-šení – technologie MapReduce. V roce 2006 vznikla první open source imple-mentace MapReduce pod označením Hadoop. Reálné využití MapReduce před-pokládá velké množství kvalitních progra-mátorů, dávkové zpracování ohromných objemů dat a nízký počet současně přistu-pujících uživatelů (dáno technologickými omezeními).

Oproti relačním databázím chybějí pro-

středí umožňující práci analytikům (ne-existovalo SQL rozhraní), podpora inter-aktivní práce s rychlou odezvou a integ-race na desítky analytických nástrojů. Existuje zřetelná mezera mezi možnostmi využití obou světů.

Částečnou odpovědí na tuto mezeru byl vznik nadstavby Hive nad Hadoop řešením. Úplnou odpovědí byl až v roce 2008 vznik řešení Asterdata s patentova-ným rozhraním MapReduce/SQL. Poté, co se řešení Asterdata stalo v roce 2011 součástí ekosystému „Purpose built“ plat-forem Teradata, vzniklo integrované ana-lytické prostředí pokrývající kompletní množinu dnes známých analytických ře-šení přes všechny obvyklé typy dat.

Aster dataOproti jiným MapReduce realizacím ana-lytická platforma Asterdata poskytuje:

Podporu pro správu a analýzu nových typů a zdrojů dat. Aster data kombinuje relační data, semistrukturovaná data, jako jsou web logy (viz příklad), události, sí-ťové vazby, hybridní řádky a sloupce.

Patentovaný SQL -MapReduce fra-mework pro podporu zabudovaného para-lelního processingu jednotlivých analytic-kých aplikací napsaných v různých pro-gramovacích jazycích dostupných ze stan-dardního SQL rozhraní.

Zabudované MapReduce paralelní prostředí s integrovanou správou a podpo-rou procesů data governance.

Integrovanou množinu nástrojů pro rychlý vývoj, testování a přesun do produkce včetně grafického vývojového prostředí, knihovny předpřipravených analytických modulů pro programátory a analytiky. Zákazníci mohou jednoduše a paralelně použít existující analytické funkce vytvořené v rozdílných progra-

Big data v (nejen) marketinguSpolečnost Teradata roz šiřuje portfolio řešení o Asterdata MapReduce platformu.

Základní komponenty Asterdata řešení

Java Presentation

Logic

.NET Presentation

Logic

Packaged App Presentation

Logic

Other Presentation

Logic

BI Tool Presentation

Logic

Aster Data nCluster

Unified Interface

High Volume, Fast Querying

SQL SQL-MapReduce

Massively-Parallel Data Store App

Dynamic Workload Manager (WLM)

Data Data Data Data

5

4

App 3

2

1

3 App

Data

Business Intelligence

Tools

App

Packaged Analytics

Applications

Other Applications (R,C,C++,Python,…)

Custom .NET Applications

Custom Java Applications

Data

App App App

Data

App

Data

6



movacích jazycích v jedné Asterdata in-stanci.

Schéma ilustruje koncepci Asterdata řešení a jeho základní komponenty. Ře-šení je instalovatelné na vybrané servery komoditního hardwaru (viz body 1 a 2) (existuje i varianta kompaktního Aster-data appliance řešení). Na vybraných serverech je instalován MapReduce frame work včetně analytických aplikací vyvinutých v Java, .Net, C++ apod. (viz bod 3). Paralelní framework má integro-vanou dynamickou správu systémových zdrojů (viz bod 4). Uživatelské rozhraní a aplikace jsou ve schématu označeny čísly 5 a 6.

Asterdata se může pochlubit některými jedinečnými vlastnostmi:

Podpora nových typů analýz: přináší framework podporující analýzy, jako jsou vzorová „pattern“ analýza a grafová ana-lýza, které jsou obtížně proveditelné v SQL relační databáze. Tyto analýzy pod-porují nové typy aplikací přinášející zcela nové užitné hodnoty.

Zrychlení vývoje analýz: analytická ar-chitektura kombinuje předdefinovanou knihovnu analytických modulů, grafické vývojové prostředí s podporou testování. Podpora široké množiny programovacích jazyků včetně C, C++, C#, Java, Python, Perl a R zjednodušuje a zrychluje vývoj po-kročilých analytických funkcí.

Vysoký výkon a rozšiřitelnost: systém je navržen jako paralelní a rozšiřitelný s výkonným jádrem pro řešení složitých analýz, um ožňuje výzkum dat současně s jejich zpracováním a umí identifikovat nové a měnící se vzory chování.

Nákladově -efektivní big data ana-lýzy: užívá komoditní hardware poskytu-jící nižší náklady než jiné alternativy.

V rámci „Purpose build“ rodiny Tera-data platforem je Asterdata chápána jako platforma pro analýzy nových datových zdrojů a datových typů. Výstupy analýz jsou užívány samostatně nebo se integrují do datového skladu, kde obohacují pohled na obchodní procesy společnosti.

Hlavní oblasti použití Sociální sítě a analýza vztahů: Id enti-

fikace sociálních vztahů a vazeb. Výstupy podporují především aplikace pro marke-ting, risk a fraud.

Detekce podvodů a prevence: On--line analýzy transakcí, komunikačních

interakcí a dalších souvisejících dat pro detekci a prevenci podvodného jednání.

Optimalizace digitálního marke-tingu: Analýza událostí vznikajících v různých typech komunikačních kanálů. Cílem je zpřesnění pochopení chování zá-kazníků, na základě kterého jsou optima-lizovány procesy personalizovaného mar-ketingu a obchodu. Analýzy nestrukturo-vaných a semistrukturovaných dat přiná-šejí právě v této oblasti největší užitek, jak bude ukázáno v následujících odstav-cích podrobněji.

Řešení pro digitální marketingJednou z klíčových výzev dnešního marke-tingu je schopnost synchronní práce na-příč všemi komunikačními kanály společ-nosti. Jednotlivé kanály generují velké množství rozmanitých datových záznamů s odlišnou strukturou a datovými typy. Mnoho existujících řešení se obvykle za-měřuje pouze na jeden komunikační ka-nál nebo na více kanálů odlišně. Oddělená analýza dat jednotlivých kanálů zvyšuje složitost řešení a způsobuje zpoždění, které snižuje efektivitu marketingových a obchodních procesů.

Vlastní koncepce řešení sestává z ana-lytické datového platformy Asterdata, ná-strojů pro analýzu dat a nástrojů podporu-jících komunikaci v jednotlivých kaná-lech. Asterdata jako analytická platforma umožňuje uložení a analýzy rozdílných typů dat z on -line a off -line kanálů v jed-nom úložišti.

Díky podpoře semistrukturovaných dat jsou ukládána a analyzována i data ze soci-álních sítí, tj. textové řetězce z vyhleda-vačů, blogů či tweetů a URL adresy. To vše s definovaným SLA, které se u on -line ka-nálů blíží real -time. Koncepce eliminuje potřebu předzpracování dat, což umožňuje analytikům identifikovat přirozené klíče a vazby pro provázání různorodých dat.

Charakteristika řešení Identifikace a analýza kompletní ko-

munikační cesty se zákazníkem napříč veškerými komunikačními kanály z jed-noho uložení dat.

Schopnost získávání informací z dat on -line a off -line kanálů v definovaných časech vede k eliminaci ztráty obchodně důležitých informací, což přináší vyšší efektivitu podpory marketingových a ob-chodních procesů.

Rychlé a výkonné analýzy s limitova-nou potřebou předpočítání dat a s využi-tím Asterdata Unpack a Parse funkcí.

Řešení pro digitalní marketing je jedno z prvních, které ukazuje byznys hodnotu řešení obohaceného o informace z analýzy nestrukturovaných dat. Výsledkem je přes-nější a efektivnější komunikace s klientem přinášející jeho vyšší loajalitu a rozvoj ob-chodní spolupráce.

V tomto roce vzniká řada nových řešení v kategorii Big data. Důvodem začlenění do této kategorie je charakter řešení, ni-koliv velikost dat. Stále platí, že největší dnes existující datové sklady o velikostech řádu desítek petabajtů řadíme do kategorie strukturovaných datových skladů.

Popis řešení Asterdata, reference, případové studie a další informace najdete na www.asterdata.com

Autor je business development, Teradata

Jak zpřístupnit byznys uživatelům analýzy nestrukturovaných dat v big data platformě?

Digitální marketing – koncepce řešení

THESQL

GAP

ANSWER

THESQL

GAP

SQL/MRANSWER

THESQL

GAP

SQL/MR

ANSWER


36 B I G DATA 2012

Velká data vyžadují špičková datová centraSvěřit data a procesy do rukou jiné společnosti vyžaduje jistě důvěru. Každého asi nejprve napadnou otázky jako budou má data opravdu v bezpečí? Budu k nim mít vždy zajištěný přístup? A co se kolem nich vlastně celý rok děje?

MARTIN SOUČEK

Datová centra společnosti Telefónica Czech Republic jsou vysoce bezpeč- ná, sofistikovaná prostředí speciálně

vybudovaná pro provoz síťových a infor-mačních infrastruktur. Jsou založena na kvalitních a robustních mezinárodních standardech. Využívají špičkové technolo-gie umožňující nabídnout prostor pro umístění i těch nejkritičtějších aplikací s vysokou dostupností. Data jsou chráněna proti útoku zvenčí, budovy jsou střeženy, prostory monitorovány.

Datová centra společnosti Telefónica Czech Republic dnes nabízejí mnohem více než jen prosté umístění a provoz vlastních serverů – stále větším hitem se stávají tzv. řízené služby. Telefónica Czech Republic má v poskytování řízených ICT služeb velmi dlouhou tradici. Housin-gové služby poskytuje už déle než deset let, řízený hosting, přesněji řečeno služby ICT infrastruktury, již čtvrtým rokem a nyní jsou součástí nabídky např. služby virtualizace serverů. Kvalita a vlastnosti řízených služeb, které Telefónica posky-tuje, je již dnes v souladu s požadavky kla-denými na cloud computing.

V nedávné době byl kupříkladu uveden do provozu portál virtuálního datového centra O2 Cloud, který klientům umož-ňuje on -line vytvářet vlastní virtuální ser-very včetně propojení do sítí a v širokých mezích nastavovat jejich výpočetní výkon, použitou paměť a diskový prostor. Billin-gový systém umožňuje sledovat a účtovat množství parametrů virtuálních strojů třeba i včetně jejich podílu na celkové spotřebě energie. Doba zřízení služby se neustále zkracuje. Vybudování virtuálního datového centra pro zákazníka může být díky němu otázkou jen několika desítek minut. Jednodušší řešení může konfiguro-vat specialista O2 přímo u klienta.

Celkově dnes Telefónica nabízí řízené služby, které jsou na špici světových trendů. Již tři z nich, O2 Cloud, O2 Důvě-ryhodný archiv a O2 Virtuální desktop, získaly prestižní ocenění časopisu Com-puterworld IT produkt roku.

K zákazníky nejvyužívanějším patří ze-jména:

řízené datové úložiště (O2 Managed Data Storage),

řízené zálohování a obnovení dat (O2 Managed Backup and Restore),

řízené hostovaní důvěryhodného ar-chivu (O2 Hosted Trusted Archive).

Služby řízeného datového úložiště po-skytují technické zázemí a zařízení pro ukládání zákaznických dat. Disková kapa-cita, rychlost, stupeň zabezpečení a ostatní parametry jsou navrženy přesně na míru podle požadavků zákazníka. Pro zvýšení bezpečnosti dat lze využít doplňu-jící služby zrcadlení dat na záložní disky.

Služby kompletního řízeného záloho-vání, obnovy a archivace dat zahrnují po-skytování diskové kapacity, zálohovacího softwaru, služeb kvalifikovaného perso-nálu, administrace diskových systémů a dalších nezbytných prostředků se záru-kou dostupnosti, ochrany a zabezpečení úložišť.

Důvěryhodný archiv poskytuje služby dlouhodobého uchovávání dokumentů se zachováním validity v souladu s poža-davky stávající legislativy. Vydáním certifi-kátu 1100949 potvrdil Státní elektrotech-nický zkušební ústav, že důvěryhodné úlo-žiště O2 splňuje požadavky norem ISO z hlediska zabezpečení a šifrování dat a současně odpovídá platným legislativ-ním požadavkům kladeným na archivaci dokumentů.

CertifikaceDosud byla centra Telefóniky označována jako „vyhovující standardu Tier 3+“ podle metodiky Uptime Institute. V průběhu le-tošního roku společnost hodlá jako první v České republice oficiální certifikaci zís-kat. Datová centra jsou na ni plně připra-vena.

Jinou důležitou certifikací, k níž v blízké době Telefónica směřuje, je certi-fikace PCI DSS. Jde o certifikaci, kterou vyžadují instituce nakládající s bankov-ními informacemi a daty, zejména posky-tovateli služeb platebních karet. Současně probíhají přípravy na další certifikace, které jsou nezbytnou podmínkou pro po-skytování služeb zákazníkům pracujícím s velmi citlivými informacemi. Vlastní certifikační procesy jsou plánovány na druhou polovinu roku.

Základem je spolehlivý dodavatel řízených služebTelefónica historicky poskytuje vysoce kvalitní telekomunikační i datové služby, disponuje kvalitní komunikační infra-strukturou, špičkovými datovými centry

a týmy vysoce kvalifikovaných a erudova-ných špičkových odborníků s rozsáhlými zkušenostmi, kteří zajistí optimalizaci i provoz telekomunikačních i ICT sy-stémů.

Patří mezi Fortune Top 30 firem a ně-kolikrát byla zařazena mezi Top 10 nej-větších systémových integrátorů v České republice. Roční investice skupiny do vý-zkumu a vývoje činí 588 milionů eur. Jen v České republice zaměstnává přes 200 špičkových odborníků. Jako prime partner poskytuje jedinou platformu zajiš-ťující vzájemnou kompatibilitu všech komponent řešení, jednu výslednou cenu, jednotnou zákaznickou péči.

Autor je produktový manažer pro cloudové služby společnosti Telefónica

O2 Exclusive a ICTO2 Exc



Výkonná datová infrastruktura pro nejnáročnější prostředíProstředí s vysokými datovými požadavky vyžadují moderní systém správy a pokročilá řešení, která zajistí rychlý, bezpečný a spolehlivý přístup k datům. Ideální řešení pro moderní aplikace, které vyžadují přístup k datům v reálném čase a schopnost řešit nejsložitější výzvy v oblasti dat, představuje datová infrastruktura VMware vFabric GemFire.

MICHAL STACHNÍK

Vývoj IT prostředí postupuje neustále kupředu a moderní aplikace se stále více orientují na web, jsou datově

náročnější a ze své podstaty dynamičtější. Výsledkem výše zmíněných pro-měn je potřeba moderního pří-stupu ke správě dat. Zatímco první generace webových apli-kací tolerovala časově náročný proces ukládání a opětovného načtení dat z databází, moderní aplikace vyžadují zcela odlišný přístup, který je pro novou ge-neraci aplikací nejen nejvhod-nější, ale zároveň bere v úvahu nasazení v rámci nejvyspělej-ších virtuálních infrastruktur.

Pokud firmy chtějí spravovat pokročilé systémy s velkými da-tovými nároky efektivně a s při-měřenými náklady na provoz, musí se spolehnout na skutečně profesionální řešení, které se plně přizpůsobí požadavkům daného systému.

To potvrzuje i Jerry Chen, viceprezi-dent pro cloud a služby aplikací ve společ-nosti VMware: „Éra cloudu urychluje pro-měnu aplikací. V dnešní době má většina aplikací open source vývojové rámce, běží na virtuální infrastruktuře a je datově náročná. Proto naši zákazníci mění technologie pro vybudování, zprovoznění a správu těchto no-vých aplikací.“

Společnost VMware nabízí svým zákaz-níkům řešení VMware vFabric GemFire, výkonnou datovou infrastrukturu, která byla původně navržena pro nejnáročnější prostředí s vysokými datovými požadavky,

jako jsou finanční služby. Řešení zajistí rychlý, bezpečný, spolehlivý a škálova-telný přístup k datům s podporou moder-ních podnikových a cloudových aplikací.

GemFire je jednou z hlavních součástí cloudové platformy pro aplikace VMware vFabric a jejím úkolem je umožnit doru-čení vysoce výkonných aplikací, které ob-sahují obrovské množství dat a jsou nepře-

tržitě v provozu bez ohledu na to, kolik koncových uživatelů je právě využívá. GemFire je ideálním řešením pro moderní aplikace, které vyžadují přístup k datům v reálném čase a schopnost řešit nejsloži-tější výzvy v oblasti dat.

Moderní správa datŘešení VMware vFabric GemFire nabízí celou řadu funkcí a vlastností, které zajistí snadnou a efektivní správu i velmi datově náročných prostředí. Možnost souběž-ných transakcí napříč datovou texturou pro nadstandardně rychlou propustnost dat a speciální konstrukce pro zajištění nízké latence vedou k vyšší výkonnosti a spolehlivosti dat v paměti.

Pro přehlednost a snadnou kontrolu prostředí je řešení GemFire vybaveno po-kročilým systémem oznámení, které rychle a spolehlivě upozorní na změny

v datech a probíhající události. Aplikace jsou ne-přetržitě a automaticky aktualizovány daty z pa-měti, takže není nutné zdržovat proces načítáním dat z databází.

Replikace dat v rámci uzlů a clusterů zajistí vy-sokou dostupnost a díky tzv. shared nothing archi-tektuře – nulovému sdí-lení jakékoliv součásti sy-stému – nemůže selhání disku v jednom uzlu vy-ústit ve ztrátu dat.

Díky integraci s rám-cem Java Spring mohou vývojáři rychle vytvářet aplikace, které využívají správu distribuovaných

dat GemFire. Tato integrace velmi zjedno-dušuje programování aplikací využívají-cích moderní architektury, které jsou v cloudových prostředích stále běžnější.

Škálovatelnost a provozní efektivitaK důležitým vlastnostem řešení patří vy-soká škálovatelnost. Ta je umožněna dyna-mickým rozdělením dat v rámci celého sy-tému, které vyrovnává zátěž. Škálování v rámci vzdálených míst při zachování vý-konu, spolehlivosti a konzistence zajišťujeWAN technologie (Wide Area Networking).

Pro správu datové infrastruktury vFab-ric GemFire lze využít více různých způ-sobů – příkazový řádek, Java Management Extensions (JMX) Agent nebo GFMon, monitorovací nástroj ve formě grafického uživatelského rozhraní.

Autor je country manager společnosti VMware pro Českou republiku a Slovensko

Klíčové vlastnosti Extrémně rychlý, vysoce dostupný a škálovatelný přístup k datům pro moderní aplikace Souběžné transakce pro nadstandardně rychlou propustnost dat Nízká latence Replikace dat v rámci uzlů a clusterů pro vysokou dostupnost Spolehlivá upozornění na probíhající procesy – při změně dat se aplikace automaticky aktualizují „Shared nothing“ systém pro zamezení ztráty dat v případě selhání disku v jednom uzlu Podpora sdílení dat mezi Java, C++ a C# aplikacemi WAN škálování při zachování výkonu, spolehlivosti a konzistence Nepřetržité dotazování aktualizuje výsledky s nízkou latencí


38 B I G DATA 2012

UCELENÝ INFORMAČNÍ ZDROJ PRO IT PROFESIONÁLY

Vydává: IDG Czech Republic, a. s., Seydlerova 2451, 158 00 Praha 5

Tel. ústředna s aut. provolbou: 257 088 + linka; fax: 235 520 812 Recepce: 257 088 111 Výkonný ředitel: RNDr. Jana Pelikánová Šéfredaktor: Radan Dolejš Tajemnice redakce: Růžena Holíková, tel.: 257 088 143 Vedoucí inzertního odd.: Ing. Jitka Vyhlídková, tel.: 257 088 181 Vedoucí projektu: Radan Dolejš, tel.: 257 088 142 Jazyková úprava: Dana Štropová, Vladimíra Bezecná Obálka: Petr Kubát Adresa redakce: CW, Seydlerova 2451, 158 00 Praha 5 Internet: [email protected] Zlom a pre-press: TypoText, s. r. o., Praha Tisk: Libertas, a. s. Předplatné a reklamace: IDG Czech Republic, a. s., Seydlerova 2451, 158 00 Praha 5, tel.: 257 088 163, fax 235 520 812; e-mail: [email protected] Doručuje Česká pošta, s. p., v systému D + 1 Předplatné pro Slovensko: Magnet-Press Slovakia, s. r. o.,

P.O.BOX 169, 830 00 Bratislava, tel.: +421 267 201 910, 20, 30, e-mail: [email protected]

Copyright: © 2012 IDG Czech Republic, a. s.

Člen asociace FIPP

SEZNAM INZERUJÍCÍCH FIREM

ABACUS ELECTRIC ...............................................................................18, 19www.abacus.cz

Citrix Systems .......................................................................................... 15www.citrix.cz

EMC Czech Republic ............................................................................20, 21www.emc.com

Fujitsu Technology Solutions ................................................................... 22www.fujitsu.com/cz

GTS Czech ................................................................................ 23, 2. obálkawww.gts.cz

IBM Česká republika ........................................................................... 24, 25www.ibm.com/cz

MICROSOFT ..............................................................................................26www.microsoft.cz

NetApp .................................................................................................... 27www.netapp.com

SAP ČR ............................................................................................... 28, 29www.sap.com/cz

SILICON GRAPHICS ..............................................................................30, 31www.sgi.cz

SOFTWARE AG .....................................................................................32, 33www.softwareag.com/cz

Telefónica Czech Republic ........................................................................36www.o2.cz

Teradata Česká republika ................................................................... 34, 35www.asterdata.com

VMware .................................................................................................... 37www.vmware.com/cz

YFA .............................................................................................................5www.itregatta.cz

Příležitost pro IT profesionályNové pojetí práce s velkými objemy dat přináší i nové velké pracovní příležitosti pro IT pracovníky.

PAVEL LOUDA , BRIAN PROFFITT

Pozice datového vědce (data scientist), o které se v souvis-losti s big daty hovoří nejčastěji, má vesměs základ v počíta-čové vědě nebo matematické analýze. Datoví vědci jsou ze

své podstaty lidé, kteří jsou přirozeně zvědaví, kteří jsou schopni hledat v datech nějaké souvislosti, mohou objevit případné trendy, a proto pro své zaměstnavatele představují klíčovou postavu.

Datoví vědci díky zkušenostem nemají s přivykáním na plat-formu jako Hadoop příliš velké problémy. To se však nedá říci o klasickém správci databází, pro kterého může být přechod na řešení pro big data náročnější. Je to především kvůli tomu, že distribuovaný souborový systém se od tradičního způsobu uklá-dání databázové tabulky v RDBMS zásadně liší.

Pozice datového vědce stala velmi populární i ve vyhledávačích Googlu – například v prvním čtvrtletí tohoto roku byl výskyt to-hoto dotazu až dvacetinásobný oproti předchozím obdobím.

Složitost řešení Hadoop v tomto směru je určitě velkou pře-kážkou pro potenciální správce. Složení frameworku z různých komponent Hadoopu totiž s sebou přináší nutnost zvládnout spoustu různých prvků najednou. Uživatelé nesmějí čekat žádné nablýskané uživatelské rozhraní. Hadoop, Hive, Sqoop a další nástroje ekosystému Hadoop se ovládají z příkazové řádky a vzhledem k tomu, že Hadoop je založen na jazyku Java a Ma-pReduce využívá třídy Java, pro spoustu interakcí se velmi hodí vývojářské zkušenosti (zejména pokud je odborníkem na plat-formu Java).

Většina pracovních pozic souvisejících s platformou Hadoop typicky vyžaduje zkušenost s velkými distribuovanými systémy či jasné chápání návrhu a vývoje systému s ohledem na škálování, výkon a plánování.

Kromě zkušeností v Javě by měli být programátoři pro novou éru big dat praktičtí a měli by mít dobré zkušenosti v oblasti da-tových struktur a paralelních programovacích technik. Zkuše-nost s cloudem libovolného druhu je rovněž velkým plusem.

Možnosti vzděláváníTo je relativně hodně požadavků, takže systémoví inženýři a ad-ministrátoři, kteří chtějí naskočit na palubu Hadoopu či jiných nových platforem, budou nutné projít intenzivním školením. Například Hortonworks nabízí třídenní školení s názvem Admi-nistering Apache Hadoop. Cloudera zase poskytuje kurz aktivní správy jako součást svého studijního plánu Cloudera University.

K dispozici jsou také další školení pro Hive, Pig a podobně. Další školení lze najít na wiki stránkách podpory Hadoopu umís-těných přímo na webu organizace Apache.

IBM zase nedávno zveřejnila svůj e -learningový projekt Big Data University, jež je cílen na vzdělávání začínajících i pokroči-lých uživatelů v oblasti big dat a Hadoopu. Zaregistrovaly se do ní už desetitisíce lidí - k dispozici je jim velké množství on -line studijních programů.

Hadoop je levný – ale vyžaduje mít ve firmě někoho, kdo tomu rozumí. A právě proto big data představují pro talentované IT pracovníky velkou příležitost. ■


NAHLÉDNĚTE POD POKLIČKU BUSINESS TECHNOLOGIÍ

WWW.BUSINESSWORLD.CZIT strategie pro manažery

Předplatné si můžete objednat e-mailem na adrese [email protected] nebo prostřednictvím on-line formuláře http://idg.cz/tituly/businessworld/predplatne, případně též telefonicky na čísle +420 257 088 163.

I D G C Z E C H R E P U B L I C A . S . , S E Y D L E R O V A 2 4 5 1 , 1 5 8 0 0 P R A H A 5 ; T E L . : + 4 2 0 2 5 7 0 8 8 1 1 1 ; F A X : + 4 2 0 2 5 7 0 8 8 1 7 4 ;E - M A I L : b u s i n e s s w o r l d @ i d g . c z ; W E B : w w w . b u s i n e s s w o r l d . c z

Objednejte si roční předplatné za cenu 570 Kč.Obdržíte:

11 × CIO Business World a navíc jako bonus 5 × HD World (atraktivní magazín o moderní spotřební elektronice a trendech s ní souvisejících) + Prestižní příloha TOP 100 ICT

Díky globálním informačním zdrojům celosvětové sítě IDG a možnosti využívat analýz sesterské společnosti IDC přinášíme:

kvalitní informace o nových technologiích a efektivním řízení podnikové informatiky

nejnovější ekonomické trendy a analýzy

praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy

CIO je publikován ve 21 zemích světa

Jako když BIčem mrskáBusiness intelligence ve vysokoškolském vzdělávání

Stuxnet do každé továrnyZabezpečení systémů pro řízení výroby má vážné slabiny

Trendy ve výroběKam směřují informační systémy ve výrobních podnicích

České IT v roce 2012:

(Ne)jisté vyhlídkyPohled na aktuální stav ICT infrastruktury v českých podnicích

ÚNOR 2012 | ČÍSLO 2WWW.BW.CZ | WWW.CIO.CZ

100 Kč | 4,32

9 771803 732009

0 2ISSN 1803-7321

12_01_bw1202_obal_def.indd 1 13.1.2012 19:17:57

BigData-2012-obalka.indd ob3 BigData-2012-obalka.indd ob3 21.6.12 8:2221.6.12 8:22

Kódpojišťovny RECEPT

Údaje platné pro celý recept (výpis, pohotovost, repetatur s počtem opakování, nutná a neodkladná péče, atd.)

poř. č.

Místo (adresa) Malostranský palác, Praha

Název konference ICT ve zdravotnictví 2012

Datum konání 1 8 0 9 2 0 1 2

Vydal:P ipravil:

f.

Popl. Diagnóza *) Sk. Kód Započ. dopl. Úhrada


Rp.

Rp.

Organizátor:

Razítko poskytovatele,jmenovka, podpis a telefon léka e

*) Vyplňuje se povinně v případě zvýšené úhrady.

• Stát, legislativa, vzd lávání• Zdravotní dokumentace, identi kace,

platební systémy• Zdravotní informa ní a komunika ní sí ,

komunikace a technologie • Elektronické registry, databáze• Zdravotnictví a informa ní spole nost• TeleCare – asistovaná zdravotní

a sociální pé e

IDG Czech Republic Seydlerova 2451, Poliklinika Lípa, Praha 5

dr. Vratislav Pavlík primář konferencewww.idg.cz

www.eventworld.cz



poř. č.


Název konference ICT ve zdravotnictví 2012

Datum konání 1 8 0 9 2 0 1 2

Vydal:P ipravil:

f.



Rp.

Rp.

Organizátor:

Razítko poskytovatele,

jmenovka, podpis a telefon léka e


• Stát, legislativa, vzd lávání• Zdravotní dokumentace, identi kace,

platební systémy• Zdravotní informa ní a komunika ní sí ,

komunikace a technologie • Elektronické registry, databáz

e

• Zdravotnictví a informa ní spole nost

• TeleCare – asistovaná zdravotní

a sociální pé e

IDG Czech Republic Seydlerova 2451, Poliklinika Lípa, Praha 5

dr. Vratislav Pavlík primář konference

www.idg.cz

www.eventworld.cz

P



poř. č.


Název konference ICT ve zdravotnictví 2012Datum konání 1 8 0 9 2 0 1 2

Vydal:P ipravil:

f.



Rp.

Rp.

Organizátor:

Razítko poskytovatele,jmenovka, podpis a telefon léka e


• Stát, legislativa, vzd lávání• Zdravotní dokumentace, identi kace, platební systémy• Zdravotní informa ní a komunika ní sít , komunikace a technologie • Elektronické registry, databáze• Zdravotnictví a informa ní spole nost• TeleCare – asistovaná zdravotní a sociální pé e

IDG Czech Republic Seydlerova 2451, Poliklinika Lípa, Praha 5 dr. Vratislav Pavlík primář konferencewww.idg.czwww.eventworld.cz



poř. č.


Název konference ICT ve zdravotnictví 2012Datum konání 1 8 0 9 2 0 1 2 f.

Popl. Diagnóza *) Sk. Kód Započ. dopl. ÚhradaRp. • Stát, legislativa, vzd lávání

• ZZddrraavvoottnníí ddookkuummeennttaaccee,, iiddeennttii kkaaccee,, g

ppllaatteebbnníí ssyyssttéémmyy• ZZdrraavotní iinnffoorrmmaa nníí aa kkoommuuunnniiikkkaaa nnnííí sssíííttt ,,,

p y y

l

ICT ve zdravotnictví 20126. ročník odborné konference a výstavy o elektronickém zdravotnictví, informačních a komunikačních technologiích jako nástrojích pro efektivní organizaci zdravotnictví, prevenci, diagnostiku a léčbu, monitorování zdravotního stavu a minimalizaci zdravotních hendikepů pacienta

ICT_konference_210x295_inzerat.indd 1 6/19/12 8:52 PM BigData-2012-obalka.indd ob4 BigData-2012-obalka.indd ob4 21.6.12 8:2221.6.12 8:22

Date post:	11-Jul-2020
Category:	Documents
Upload:	others
View:	1 times
Download:	0 times

Bigdata · Bigdata pro začátečníky a pokročilé Bigdata_def.indd 7 6/21/12 3:25 PM Bez...

Documents