Webinar Degetel DataStax

Post on 09-Jan-2017

398 views 0 download

transcript

Webinar Degetel - DataStaxRévolution dans la gestion de la dataDu SQL au NoSQL : Pourquoi ? Différences ? Comment ça marche ?

13/10/2015 

Table de matières

• Mot d’accueil • Les nouveaux métiers de la gestion de la

DATA• Introduction• Quand la base de données devient un

problème • Pourquoi Cassandra et Comparaison SGBDR• Apache Cassandra • DataStax Enterprise• Cas d’Utilisation • Questions / Réponses

Mot d’accueil

Georges KLENKLEDirecteur Général

Degetel Pure player de l’innovation, du digital et de la mobilité

1999CRÉATION DE LA SOCIETÉ

400COLLABORATEURS

36 m€DE CHIFFRE D’AFFAIRES

+100CLIENTS ACTIFS

63%DU CA EFFECTUÉ DANS LE CAC 40

NoSQLDEPUIS 2010

GroupeTimeline

NoSQL Cassandra

Groupe Pure player de l’innovation, du digital et de la mobilité

Mobile

Web

Conseil

Cloud Computing

Transformation SI

Social media

Design

IOT

Big dataNos partenaires

Nos métiers

les nouveaux métiers de la gestion de la Data

Le big data : « c'est avant tout la capacité à extraire de l'information à partir de données non structurées ».

Jean-Charles Cointot et  Yves Eychenne,  La Revolution Big Data

  Aujourd’hui l'enjeu n’est plus d’extraire les données, mais consiste à transformer ces informations en actions, comme le lancement d'un nouveau produit ou le développement de nouveaux services.

L’incidence est une mutation des métiers du Big data et Degetel s’y inscrit en recrutant les meilleurs profils de ces nouveaux métiers :• Data scientist• Chief data officer• Data protection officer • Master data manager • Chief Marketing Technologist

les nouveaux métiers de la gestion de la Data

- 190 000MCKINSEY PRÉVOIT UN DÉFICIT DE -140 000 À -190 000 DATA SCIENTIST D’ICI 2018 AUX ETATS UNIS

137 000EMPLOIS EN FRANCE GRÂCE AU BIG DATA À L’HORIZON 2020 (src:economie.gouv.fr)

27%SELON GARTNER 27% DES ORGANISATIONS AURONT UN CHIEF DATA OFFICER EN 2017

3 chiffres clés à horizon 2020 :

Introduction

Document confidentiel

10

DataStax délivre une plateforme de la base de données Apache Cassandra, conçue spécifiquement pour les besoins en Performance et Disponibilité exigés par les applications d’Internet des Objets, Web ou Mobiles, en offrant aux entreprises une base de données Sécurisée toujours disponible, qui reste Simple à administrer même pour des déploiements à grande échelle, dans un seul ou de Multiples Data Centers et dans le Cloud.

Document confidentiel

11

Quand la base de données devient un problème

Document confidentiel

Qu’est ce qui change aujourd’hui ?

13

Document confidentiel

14

La troisième vague des bases de données

©2015 DataStax Confidential. Do not distribute without consent.

Document confidentiel

Application “classique”– ok pour les SGBDR

15

• Données sur une seule machine• Support d’accès concurrents• ACID rend le travail confortable• Scalabilité verticale

Document confidentiel

16

SGBDR pour le “Big Data” OLTP ou Analytique ?

Document confidentiel

Replication: ACID ?

17

Document confidentiel

La 3ème forme normale ne scale pas

18

• Impossible de prédire les requêtes

• Les utilisateurs ne veulent plus attendre

• Les données doivent être dénormalisées

• Si les données ne tiennent pas en mémoire…

• Les recherches sur disques sont coûteuses

(SELECT CONCAT(city_name,', ',region) value, latitude, longitude, id, population, ( 3959 * acos( cos( radians($latitude) ) * cos( radians( latitude ) ) * cos( radians( longitude ) - radians($longitude) ) + sin( radians($latitude) ) * sin( radians( latitude ) ) ) ) AS distance, CASE region WHEN '$region' THEN 1 ELSE 0 END AS region_match FROM `cities` $where and foo_count > 5 ORDER BY region_match desc, foo_count desc limit 0, 11) UNION (SELECT CONCAT(city_name,', ',region) value, latitude, longitude, id, population, ( 3959 * acos( cos( radians($latitude) ) * cos( radians( latitude ) ) * cos( radians( longitude ) - radians($longitude) ) + sin( radians($latitude) ) * sin( radians( latitude ) ) ) ) AS distance, CASE region WHEN '$region' THEN 1 ELSE 0 END AS region_match FROM `cities` $where ORDER BY region_match desc, population desc, distance asc limit 0, 11) limit 0, 11;

Document confidentiel

Le partitionnement est un “cauchemar”

19

• Données stockées sur différentes machines• Pas de jointures, pas d’agrégats• Tout est dénormalisé• Requêtage via un index secondaire doit taper sur

toutes les partitions• Ajouter des partitions demande un déplacement de

données • Changement de schema

Document confidentiel

Très Haute Disponibilité ?

20

• Failover du Master … qui est responsable?– Architectures complexes– “Bricolage” du code

• Compléxité du Multi-Data Center• Arrêt de services fréquents•Changement des settings de la base de données– Défaillance des disques …– Mises à jour OS et logiciel …

Document confidentiel

Résumé des “problèmes”

21

• La montée en charge est difficile• L’Acidité n’est pas tout le temps assurée• Le re-partionnement est un processus manuel• Il faut dénormaliser pour les performances• La très haute disponible est complexe et

demande des composants additionnels

Document confidentiel

Leçons retenues

22

• Dans la pratique la cohérence n’est pas assuréeAbandon

• Le partionnement et le re-balancing sont difficilesRéalisé et Intégré

• Chacune des parties rend le système plus complexeArchitecture Simplifiée – pas de Maître/Esclave

• La scalabilité verticale coûte chère“Commodity Hardware”

• Scatter / gather no goodDernomalisation pour les performancesRequête sur 1 seule machine

Pourquoi Apache Cassandra et comparaison SGBDR

Document confidentiel24

Pourquoi de pas utiliser Oracle ?

©2014 DataStax Confidential. Do not distribute without consent.

Versus

Apache Cassandra

Document confidentiel

 

Cassandra - La Base de Données Distribuée leader

Bordeaux

Paris

Marseille

C *

C *

C *C *

Toujours DisponibleDistribution géographiquePerformance reconnue Extensibilité prédictible Simplicité OpérationnelleSéries Temporelles

26

Document confidentiel27

Apache Cassandra™• Apache Cassandra™ = Base de données NoSQL, Open Source, Distribuée et créée

pour les applications en ligne, modernes, critiques et avec des montée en charge massive.

• Java, hybride entre Amazon Dynamo et Google BigTable• Sans Maître-Esclave, sans Point Unique de Défaillance (Single Point Of Failure)• Distribuée avec la possibilité de Centres de Données (Data Center)• 100% Disponible• Massivement scalable• Montée en charge linéaire• Haute Performance• Simple à Exploiter

©2014 DataStax Confidential. Do not distribute without consent.

Dynamo

BigTable

BigTable: http://research.google.com/archive/bigtable-osdi06.pdfDynamo: http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf

Node 1

Node 2

Node 3Node 4

Node 5

Document confidentiel

Montée en charge linéaire

Plus de données ? Ajout de noeudsBesoin de plus de débit? Ajout de noeuds

http://techblog.netflix.com/2011/11/benchmarking-cassandra-scalability-on.html

Document confidentiel29

Cassandra @ Netflix• 90+ Clusters• 5000+ noeuds• 4 Data Centres (Régions

Amazon)• > 1 Trillion transactions par jourhttp://planetcassandra.org/functional-use-cases/

Exemple de Montée en Charge

©2014 DataStax Confidential. Do not distribute without consent.

Utilisation• Films regardés?• Qu’avez vous regardé avant et après?• Où vous avez fait pause?• Qu’est ce que vous avez arrêté après 5 minutes?• ….

Document confidentiel

Nodes Down != Database DownDatacenter Down != Database DownUpgrade != Database Down

Haute Disponibilité

Document confidentiel31

Défaillance d’un Noeud

• La défaillance d’un seul noeud ne doit pas entraîner de défaillance du système• Facteur de Réplication + Niveau de Cohérence = Succès• Exemple:

– RF = 3– CL = QUORUM

©2014 DataStax Confidential. Do not distribute without consent.

Node 11st copy

Node 4

Node 5Node 22nd copy

Node 33rd copy

ParallelWrite

WriteCL=QUORUM

5 μs ack

12 μs ack

12 μs ack

>51% de réponses – donc la requête est réussie

Document confidentiel32

Configuration en Data Center

©2014 DataStax Confidential. Do not distribute without consent.

Node 11st copy

Node 4

Node 5 Node 22nd copy

Node 33rd copy

Node 11st copy

Node 4

Node 5 Node 22nd copy

Node 33rd copy

DC: EUROPEDC: USA

• Actif partout – lecture/écriture dans tous les DC• Le client écrit localement dans un DC• Données synchronisées à travers le WAN• Facteur de Réplication par DC

Utilisations• DC de sauvegarde• Distribution

géographique• Charge différente

entre DC• Prod -> Pré-prod

Document confidentiel

Cloud & Cloud Hybride• DataStax Enterprise et Cassandra sont disponibles en multi-data

center et dans le cloud (Amazon AWS, Google Cloud et Microsoft Azure)• Les données écrites dans n’importe quel noeud sont aussi

automatiquement et de manière transparente écrites sur tous les autres noeuds dans les autres data centers sans ETL

Data Centre 1 Data Centre 2

Public Cloud

Document confidentiel

Exemple de déploiement

Cassandra fonctionne aussi bien pour des petits que pour des déploiements énormes!

Déploiement Cassandra chez Apple

• 75 000+ noeuds• 10’s petabytes de données• Millions ops/second• Plus gros cluster à 1000+ noeuds

Apple Inc.: Cassandra at Apple for Massive ScaleVideo https://www.youtube.com/watch?v=Bc4ql9TDzyg

From Cassandra Summit, London, December 2014

DataStax Enterprise

Document confidentiel

Straightening the road

RELATIONAL DATABASESCQL SQL

OpsCenter / DevCenter Management toolsDSE for search & analytics IntegrationSecurity Security

Support, consulting & training 30 years ecosystem

Document confidentiel

DataStax Enterprise

In-MemoryOption de base de données en mémoire pour le stockage en RAM et non plus sur disque de certaines données pour un accès encore plus rapide.

SearchFonctionnaliés de recherche sur des données Cassandra via Apache Solr. Fonctionnalités avancées et performante sur de gros volumes.Analytics

Intégration de frameworks analytiques tels que Spark et Hadoop pour des analyses temps-réel ou en mode batch.

SupportSupport 24x7 avec des hot-fixes et des revues de performance.

Visual AdminUn outil visuel “DataStax OpsCenter” pour la supervision et l’administration d’un cluster Cassandra et DataStax.

Management ServicesServices d’administration automatique et suivi des performances.

Cassandra CertifiedUne version de Apache Cassandra certifiée, supportée et prête pour l’entreprise.

SecurityFonctionalités de sécurité d’entreprise comme le chiffrement des données sur disques, des traces d’audit et une authentification externe via Kerberos, LDAP/Active Directory

Puissance pour le Développement

Robustesse et Support pour la Production

Document confidentiel

Le futur de DataStax Enterprise

38

Cas d’Utilisation

Document confidentiel

DataStax Enterprise + DataWarehouse / Hadoop

© 2014 DataStax, All Rights Reserved.

Company Confidential

Write IntensiveInternet of Things - Activity logs for

fraud and recommendation – Messages

40

Read Intensive Catalogue – Playlist –

Recommendation – Fraud Alert – Personalization

Operational Search, Dashboard and Reporting

Offline ApplicationsHistorical Analysis - OLAP -

Complex Analytics – Self Service BI

Operational Search, Dashboard and Reporting

Data WarehouseHadoop cluster Computation EngineMultidimensional Cube

Document confidentiel

Des clients sur tous les verticaux

Document confidentiel

Cas d’usage fréquents

Messagerie

Catalogue/Playlists

Détection de Fraude

Recommandation/ Personnalisation

Objets connectés/ Données de Capteurs

Document confidentiel

Plus d’information

• DataStax: http://www.datastax.com

• Downloads: http://www.datastax.com/download

• Documentation: http://www.datastax.com/docs

• Developer Blog: http://www.datastax.com/dev/blog

• Academy: https://academy.datastax.com/

• Community Site: http://planetcassandra.org

©2014 DataStax Confidential. Do not distribute without consent.

Questions/Réponses

Merci!

Georges KLENKLEDirecteur Généralgklenkle@degetel.com

Victor CoustenobleIngénieur Solutionsvictor.coustenoble@datastax.com