+ All Categories
Home > Software > Webinar Degetel DataStax

Webinar Degetel DataStax

Date post: 09-Jan-2017
Category:
Upload: victor-coustenoble
View: 398 times
Download: 0 times
Share this document with a friend
44
Webinar Degetel - DataStax Révolution dans la gestion de la data Du SQL au NoSQL : Pourquoi ? Différences ? Comment ça marche ? 13/10/2015
Transcript
Page 1: Webinar Degetel DataStax

Webinar Degetel - DataStaxRévolution dans la gestion de la dataDu SQL au NoSQL : Pourquoi ? Différences ? Comment ça marche ?

13/10/2015 

Page 2: Webinar Degetel DataStax

Table de matières

• Mot d’accueil • Les nouveaux métiers de la gestion de la

DATA• Introduction• Quand la base de données devient un

problème • Pourquoi Cassandra et Comparaison SGBDR• Apache Cassandra • DataStax Enterprise• Cas d’Utilisation • Questions / Réponses

Page 3: Webinar Degetel DataStax

Mot d’accueil

Georges KLENKLEDirecteur Général

Page 4: Webinar Degetel DataStax

Degetel Pure player de l’innovation, du digital et de la mobilité

1999CRÉATION DE LA SOCIETÉ

400COLLABORATEURS

36 m€DE CHIFFRE D’AFFAIRES

+100CLIENTS ACTIFS

63%DU CA EFFECTUÉ DANS LE CAC 40

NoSQLDEPUIS 2010

Page 5: Webinar Degetel DataStax

GroupeTimeline

NoSQL Cassandra

Page 6: Webinar Degetel DataStax

Groupe Pure player de l’innovation, du digital et de la mobilité

Mobile

Web

Conseil

Cloud Computing

Transformation SI

Social media

Design

IOT

Big dataNos partenaires

Nos métiers

Page 7: Webinar Degetel DataStax

les nouveaux métiers de la gestion de la Data

Le big data : « c'est avant tout la capacité à extraire de l'information à partir de données non structurées ».

Jean-Charles Cointot et  Yves Eychenne,  La Revolution Big Data

  Aujourd’hui l'enjeu n’est plus d’extraire les données, mais consiste à transformer ces informations en actions, comme le lancement d'un nouveau produit ou le développement de nouveaux services.

L’incidence est une mutation des métiers du Big data et Degetel s’y inscrit en recrutant les meilleurs profils de ces nouveaux métiers :• Data scientist• Chief data officer• Data protection officer • Master data manager • Chief Marketing Technologist

Page 8: Webinar Degetel DataStax

les nouveaux métiers de la gestion de la Data

- 190 000MCKINSEY PRÉVOIT UN DÉFICIT DE -140 000 À -190 000 DATA SCIENTIST D’ICI 2018 AUX ETATS UNIS

137 000EMPLOIS EN FRANCE GRÂCE AU BIG DATA À L’HORIZON 2020 (src:economie.gouv.fr)

27%SELON GARTNER 27% DES ORGANISATIONS AURONT UN CHIEF DATA OFFICER EN 2017

3 chiffres clés à horizon 2020 :

Page 9: Webinar Degetel DataStax

Introduction

Page 10: Webinar Degetel DataStax

Document confidentiel

10

DataStax délivre une plateforme de la base de données Apache Cassandra, conçue spécifiquement pour les besoins en Performance et Disponibilité exigés par les applications d’Internet des Objets, Web ou Mobiles, en offrant aux entreprises une base de données Sécurisée toujours disponible, qui reste Simple à administrer même pour des déploiements à grande échelle, dans un seul ou de Multiples Data Centers et dans le Cloud.

Page 11: Webinar Degetel DataStax

Document confidentiel

11

Page 12: Webinar Degetel DataStax

Quand la base de données devient un problème

Page 13: Webinar Degetel DataStax

Document confidentiel

Qu’est ce qui change aujourd’hui ?

13

Page 14: Webinar Degetel DataStax

Document confidentiel

14

La troisième vague des bases de données

©2015 DataStax Confidential. Do not distribute without consent.

Page 15: Webinar Degetel DataStax

Document confidentiel

Application “classique”– ok pour les SGBDR

15

• Données sur une seule machine• Support d’accès concurrents• ACID rend le travail confortable• Scalabilité verticale

Page 16: Webinar Degetel DataStax

Document confidentiel

16

SGBDR pour le “Big Data” OLTP ou Analytique ?

Page 17: Webinar Degetel DataStax

Document confidentiel

Replication: ACID ?

17

Page 18: Webinar Degetel DataStax

Document confidentiel

La 3ème forme normale ne scale pas

18

• Impossible de prédire les requêtes

• Les utilisateurs ne veulent plus attendre

• Les données doivent être dénormalisées

• Si les données ne tiennent pas en mémoire…

• Les recherches sur disques sont coûteuses

(SELECT CONCAT(city_name,', ',region) value, latitude, longitude, id, population, ( 3959 * acos( cos( radians($latitude) ) * cos( radians( latitude ) ) * cos( radians( longitude ) - radians($longitude) ) + sin( radians($latitude) ) * sin( radians( latitude ) ) ) ) AS distance, CASE region WHEN '$region' THEN 1 ELSE 0 END AS region_match FROM `cities` $where and foo_count > 5 ORDER BY region_match desc, foo_count desc limit 0, 11) UNION (SELECT CONCAT(city_name,', ',region) value, latitude, longitude, id, population, ( 3959 * acos( cos( radians($latitude) ) * cos( radians( latitude ) ) * cos( radians( longitude ) - radians($longitude) ) + sin( radians($latitude) ) * sin( radians( latitude ) ) ) ) AS distance, CASE region WHEN '$region' THEN 1 ELSE 0 END AS region_match FROM `cities` $where ORDER BY region_match desc, population desc, distance asc limit 0, 11) limit 0, 11;

Page 19: Webinar Degetel DataStax

Document confidentiel

Le partitionnement est un “cauchemar”

19

• Données stockées sur différentes machines• Pas de jointures, pas d’agrégats• Tout est dénormalisé• Requêtage via un index secondaire doit taper sur

toutes les partitions• Ajouter des partitions demande un déplacement de

données • Changement de schema

Page 20: Webinar Degetel DataStax

Document confidentiel

Très Haute Disponibilité ?

20

• Failover du Master … qui est responsable?– Architectures complexes– “Bricolage” du code

• Compléxité du Multi-Data Center• Arrêt de services fréquents•Changement des settings de la base de données– Défaillance des disques …– Mises à jour OS et logiciel …

Page 21: Webinar Degetel DataStax

Document confidentiel

Résumé des “problèmes”

21

• La montée en charge est difficile• L’Acidité n’est pas tout le temps assurée• Le re-partionnement est un processus manuel• Il faut dénormaliser pour les performances• La très haute disponible est complexe et

demande des composants additionnels

Page 22: Webinar Degetel DataStax

Document confidentiel

Leçons retenues

22

• Dans la pratique la cohérence n’est pas assuréeAbandon

• Le partionnement et le re-balancing sont difficilesRéalisé et Intégré

• Chacune des parties rend le système plus complexeArchitecture Simplifiée – pas de Maître/Esclave

• La scalabilité verticale coûte chère“Commodity Hardware”

• Scatter / gather no goodDernomalisation pour les performancesRequête sur 1 seule machine

Page 23: Webinar Degetel DataStax

Pourquoi Apache Cassandra et comparaison SGBDR

Page 24: Webinar Degetel DataStax

Document confidentiel24

Pourquoi de pas utiliser Oracle ?

©2014 DataStax Confidential. Do not distribute without consent.

Versus

Page 25: Webinar Degetel DataStax

Apache Cassandra

Page 26: Webinar Degetel DataStax

Document confidentiel

 

Cassandra - La Base de Données Distribuée leader

Bordeaux

Paris

Marseille

C *

C *

C *C *

Toujours DisponibleDistribution géographiquePerformance reconnue Extensibilité prédictible Simplicité OpérationnelleSéries Temporelles

26

Page 27: Webinar Degetel DataStax

Document confidentiel27

Apache Cassandra™• Apache Cassandra™ = Base de données NoSQL, Open Source, Distribuée et créée

pour les applications en ligne, modernes, critiques et avec des montée en charge massive.

• Java, hybride entre Amazon Dynamo et Google BigTable• Sans Maître-Esclave, sans Point Unique de Défaillance (Single Point Of Failure)• Distribuée avec la possibilité de Centres de Données (Data Center)• 100% Disponible• Massivement scalable• Montée en charge linéaire• Haute Performance• Simple à Exploiter

©2014 DataStax Confidential. Do not distribute without consent.

Dynamo

BigTable

BigTable: http://research.google.com/archive/bigtable-osdi06.pdfDynamo: http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf

Node 1

Node 2

Node 3Node 4

Node 5

Page 28: Webinar Degetel DataStax

Document confidentiel

Montée en charge linéaire

Plus de données ? Ajout de noeudsBesoin de plus de débit? Ajout de noeuds

http://techblog.netflix.com/2011/11/benchmarking-cassandra-scalability-on.html

Page 29: Webinar Degetel DataStax

Document confidentiel29

Cassandra @ Netflix• 90+ Clusters• 5000+ noeuds• 4 Data Centres (Régions

Amazon)• > 1 Trillion transactions par jourhttp://planetcassandra.org/functional-use-cases/

Exemple de Montée en Charge

©2014 DataStax Confidential. Do not distribute without consent.

Utilisation• Films regardés?• Qu’avez vous regardé avant et après?• Où vous avez fait pause?• Qu’est ce que vous avez arrêté après 5 minutes?• ….

Page 30: Webinar Degetel DataStax

Document confidentiel

Nodes Down != Database DownDatacenter Down != Database DownUpgrade != Database Down

Haute Disponibilité

Page 31: Webinar Degetel DataStax

Document confidentiel31

Défaillance d’un Noeud

• La défaillance d’un seul noeud ne doit pas entraîner de défaillance du système• Facteur de Réplication + Niveau de Cohérence = Succès• Exemple:

– RF = 3– CL = QUORUM

©2014 DataStax Confidential. Do not distribute without consent.

Node 11st copy

Node 4

Node 5Node 22nd copy

Node 33rd copy

ParallelWrite

WriteCL=QUORUM

5 μs ack

12 μs ack

12 μs ack

>51% de réponses – donc la requête est réussie

Page 32: Webinar Degetel DataStax

Document confidentiel32

Configuration en Data Center

©2014 DataStax Confidential. Do not distribute without consent.

Node 11st copy

Node 4

Node 5 Node 22nd copy

Node 33rd copy

Node 11st copy

Node 4

Node 5 Node 22nd copy

Node 33rd copy

DC: EUROPEDC: USA

• Actif partout – lecture/écriture dans tous les DC• Le client écrit localement dans un DC• Données synchronisées à travers le WAN• Facteur de Réplication par DC

Utilisations• DC de sauvegarde• Distribution

géographique• Charge différente

entre DC• Prod -> Pré-prod

Page 33: Webinar Degetel DataStax

Document confidentiel

Cloud & Cloud Hybride• DataStax Enterprise et Cassandra sont disponibles en multi-data

center et dans le cloud (Amazon AWS, Google Cloud et Microsoft Azure)• Les données écrites dans n’importe quel noeud sont aussi

automatiquement et de manière transparente écrites sur tous les autres noeuds dans les autres data centers sans ETL

Data Centre 1 Data Centre 2

Public Cloud

Page 34: Webinar Degetel DataStax

Document confidentiel

Exemple de déploiement

Cassandra fonctionne aussi bien pour des petits que pour des déploiements énormes!

Déploiement Cassandra chez Apple

• 75 000+ noeuds• 10’s petabytes de données• Millions ops/second• Plus gros cluster à 1000+ noeuds

Apple Inc.: Cassandra at Apple for Massive ScaleVideo https://www.youtube.com/watch?v=Bc4ql9TDzyg

From Cassandra Summit, London, December 2014

Page 35: Webinar Degetel DataStax

DataStax Enterprise

Page 36: Webinar Degetel DataStax

Document confidentiel

Straightening the road

RELATIONAL DATABASESCQL SQL

OpsCenter / DevCenter Management toolsDSE for search & analytics IntegrationSecurity Security

Support, consulting & training 30 years ecosystem

Page 37: Webinar Degetel DataStax

Document confidentiel

DataStax Enterprise

In-MemoryOption de base de données en mémoire pour le stockage en RAM et non plus sur disque de certaines données pour un accès encore plus rapide.

SearchFonctionnaliés de recherche sur des données Cassandra via Apache Solr. Fonctionnalités avancées et performante sur de gros volumes.Analytics

Intégration de frameworks analytiques tels que Spark et Hadoop pour des analyses temps-réel ou en mode batch.

SupportSupport 24x7 avec des hot-fixes et des revues de performance.

Visual AdminUn outil visuel “DataStax OpsCenter” pour la supervision et l’administration d’un cluster Cassandra et DataStax.

Management ServicesServices d’administration automatique et suivi des performances.

Cassandra CertifiedUne version de Apache Cassandra certifiée, supportée et prête pour l’entreprise.

SecurityFonctionalités de sécurité d’entreprise comme le chiffrement des données sur disques, des traces d’audit et une authentification externe via Kerberos, LDAP/Active Directory

Puissance pour le Développement

Robustesse et Support pour la Production

Page 38: Webinar Degetel DataStax

Document confidentiel

Le futur de DataStax Enterprise

38

Page 39: Webinar Degetel DataStax

Cas d’Utilisation

Page 40: Webinar Degetel DataStax

Document confidentiel

DataStax Enterprise + DataWarehouse / Hadoop

© 2014 DataStax, All Rights Reserved.

Company Confidential

Write IntensiveInternet of Things - Activity logs for

fraud and recommendation – Messages

40

Read Intensive Catalogue – Playlist –

Recommendation – Fraud Alert – Personalization

Operational Search, Dashboard and Reporting

Offline ApplicationsHistorical Analysis - OLAP -

Complex Analytics – Self Service BI

Operational Search, Dashboard and Reporting

Data WarehouseHadoop cluster Computation EngineMultidimensional Cube

Page 41: Webinar Degetel DataStax

Document confidentiel

Des clients sur tous les verticaux

Page 42: Webinar Degetel DataStax

Document confidentiel

Cas d’usage fréquents

Messagerie

Catalogue/Playlists

Détection de Fraude

Recommandation/ Personnalisation

Objets connectés/ Données de Capteurs

Page 43: Webinar Degetel DataStax

Document confidentiel

Plus d’information

• DataStax: http://www.datastax.com

• Downloads: http://www.datastax.com/download

• Documentation: http://www.datastax.com/docs

• Developer Blog: http://www.datastax.com/dev/blog

• Academy: https://academy.datastax.com/

• Community Site: http://planetcassandra.org

©2014 DataStax Confidential. Do not distribute without consent.

Page 44: Webinar Degetel DataStax

Questions/Réponses

Merci!

Georges KLENKLEDirecteur Géné[email protected]

Victor CoustenobleIngénieur [email protected]


Recommended