Date post: | 09-Jan-2017 |
Category: |
Software |
Upload: | victor-coustenoble |
View: | 398 times |
Download: | 0 times |
Webinar Degetel - DataStaxRévolution dans la gestion de la dataDu SQL au NoSQL : Pourquoi ? Différences ? Comment ça marche ?
13/10/2015
Table de matières
• Mot d’accueil • Les nouveaux métiers de la gestion de la
DATA• Introduction• Quand la base de données devient un
problème • Pourquoi Cassandra et Comparaison SGBDR• Apache Cassandra • DataStax Enterprise• Cas d’Utilisation • Questions / Réponses
Mot d’accueil
Georges KLENKLEDirecteur Général
Degetel Pure player de l’innovation, du digital et de la mobilité
1999CRÉATION DE LA SOCIETÉ
400COLLABORATEURS
36 m€DE CHIFFRE D’AFFAIRES
+100CLIENTS ACTIFS
63%DU CA EFFECTUÉ DANS LE CAC 40
NoSQLDEPUIS 2010
GroupeTimeline
NoSQL Cassandra
Groupe Pure player de l’innovation, du digital et de la mobilité
Mobile
Web
Conseil
Cloud Computing
Transformation SI
Social media
Design
IOT
Big dataNos partenaires
Nos métiers
les nouveaux métiers de la gestion de la Data
Le big data : « c'est avant tout la capacité à extraire de l'information à partir de données non structurées ».
Jean-Charles Cointot et Yves Eychenne, La Revolution Big Data
Aujourd’hui l'enjeu n’est plus d’extraire les données, mais consiste à transformer ces informations en actions, comme le lancement d'un nouveau produit ou le développement de nouveaux services.
L’incidence est une mutation des métiers du Big data et Degetel s’y inscrit en recrutant les meilleurs profils de ces nouveaux métiers :• Data scientist• Chief data officer• Data protection officer • Master data manager • Chief Marketing Technologist
les nouveaux métiers de la gestion de la Data
- 190 000MCKINSEY PRÉVOIT UN DÉFICIT DE -140 000 À -190 000 DATA SCIENTIST D’ICI 2018 AUX ETATS UNIS
137 000EMPLOIS EN FRANCE GRÂCE AU BIG DATA À L’HORIZON 2020 (src:economie.gouv.fr)
27%SELON GARTNER 27% DES ORGANISATIONS AURONT UN CHIEF DATA OFFICER EN 2017
3 chiffres clés à horizon 2020 :
Introduction
Document confidentiel
10
DataStax délivre une plateforme de la base de données Apache Cassandra, conçue spécifiquement pour les besoins en Performance et Disponibilité exigés par les applications d’Internet des Objets, Web ou Mobiles, en offrant aux entreprises une base de données Sécurisée toujours disponible, qui reste Simple à administrer même pour des déploiements à grande échelle, dans un seul ou de Multiples Data Centers et dans le Cloud.
Document confidentiel
11
Quand la base de données devient un problème
Document confidentiel
Qu’est ce qui change aujourd’hui ?
13
Document confidentiel
14
La troisième vague des bases de données
©2015 DataStax Confidential. Do not distribute without consent.
Document confidentiel
Application “classique”– ok pour les SGBDR
15
• Données sur une seule machine• Support d’accès concurrents• ACID rend le travail confortable• Scalabilité verticale
Document confidentiel
16
SGBDR pour le “Big Data” OLTP ou Analytique ?
Document confidentiel
Replication: ACID ?
17
Document confidentiel
La 3ème forme normale ne scale pas
18
• Impossible de prédire les requêtes
• Les utilisateurs ne veulent plus attendre
• Les données doivent être dénormalisées
• Si les données ne tiennent pas en mémoire…
• Les recherches sur disques sont coûteuses
(SELECT CONCAT(city_name,', ',region) value, latitude, longitude, id, population, ( 3959 * acos( cos( radians($latitude) ) * cos( radians( latitude ) ) * cos( radians( longitude ) - radians($longitude) ) + sin( radians($latitude) ) * sin( radians( latitude ) ) ) ) AS distance, CASE region WHEN '$region' THEN 1 ELSE 0 END AS region_match FROM `cities` $where and foo_count > 5 ORDER BY region_match desc, foo_count desc limit 0, 11) UNION (SELECT CONCAT(city_name,', ',region) value, latitude, longitude, id, population, ( 3959 * acos( cos( radians($latitude) ) * cos( radians( latitude ) ) * cos( radians( longitude ) - radians($longitude) ) + sin( radians($latitude) ) * sin( radians( latitude ) ) ) ) AS distance, CASE region WHEN '$region' THEN 1 ELSE 0 END AS region_match FROM `cities` $where ORDER BY region_match desc, population desc, distance asc limit 0, 11) limit 0, 11;
Document confidentiel
Le partitionnement est un “cauchemar”
19
• Données stockées sur différentes machines• Pas de jointures, pas d’agrégats• Tout est dénormalisé• Requêtage via un index secondaire doit taper sur
toutes les partitions• Ajouter des partitions demande un déplacement de
données • Changement de schema
Document confidentiel
Très Haute Disponibilité ?
20
• Failover du Master … qui est responsable?– Architectures complexes– “Bricolage” du code
• Compléxité du Multi-Data Center• Arrêt de services fréquents•Changement des settings de la base de données– Défaillance des disques …– Mises à jour OS et logiciel …
Document confidentiel
Résumé des “problèmes”
21
• La montée en charge est difficile• L’Acidité n’est pas tout le temps assurée• Le re-partionnement est un processus manuel• Il faut dénormaliser pour les performances• La très haute disponible est complexe et
demande des composants additionnels
Document confidentiel
Leçons retenues
22
• Dans la pratique la cohérence n’est pas assuréeAbandon
• Le partionnement et le re-balancing sont difficilesRéalisé et Intégré
• Chacune des parties rend le système plus complexeArchitecture Simplifiée – pas de Maître/Esclave
• La scalabilité verticale coûte chère“Commodity Hardware”
• Scatter / gather no goodDernomalisation pour les performancesRequête sur 1 seule machine
Pourquoi Apache Cassandra et comparaison SGBDR
Document confidentiel24
Pourquoi de pas utiliser Oracle ?
©2014 DataStax Confidential. Do not distribute without consent.
Versus
Apache Cassandra
Document confidentiel
Cassandra - La Base de Données Distribuée leader
Bordeaux
Paris
Marseille
C *
C *
C *C *
Toujours DisponibleDistribution géographiquePerformance reconnue Extensibilité prédictible Simplicité OpérationnelleSéries Temporelles
26
Document confidentiel27
Apache Cassandra™• Apache Cassandra™ = Base de données NoSQL, Open Source, Distribuée et créée
pour les applications en ligne, modernes, critiques et avec des montée en charge massive.
• Java, hybride entre Amazon Dynamo et Google BigTable• Sans Maître-Esclave, sans Point Unique de Défaillance (Single Point Of Failure)• Distribuée avec la possibilité de Centres de Données (Data Center)• 100% Disponible• Massivement scalable• Montée en charge linéaire• Haute Performance• Simple à Exploiter
©2014 DataStax Confidential. Do not distribute without consent.
Dynamo
BigTable
BigTable: http://research.google.com/archive/bigtable-osdi06.pdfDynamo: http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf
Node 1
Node 2
Node 3Node 4
Node 5
Document confidentiel
Montée en charge linéaire
Plus de données ? Ajout de noeudsBesoin de plus de débit? Ajout de noeuds
http://techblog.netflix.com/2011/11/benchmarking-cassandra-scalability-on.html
Document confidentiel29
Cassandra @ Netflix• 90+ Clusters• 5000+ noeuds• 4 Data Centres (Régions
Amazon)• > 1 Trillion transactions par jourhttp://planetcassandra.org/functional-use-cases/
Exemple de Montée en Charge
©2014 DataStax Confidential. Do not distribute without consent.
Utilisation• Films regardés?• Qu’avez vous regardé avant et après?• Où vous avez fait pause?• Qu’est ce que vous avez arrêté après 5 minutes?• ….
Document confidentiel
Nodes Down != Database DownDatacenter Down != Database DownUpgrade != Database Down
Haute Disponibilité
Document confidentiel31
Défaillance d’un Noeud
• La défaillance d’un seul noeud ne doit pas entraîner de défaillance du système• Facteur de Réplication + Niveau de Cohérence = Succès• Exemple:
– RF = 3– CL = QUORUM
©2014 DataStax Confidential. Do not distribute without consent.
Node 11st copy
Node 4
Node 5Node 22nd copy
Node 33rd copy
ParallelWrite
WriteCL=QUORUM
5 μs ack
12 μs ack
12 μs ack
>51% de réponses – donc la requête est réussie
Document confidentiel32
Configuration en Data Center
©2014 DataStax Confidential. Do not distribute without consent.
Node 11st copy
Node 4
Node 5 Node 22nd copy
Node 33rd copy
Node 11st copy
Node 4
Node 5 Node 22nd copy
Node 33rd copy
DC: EUROPEDC: USA
• Actif partout – lecture/écriture dans tous les DC• Le client écrit localement dans un DC• Données synchronisées à travers le WAN• Facteur de Réplication par DC
Utilisations• DC de sauvegarde• Distribution
géographique• Charge différente
entre DC• Prod -> Pré-prod
Document confidentiel
Cloud & Cloud Hybride• DataStax Enterprise et Cassandra sont disponibles en multi-data
center et dans le cloud (Amazon AWS, Google Cloud et Microsoft Azure)• Les données écrites dans n’importe quel noeud sont aussi
automatiquement et de manière transparente écrites sur tous les autres noeuds dans les autres data centers sans ETL
Data Centre 1 Data Centre 2
Public Cloud
Document confidentiel
Exemple de déploiement
Cassandra fonctionne aussi bien pour des petits que pour des déploiements énormes!
Déploiement Cassandra chez Apple
• 75 000+ noeuds• 10’s petabytes de données• Millions ops/second• Plus gros cluster à 1000+ noeuds
Apple Inc.: Cassandra at Apple for Massive ScaleVideo https://www.youtube.com/watch?v=Bc4ql9TDzyg
From Cassandra Summit, London, December 2014
DataStax Enterprise
Document confidentiel
Straightening the road
RELATIONAL DATABASESCQL SQL
OpsCenter / DevCenter Management toolsDSE for search & analytics IntegrationSecurity Security
Support, consulting & training 30 years ecosystem
Document confidentiel
DataStax Enterprise
In-MemoryOption de base de données en mémoire pour le stockage en RAM et non plus sur disque de certaines données pour un accès encore plus rapide.
SearchFonctionnaliés de recherche sur des données Cassandra via Apache Solr. Fonctionnalités avancées et performante sur de gros volumes.Analytics
Intégration de frameworks analytiques tels que Spark et Hadoop pour des analyses temps-réel ou en mode batch.
SupportSupport 24x7 avec des hot-fixes et des revues de performance.
Visual AdminUn outil visuel “DataStax OpsCenter” pour la supervision et l’administration d’un cluster Cassandra et DataStax.
Management ServicesServices d’administration automatique et suivi des performances.
Cassandra CertifiedUne version de Apache Cassandra certifiée, supportée et prête pour l’entreprise.
SecurityFonctionalités de sécurité d’entreprise comme le chiffrement des données sur disques, des traces d’audit et une authentification externe via Kerberos, LDAP/Active Directory
Puissance pour le Développement
Robustesse et Support pour la Production
Document confidentiel
Le futur de DataStax Enterprise
38
Cas d’Utilisation
Document confidentiel
DataStax Enterprise + DataWarehouse / Hadoop
© 2014 DataStax, All Rights Reserved.
Company Confidential
Write IntensiveInternet of Things - Activity logs for
fraud and recommendation – Messages
40
Read Intensive Catalogue – Playlist –
Recommendation – Fraud Alert – Personalization
Operational Search, Dashboard and Reporting
Offline ApplicationsHistorical Analysis - OLAP -
Complex Analytics – Self Service BI
Operational Search, Dashboard and Reporting
Data WarehouseHadoop cluster Computation EngineMultidimensional Cube
Document confidentiel
Des clients sur tous les verticaux
Document confidentiel
Cas d’usage fréquents
Messagerie
Catalogue/Playlists
Détection de Fraude
Recommandation/ Personnalisation
Objets connectés/ Données de Capteurs
Document confidentiel
Plus d’information
• DataStax: http://www.datastax.com
• Downloads: http://www.datastax.com/download
• Documentation: http://www.datastax.com/docs
• Developer Blog: http://www.datastax.com/dev/blog
• Academy: https://academy.datastax.com/
• Community Site: http://planetcassandra.org
©2014 DataStax Confidential. Do not distribute without consent.
Questions/Réponses
Merci!
Georges KLENKLEDirecteur Géné[email protected]
Victor CoustenobleIngénieur [email protected]