SlideShare une entreprise Scribd logo
1  sur  42
Télécharger pour lire hors ligne
BIG DATA l ANALYTICS l DATAVIZ
www.data-business.fr
Big Data l Analytics l
DataViz
Introduction aux technologies
Big Data
2Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System Hadoop4
1
3BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Cette année nous fêtons les 80 ans de l’
informatique
• 1934 : Alan Turing
• 1968 : Intel
• 1972 : Internet
• 1977 : Oracle
• 1992 : Internet = 1 million de PCs
• 1995 : MySQL / PostGreSQL
• 1996 : Internet = 36 millions de PCs
• 2000 : Internet = 360 millions de Pcs
• 2007 : Iphone
• 2015 : 2 milliards de smartphones
• 2020 : 50 milliards d’objets connectés ?
Limit MySQL PostGreSQL MongoDB Oracle
Database Size Limité par l'OS Unlimited 128 TB
Table Size 16 TB 32 TB
Row Size 65 000 bytes 1.6 TB
Field Size … 0,06Mb 1 GB 16 Mb
Rows per Table illimiteds Unlimited 4b or illimited
Columns per Table 85 250 - 1600
Indexes per Table Unlimited unlimited
4BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
% de personnes se connectant à internet
5BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Où vont les données ? Sur des disques !
6BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La meilleure config sur Rue du Commerce :
60 To
➢ Les interfaces de connexion au disque dur:
• IDE-ATA : 133 Mo/s ( obsolète )
• SCSI : de 5 à 600 Mo/s ( intelligent, plus rapide, standardisé )
• S-ATA : de 150 à 600 Mo/s ( standard actuel )
➢ Carte mères : 500 eur
• 2 x SATA3 6.0 Gb / s
• 8 x SAS2/SATA3 6.0 Gb / s
➢ Taille des disques : 6 To – 300 euros
➢ Configuration : 60 To max / 3500 euros
➢ Temps de lecture :
• Théorique : 10 000 secondes / 2.7 heures
• Pratique : Deux ou trois fois plus lent : environ 9 heures
IDE-ATA
SCSI
S-ATA
=> Combien de temps pour tout lire ?
7BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
IBM Benchmark ( 2011) : 480 disques !
480 disques de 146 Gb : 71 Tb
15 K RPM
14 Gb / s
5 000 secondes pour tout lire : 80 minutes !=> Combien de temps pour tout lire ?
=> A quel prix ?
8BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
MTBF : Mean Time Before Failure
100 disques | MTBF 5 ans = 20 pannes / an
Soit un disque à changer toutes les 2 semaines.
Risques :
1. Coût
2. Instabilité du système
3. Perte d’information !
Hadoop résout le MTBF en déduplicant la donnée :
replication factor = 3
Si un disque tombe en panne, on retrouve l’
information sur un des deux autres disques.
9BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
MTBF : Transformer un problème en atout
Lent (dédié au mode “batch”)
Pas cher
(12 Keur/machine)
mais redondant !
Rapide
Map (Sort) Reduce
mais complexe !
10BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Map-Reduce Algorihtm
MAP (MAGIC SORT) REDUCE (RESULT)
11Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System Hadoop4
1
12BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Des sources de plus en plus diverses
13BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La fin d’un monde
1950 - 2009
2015
JSON
14BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Formalisme JSON :
15BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Des caractéristiques différentes ...
1950 - 2009
2015
Online Transaction Processing
Transactions garanties
Lecture et écriture
Schéma défini
Banques / Systèmes de sécurité
Oracle / Access
PostGreSQL / MySQL
Online Analytical Processing
Pas de transactions
Principalement en lecture
Sans schéma
Sites Web / Applications non critiques
MongoDB / CouchDB
HBase / Cassandra
16BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Pour de nouveaux usages :
1950 - 2009
2015
Online Transaction Processing
Transactions garanties
Lecture et écriture
Schéma défini
Banques / Systèmes de sécurité
Oracle / Access
PostGreSQL / MySQL
Online Analytical Processing
Pas de transactions
Principalement en lecture
Sans schéma
Sites Web / Applications non critiques
MongoDB / CouchDB
HBase / Cassandra
17BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Un vocabulaire qui change :
1950 - 2009
2015
Online Transaction Processing
MCD / Schéma / Relationnel
UML / MERISE
Référentiel / dictionnaires de données
SQL Triggers
Silos / Logiciels / Licences / BI
Online Analytical Processing
NoSQL / Schemaless
Machine Learning / Prédictif
Apprentissage (Non) Supervisé
Partage / API / Open Sources /
Dashboard / Data Visualisation
18Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System Hadoop4
1
19BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
La RAM est jusqu’à 70 fois plus rapide que le disque en écriture
et 50 fois en lecture
20BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
21BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
x 777
22BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
x 777
x 1314
23BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
24BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
25BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
26BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
27BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
20 € / Tb
28BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
9 000 € / Tb
20 € / Tb
29BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
9 000 € / Tb
20 € / Tb
30Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-système Hadoop4
1
31BIG DATA – ESILV – Septembre 2014
Coordination complexe dans les Systèmes Parallèles
Loi d’Amdhal :
Soit un programme :
• P = % possible en parallèle sans synchronisation (dans [ 0, 1[ )
• N = nombre de processeurs
• 1 = durée nécessaire pour effectuer l’algorithme avec un processeur
Gain possible en temps :
• Gain sur P = P/N < P < 1
• Partie sur laquelle on ne peut rien gagner : 1 – P < 1
• Durée nécessaire : (1-P) + P/N <1
• Accélération possible : 1 / Durée nécessaire > 1
• Exemples :
• 95% parallélisable : P = 0.95
• 100 processeurs : N = 100
• Accélération = 1 / ( 0.05 + 0.95/100) = 16,8 fois plus rapide
• Avec 50 processeurs : 1 / (0.05 + 0.95/10) = 14,5 fois plus rapide
32BIG DATA – ESILV – Septembre 2014
Rendez vos codes Parralélisables !
33BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
HADOOP 1.0
34BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
HADOOP 2.0
35BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Zookeeper
36BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Front - End
37BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
D3JS
38BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Présentation de Memorandum.pro
▪ Fondateur cabinet Mémorandum
▪ Alcatel-Lucent, Toshiba Services
▪ ESCP, Télécom Paris
Romain Jouin
▪ Développement informatique
▪ Développement commercial
▪ Stratégie Big Data
▪ Analyse de données
COMPÉTENCES
▪ Jaccede.com – gestion d’infrastructure
▪ EDF – E-reputation
▪ Toshiba –1ère
plateforme de Cloud Computing
▪ Alcatel – Développement commercial Ex-URSS
SELECTION DE PROJETS RECENTS
• Cabinet de conseil en Stratégie Big Data
• Expertise Usages et Applications Big Data
• Missions de conseil et formations
• Développement logiciel
• Gestion d’industrialisation Big Data
39BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
History
41BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La base :
BIG DATA l ANALYTICS l DATAVIZ
www.data-business.fr
CONTACT
romain@data-business.fr
06.52.86.87.30

Contenu connexe

Tendances

Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2Mehdi TAZI
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big DataEvenements01
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013ADBS
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Lilia Sfaxi
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesHassan Lâasri
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012datasio
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIHaShem Selmi
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungenGalsungen
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Big data démystifié td2014
Big data démystifié td2014Big data démystifié td2014
Big data démystifié td2014Romain Casteres
 

Tendances (20)

Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big Data
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
Big data
Big dataBig data
Big data
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Big data démystifié td2014
Big data démystifié td2014Big data démystifié td2014
Big data démystifié td2014
 

Similaire à Meetup intro techno big data

1 pourquoi le big data aujourdhui
1 pourquoi le big data aujourdhui1 pourquoi le big data aujourdhui
1 pourquoi le big data aujourdhuiRomain Jouin
 
Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Vincent Heuschling
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Meetup Google Cloud
Meetup Google CloudMeetup Google Cloud
Meetup Google CloudPierre Coste
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika
 
VISEO Shake the Microsoft business - comment rapidement batir une solution IoT
VISEO Shake the Microsoft business - comment rapidement batir une solution IoTVISEO Shake the Microsoft business - comment rapidement batir une solution IoT
VISEO Shake the Microsoft business - comment rapidement batir une solution IoTFactoVia
 
Bluemix Paris Meetup - Session #9 - 10 juin 2015 - Internet des Objets 3.0
Bluemix Paris Meetup - Session #9 - 10 juin 2015 - Internet des Objets 3.0Bluemix Paris Meetup - Session #9 - 10 juin 2015 - Internet des Objets 3.0
Bluemix Paris Meetup - Session #9 - 10 juin 2015 - Internet des Objets 3.0IBM France Lab
 
Architectures lambda - Techdays camps 2015
Architectures lambda - Techdays camps 2015 Architectures lambda - Techdays camps 2015
Architectures lambda - Techdays camps 2015 Georges Damien
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.OW2
 
CDAP, la boîte à outil pour concevoir vos applications Big Data
CDAP,  la boîte à outil pour concevoir vos applications Big DataCDAP,  la boîte à outil pour concevoir vos applications Big Data
CDAP, la boîte à outil pour concevoir vos applications Big DataSynaltic Group
 
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelRévolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelMicrosoft Décideurs IT
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...Paris Open Source Summit
 
Réalité augmentée et Big Data dans Azure
Réalité augmentée et Big Data dans AzureRéalité augmentée et Big Data dans Azure
Réalité augmentée et Big Data dans AzureFabrice JEAN-FRANCOIS
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
Architectures lambda - Microsoft
Architectures lambda - MicrosoftArchitectures lambda - Microsoft
Architectures lambda - MicrosoftMichel HUBERT
 
Petit déjeuner Octo - L'infra au service de ses projets
Petit déjeuner Octo - L'infra au service de ses projetsPetit déjeuner Octo - L'infra au service de ses projets
Petit déjeuner Octo - L'infra au service de ses projetsAdrien Blind
 
Petit-déjeuner OCTO - L'Infra au service de ses projets
Petit-déjeuner OCTO - L'Infra au service de ses projetsPetit-déjeuner OCTO - L'Infra au service de ses projets
Petit-déjeuner OCTO - L'Infra au service de ses projetsOCTO Technology
 
Big Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… AzureBig Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… AzureMicrosoft Technet France
 

Similaire à Meetup intro techno big data (20)

1 pourquoi le big data aujourdhui
1 pourquoi le big data aujourdhui1 pourquoi le big data aujourdhui
1 pourquoi le big data aujourdhui
 
Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Meetup Google Cloud
Meetup Google CloudMeetup Google Cloud
Meetup Google Cloud
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_ml
 
VISEO Shake the Microsoft business - comment rapidement batir une solution IoT
VISEO Shake the Microsoft business - comment rapidement batir une solution IoTVISEO Shake the Microsoft business - comment rapidement batir une solution IoT
VISEO Shake the Microsoft business - comment rapidement batir une solution IoT
 
Bluemix Paris Meetup - Session #9 - 10 juin 2015 - Internet des Objets 3.0
Bluemix Paris Meetup - Session #9 - 10 juin 2015 - Internet des Objets 3.0Bluemix Paris Meetup - Session #9 - 10 juin 2015 - Internet des Objets 3.0
Bluemix Paris Meetup - Session #9 - 10 juin 2015 - Internet des Objets 3.0
 
Architectures lambda - Techdays camps 2015
Architectures lambda - Techdays camps 2015 Architectures lambda - Techdays camps 2015
Architectures lambda - Techdays camps 2015
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.
 
CDAP, la boîte à outil pour concevoir vos applications Big Data
CDAP,  la boîte à outil pour concevoir vos applications Big DataCDAP,  la boîte à outil pour concevoir vos applications Big Data
CDAP, la boîte à outil pour concevoir vos applications Big Data
 
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelRévolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
 
Réalité augmentée et Big Data dans Azure
Réalité augmentée et Big Data dans AzureRéalité augmentée et Big Data dans Azure
Réalité augmentée et Big Data dans Azure
 
Fusion io
Fusion ioFusion io
Fusion io
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Architectures lambda - Microsoft
Architectures lambda - MicrosoftArchitectures lambda - Microsoft
Architectures lambda - Microsoft
 
Petit déjeuner Octo - L'infra au service de ses projets
Petit déjeuner Octo - L'infra au service de ses projetsPetit déjeuner Octo - L'infra au service de ses projets
Petit déjeuner Octo - L'infra au service de ses projets
 
Petit-déjeuner OCTO - L'Infra au service de ses projets
Petit-déjeuner OCTO - L'Infra au service de ses projetsPetit-déjeuner OCTO - L'Infra au service de ses projets
Petit-déjeuner OCTO - L'Infra au service de ses projets
 
Big Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… AzureBig Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… Azure
 

Meetup intro techno big data

  • 1. BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr Big Data l Analytics l DataViz Introduction aux technologies Big Data
  • 2. 2Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  • 3. 3BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Cette année nous fêtons les 80 ans de l’ informatique • 1934 : Alan Turing • 1968 : Intel • 1972 : Internet • 1977 : Oracle • 1992 : Internet = 1 million de PCs • 1995 : MySQL / PostGreSQL • 1996 : Internet = 36 millions de PCs • 2000 : Internet = 360 millions de Pcs • 2007 : Iphone • 2015 : 2 milliards de smartphones • 2020 : 50 milliards d’objets connectés ? Limit MySQL PostGreSQL MongoDB Oracle Database Size Limité par l'OS Unlimited 128 TB Table Size 16 TB 32 TB Row Size 65 000 bytes 1.6 TB Field Size … 0,06Mb 1 GB 16 Mb Rows per Table illimiteds Unlimited 4b or illimited Columns per Table 85 250 - 1600 Indexes per Table Unlimited unlimited
  • 4. 4BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 % de personnes se connectant à internet
  • 5. 5BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Où vont les données ? Sur des disques !
  • 6. 6BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 La meilleure config sur Rue du Commerce : 60 To ➢ Les interfaces de connexion au disque dur: • IDE-ATA : 133 Mo/s ( obsolète ) • SCSI : de 5 à 600 Mo/s ( intelligent, plus rapide, standardisé ) • S-ATA : de 150 à 600 Mo/s ( standard actuel ) ➢ Carte mères : 500 eur • 2 x SATA3 6.0 Gb / s • 8 x SAS2/SATA3 6.0 Gb / s ➢ Taille des disques : 6 To – 300 euros ➢ Configuration : 60 To max / 3500 euros ➢ Temps de lecture : • Théorique : 10 000 secondes / 2.7 heures • Pratique : Deux ou trois fois plus lent : environ 9 heures IDE-ATA SCSI S-ATA => Combien de temps pour tout lire ?
  • 7. 7BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 IBM Benchmark ( 2011) : 480 disques ! 480 disques de 146 Gb : 71 Tb 15 K RPM 14 Gb / s 5 000 secondes pour tout lire : 80 minutes !=> Combien de temps pour tout lire ? => A quel prix ?
  • 8. 8BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 MTBF : Mean Time Before Failure 100 disques | MTBF 5 ans = 20 pannes / an Soit un disque à changer toutes les 2 semaines. Risques : 1. Coût 2. Instabilité du système 3. Perte d’information ! Hadoop résout le MTBF en déduplicant la donnée : replication factor = 3 Si un disque tombe en panne, on retrouve l’ information sur un des deux autres disques.
  • 9. 9BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 MTBF : Transformer un problème en atout Lent (dédié au mode “batch”) Pas cher (12 Keur/machine) mais redondant ! Rapide Map (Sort) Reduce mais complexe !
  • 10. 10BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Map-Reduce Algorihtm MAP (MAGIC SORT) REDUCE (RESULT)
  • 11. 11Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  • 12. 12BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Des sources de plus en plus diverses
  • 13. 13BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 La fin d’un monde 1950 - 2009 2015 JSON
  • 14. 14BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Formalisme JSON :
  • 15. 15BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Des caractéristiques différentes ... 1950 - 2009 2015 Online Transaction Processing Transactions garanties Lecture et écriture Schéma défini Banques / Systèmes de sécurité Oracle / Access PostGreSQL / MySQL Online Analytical Processing Pas de transactions Principalement en lecture Sans schéma Sites Web / Applications non critiques MongoDB / CouchDB HBase / Cassandra
  • 16. 16BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Pour de nouveaux usages : 1950 - 2009 2015 Online Transaction Processing Transactions garanties Lecture et écriture Schéma défini Banques / Systèmes de sécurité Oracle / Access PostGreSQL / MySQL Online Analytical Processing Pas de transactions Principalement en lecture Sans schéma Sites Web / Applications non critiques MongoDB / CouchDB HBase / Cassandra
  • 17. 17BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Un vocabulaire qui change : 1950 - 2009 2015 Online Transaction Processing MCD / Schéma / Relationnel UML / MERISE Référentiel / dictionnaires de données SQL Triggers Silos / Logiciels / Licences / BI Online Analytical Processing NoSQL / Schemaless Machine Learning / Prédictif Apprentissage (Non) Supervisé Partage / API / Open Sources / Dashboard / Data Visualisation
  • 18. 18Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  • 19. 19BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters La RAM est jusqu’à 70 fois plus rapide que le disque en écriture et 50 fois en lecture
  • 20. 20BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388
  • 21. 21BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388 x 777
  • 22. 22BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388 x 777 x 1314
  • 23. 23BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  • 24. 24BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  • 25. 25BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  • 26. 26BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  • 27. 27BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 20 € / Tb
  • 28. 28BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 9 000 € / Tb 20 € / Tb
  • 29. 29BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 9 000 € / Tb 20 € / Tb
  • 30. 30Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-système Hadoop4 1
  • 31. 31BIG DATA – ESILV – Septembre 2014 Coordination complexe dans les Systèmes Parallèles Loi d’Amdhal : Soit un programme : • P = % possible en parallèle sans synchronisation (dans [ 0, 1[ ) • N = nombre de processeurs • 1 = durée nécessaire pour effectuer l’algorithme avec un processeur Gain possible en temps : • Gain sur P = P/N < P < 1 • Partie sur laquelle on ne peut rien gagner : 1 – P < 1 • Durée nécessaire : (1-P) + P/N <1 • Accélération possible : 1 / Durée nécessaire > 1 • Exemples : • 95% parallélisable : P = 0.95 • 100 processeurs : N = 100 • Accélération = 1 / ( 0.05 + 0.95/100) = 16,8 fois plus rapide • Avec 50 processeurs : 1 / (0.05 + 0.95/10) = 14,5 fois plus rapide
  • 32. 32BIG DATA – ESILV – Septembre 2014 Rendez vos codes Parralélisables !
  • 33. 33BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 HADOOP 1.0
  • 34. 34BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 HADOOP 2.0
  • 35. 35BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Zookeeper
  • 36. 36BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Front - End
  • 37. 37BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 D3JS
  • 38. 38BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Présentation de Memorandum.pro ▪ Fondateur cabinet Mémorandum ▪ Alcatel-Lucent, Toshiba Services ▪ ESCP, Télécom Paris Romain Jouin ▪ Développement informatique ▪ Développement commercial ▪ Stratégie Big Data ▪ Analyse de données COMPÉTENCES ▪ Jaccede.com – gestion d’infrastructure ▪ EDF – E-reputation ▪ Toshiba –1ère plateforme de Cloud Computing ▪ Alcatel – Développement commercial Ex-URSS SELECTION DE PROJETS RECENTS • Cabinet de conseil en Stratégie Big Data • Expertise Usages et Applications Big Data • Missions de conseil et formations • Développement logiciel • Gestion d’industrialisation Big Data
  • 39. 39BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 History
  • 40.
  • 41. 41BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 La base :
  • 42. BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr CONTACT romain@data-business.fr 06.52.86.87.30