introduction bigdata

CHP1 :
INTRODUCTION
Approche et Vocabulaire
Youssef CHOUNI
Slide 1
2
Introduction aux Big Data
• Chaque jour, nous générons 2,5 trillions d’octets de
données
• 90% des données dans le monde ont été créées au
cours des deux dernières années
• 90% des données générées sont non structurées
• Source:
 Capteurs utilisés pour collecter les informations climatiques
 Messages sur les médias sociaux
 Images numériques et vidéos publiées en ligne
 Enregistrements transactionnels d’achat en ligne
 Signaux GPS de téléphones mobiles
 …
• Données appelées Big Data ou Données Massives
3
• Chefs d’entreprise prennent fréquemment des
décisions basées sur des informations en
lesquelles ils n’ont pas confiance, ou qu’ils
n’ont pas
• Chefs d’entreprise disent qu’ils n’ont pas
accès aux informations dont ils ont besoin
pour faire leur
travail
• Des DSI (Directeurs des SI) citent : «
L’informatique décisionnelle et analytique »
commefaisant partie de leurs plans pour
améliorer leur compétitivité
• Des PDG ont besoin d’améliorer la capture et
la compréhension des informations pour
prendre des décisions plus rapidement
1/3
1/ 2
83%
60%
Introduction aux Big Data
• Sources multiples: sites, bases de données,
téléphones, serveurs:
 Détecter les sentiments et réactions des clients
 Détecter les conditions critiques ou potentiellement
mortelles dans les hôpitaux , et à temps pour intervenir
 Prédire des modèles météorologiques pour planifier l’usage
optimal des éoliennes
 Prendre des décisions risquées basées sur des données
transactionnelles en temps réel
 Identifier les criminels et les menaces à partir de vidéos,
sons et flux de données
 Étudier les réactions des étudiants pendant un cour, prédire
ceux qui vont réussir, d’après les statistiques et modèles
réunis au long des années
(domaine Big Data in Education)
INTRODUCTION AUX BIG DATA
4
• Réunir un grand volume de données variées pour
trouver de nouvelles idées
• Capturer des données créées rapidement
• Sauvegarder toutes ces données
• Traiter ces données et les utiliser
INTRODUCTION AUX BIG DATA
5
• Extraction d’informations et décisions à partir
de données, caractérisées par les 5 V:
 Volume (Volume)
 Variété (Variety)
 Vitesse (Velocity)
 Véracité (Veracity)
 Valeur (Value)
INTRODUCTION AUX BIG DATA
6
5 Vs du
BigData
Volume Vitesse
Valeur
Variété
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
7
• Le prix de stockage des données a beaucoup diminué ces
30 dernières années:
 De $100,000 / Go (1980)
 À $0.10 / Go (2013)
• Les lieux de stockage fiables (comme des SAN: Storage
Area Network) ou réseaux de stockage peuvent être très
coûteux
 Choisir de ne stocker que certaines données, j
ugées sensibles
 Perte de données, pouvant être très utiles, comme
les logs
• Comment déterminer les données qui méritent d’être
stockées?
 Transactio ns? Logs? Métier? Utilisateur?
Capteurs? Médicales? Sociales?
 Aucune donnée n’est inutile. Certaines n’ont juste pas
encore servi.
• Problèmes:
 Comment stocker les données dans un endroit
fiable, qui soit moins cher
 Comment parcourir ces données et en
extraire des info rmations facilement et
rapidement?
Introduction aux Big Data
- ²
Volume Vitesse
Valeur
Variété
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
8
• Pour un stockage dans des bases de données ou dans des
entrepôts de données, les données doivent respecter un
format prédéfini.
• La plupart des données existantes sont non- structurées
ou semi-structurées
• Données sous plusieurs formats et types
• On veut tout stocker:
 Exemple: pour une discussion dans un centre
d’appel, on peut la stocker sous forme textuelle
pour son contenu, comme on peut stocker
l’enregistrement en entier, pour interpréter le ton de
voix du client
• Certaines données peuvent paraître obsolètes, mais sont
utiles pour certaines décisions:
 Exemple: Pour le transport de marchandise, on a
tendance à choisir le camion le plus proche. Mais
parfois, ce n’est pas la meilleure solution. D’autres
problèmes peuvent intervenir.
 Besoin de : Données GPS, Plan de livraison du
camion, Circulation, Chargement du camion, Niveau
d’essence…
Introduction aux Big Data
5 Vs du
BigData
Volume Vitesse
Valeur
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
Vitesse
Valeur
Volume
Véracité
9
• Rapidité d’arrivée des données
• Vitesse de traitement
• Les données doivent être stockées
à l’arrivée, parfois même des
Teraoctets par jour
 Sinon, risque de perte
d’informations
• Exemple
 Il ne suffit pas de savoir quel
article un client a acheté ou
réservé
 Si si on sait que vous avez
passé plus de 5mn à consulter
un article dans une boutique
d’achat en ligne, il est possible
de vous envoyer un email dès
que cet article est soldé.
Introduction aux Big Data
- 5 Vs du
Big
Data
Volume Vitesse
Valeur
Variété
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
Valeur
Variété
Véracité
Volume
10
• Cela fait référence au désordre ou la
fiabilité des données. Avec
l’augmentation de la quantité, la
qualité et précision se
perdent (abréviations, typos,
déformations, source peu fiable…)
• Les solutions Big Data doivent remédier
à cela en se référant au volume des
données existantes
• Nécessité d’une (très) grande
rigueur dans l’organisation de la
collecte et le recoupement,
croisement, enrichissement des
données pour lever l’incertitude et
la nature imprévisible des données
introduites dans les modèles mais
aussi pour respecter le cadre légal
pour créer la confiance et garantir la
sécurité et l’intégrité des données.
Introduction aux Big Data
5 Vs du
BigData
Volume Vitesse
Valeur
Variété
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
Valeur
Variété
Volume Vitesse
• Le V le plus important
• Il faut transformer toutes les
données en valeurs
exploitables: les données
sans valeur sont inutiles
• Atteindre des objectifs
stratégiques de création de
valeur pour les clients et
pour l’entreprise dans tous
les domaines d’activité
INTRODUCTION AUX BIG DATA
11
5 Vs du
BigData
Volume Vitesse
Valeur
Variété
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
Vitesse
Variété
Volume
Véracité
Valeur
12
Introduction aux Big Data
De nouvelles exigences
nécessitent une nouvelle
conception et construction
Les besoins métier guident la conception de la solution
Le responsable métier définit
les besoins : Quelles
questions doit-on poser?
IT conçoit une solution avec un
ensemble de structures et
fonctionnalités
Le responsable métier exécute les
requêtes pour répondre aux
questions – encore et encore
• Appropriée pour:
 Des données structurées
 Opérations et processus répétitifs
 Sources relativement stables
 Besoins bien compris et bien cadrés
INTRODUCTION AUX BIG DATA
13
14
IntroductionauxBigData
Les sources d’information guident la découverte créative
Le responsable métier et IT
identifient les sources de données
disponibles
Denouvelles idées conduisent à
l’intégration de technologies
traditionnelles
IT fournit une plateforme
qui permet une
exploration créative de
toutes les données
disponibles
Le responsable métier détermine
les questions à poser en
explorant les données et
relations entre elles
• La question n’est pas :
 Dois-je choisir entre
l’approche classique et
l’approche Big Data?
• Mais plutôt:
 Comment les faire
fonctionner
ensemble?
INTRODUCTION AUX BIG DATA
15
Entrepôt de Données Plateforme Big Data
Sources Traditionnelles
Nouvelles Sources
Approche Big Data
Analyse Itérative et Exploratoire
Responsables Métier
Déterminent quelles
questions poser
APPROCHE BIG DATA VS APPROCHE TRADITIONNELLE
16
Responsables IT
Structurent les données
pour répondre à ces
questions
Responsables IT
Fournissent une
plateforme pour
permettre la
découverte créative
Responsables Métier
Explorent la plateforme
pour déterminer
quelles
questions poser
Introduction aux Big Data
Approche Traditionnelle
Analyse Structurée et Répétée
1 von 16

Recomendados

BigData_Chp1: Introduction à la Big Data von
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
42.1K views17 Folien
Ecosystème Big Data von
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
6 views201 Folien
15 03 16_data sciences pour l'actuariat_f. soulie fogelman von
15 03 16_data sciences pour l'actuariat_f. soulie fogelman15 03 16_data sciences pour l'actuariat_f. soulie fogelman
15 03 16_data sciences pour l'actuariat_f. soulie fogelmanArthur Charpentier
21K views22 Folien
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance von
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group
828 views68 Folien
Morning Tech#1 BigData - Oxalide Academy von
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
266 views30 Folien
7 points clés à retenir pour aborder le data management de données clients... von
7 points clés à retenir pour aborder le data management de données clients...7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...dibs-conseil
914 views14 Folien

Más contenido relacionado

Similar a introduction bigdata

Workshop - Monétisation de la Donnée : Process & Exemples von
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesConverteo
2.5K views22 Folien
Business intelligence pour startups von
Business intelligence pour startupsBusiness intelligence pour startups
Business intelligence pour startupsSébastien Derivaux
114 views22 Folien
La Banque de demain : Chapitre 4 von
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
10.2K views47 Folien
Livre Blanc : comprendre les data-lakes von
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesConverteo
12K views21 Folien
Quel est l'avenir des stratégies de données? von
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
202 views31 Folien
Etude sur le Big Data von
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big DataNexialog Consulting
4K views23 Folien

Similar a introduction bigdata(20)

Workshop - Monétisation de la Donnée : Process & Exemples von Converteo
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & Exemples
Converteo2.5K views
La Banque de demain : Chapitre 4 von OCTO Technology
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
OCTO Technology10.2K views
Livre Blanc : comprendre les data-lakes von Converteo
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
Converteo12K views
Quel est l'avenir des stratégies de données? von Denodo
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
Denodo 202 views
L'utilisation du Big Data en entreprise von Mathieu Lahaye
L'utilisation du Big Data en entrepriseL'utilisation du Big Data en entreprise
L'utilisation du Big Data en entreprise
Mathieu Lahaye3.1K views
Big Data Des méandres des outils au potentiel business von Mouhsine LAKHDISSI
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
Mouhsine LAKHDISSI1.8K views
Introduction à la big data v3 von Mehdi TAZI
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3
Mehdi TAZI4.1K views
Point de vue expert: la stratégie “ comptoir des données” von Denodo
Point de vue expert: la stratégie “ comptoir des données”Point de vue expert: la stratégie “ comptoir des données”
Point de vue expert: la stratégie “ comptoir des données”
Denodo 18 views
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre von Nicolas Desachy
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvreIBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
Nicolas Desachy1.9K views
La qualité des données à l’ère du Big Data von Precisely
La qualité des données à l’ère du Big DataLa qualité des données à l’ère du Big Data
La qualité des données à l’ère du Big Data
Precisely151 views
RGPD : comment la virtualisation des données vous garantit conformité, gouver... von Denodo
RGPD : comment la virtualisation des données vous garantit conformité, gouver...RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...
Denodo 555 views
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'... von Excelerate Systems
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Excelerate Systems2.5K views
Comment choisir sa solution de tableaux de bord ? von Jérôme MORIZOT
Comment choisir sa solution de tableaux de bord ?Comment choisir sa solution de tableaux de bord ?
Comment choisir sa solution de tableaux de bord ?
Jérôme MORIZOT69 views
Comment choisir sa solution de tableaux de bord ? von Jérôme MORIZOT
Comment choisir sa solution de tableaux de bord ?Comment choisir sa solution de tableaux de bord ?
Comment choisir sa solution de tableaux de bord ?
Jérôme MORIZOT96 views

Último

Webinaire de formation sur les REL von
Webinaire de formation sur les RELWebinaire de formation sur les REL
Webinaire de formation sur les RELMokhtar Ben Henda
8 views98 Folien
Indicateurs de développement durable pour les municipalités  : sources et rep... von
Indicateurs de développement durable pour les municipalités  : sources et rep...Indicateurs de développement durable pour les municipalités  : sources et rep...
Indicateurs de développement durable pour les municipalités  : sources et rep...Centre GéoStat, Bibliothèque, Université Laval
54 views48 Folien
INCENDIE_New1.ppt von
INCENDIE_New1.pptINCENDIE_New1.ppt
INCENDIE_New1.pptAcadmieSecourisme
5 views120 Folien
La communauté Magistere. von
La communauté Magistere.La communauté Magistere.
La communauté Magistere.Christophe Batier
8 views24 Folien
La conscience d'être libre est-elle illusoire ? (G. Gay-Para) von
La conscience d'être libre est-elle illusoire ? (G. Gay-Para)La conscience d'être libre est-elle illusoire ? (G. Gay-Para)
La conscience d'être libre est-elle illusoire ? (G. Gay-Para)Gabriel Gay-Para
29 views54 Folien
Exercice de révision SE - IPSET.pdf von
Exercice de révision SE - IPSET.pdfExercice de révision SE - IPSET.pdf
Exercice de révision SE - IPSET.pdfMedBechir
9 views2 Folien

Último(11)

La conscience d'être libre est-elle illusoire ? (G. Gay-Para) von Gabriel Gay-Para
La conscience d'être libre est-elle illusoire ? (G. Gay-Para)La conscience d'être libre est-elle illusoire ? (G. Gay-Para)
La conscience d'être libre est-elle illusoire ? (G. Gay-Para)
Gabriel Gay-Para29 views
Exercice de révision SE - IPSET.pdf von MedBechir
Exercice de révision SE - IPSET.pdfExercice de révision SE - IPSET.pdf
Exercice de révision SE - IPSET.pdf
MedBechir9 views
Conception et développement d'une marketplace basée sur l'architecture micros... von Adem Amen Allah Thabti
Conception et développement d'une marketplace basée sur l'architecture micros...Conception et développement d'une marketplace basée sur l'architecture micros...
Conception et développement d'une marketplace basée sur l'architecture micros...
Téophile Alexandre Steinlen.Peintre anarchiste du XIXe sieècle. von Txaruka
Téophile Alexandre Steinlen.Peintre anarchiste du XIXe sieècle.Téophile Alexandre Steinlen.Peintre anarchiste du XIXe sieècle.
Téophile Alexandre Steinlen.Peintre anarchiste du XIXe sieècle.
Txaruka30 views
Formation M2i - Génération IA : Prenez le train de l'avenir von M2i Formation
Formation M2i - Génération IA : Prenez le train de l'avenirFormation M2i - Génération IA : Prenez le train de l'avenir
Formation M2i - Génération IA : Prenez le train de l'avenir
M2i Formation7 views

introduction bigdata

  • 1. CHP1 : INTRODUCTION Approche et Vocabulaire Youssef CHOUNI Slide 1
  • 2. 2 Introduction aux Big Data • Chaque jour, nous générons 2,5 trillions d’octets de données • 90% des données dans le monde ont été créées au cours des deux dernières années • 90% des données générées sont non structurées • Source:  Capteurs utilisés pour collecter les informations climatiques  Messages sur les médias sociaux  Images numériques et vidéos publiées en ligne  Enregistrements transactionnels d’achat en ligne  Signaux GPS de téléphones mobiles  … • Données appelées Big Data ou Données Massives
  • 3. 3 • Chefs d’entreprise prennent fréquemment des décisions basées sur des informations en lesquelles ils n’ont pas confiance, ou qu’ils n’ont pas • Chefs d’entreprise disent qu’ils n’ont pas accès aux informations dont ils ont besoin pour faire leur travail • Des DSI (Directeurs des SI) citent : « L’informatique décisionnelle et analytique » commefaisant partie de leurs plans pour améliorer leur compétitivité • Des PDG ont besoin d’améliorer la capture et la compréhension des informations pour prendre des décisions plus rapidement 1/3 1/ 2 83% 60% Introduction aux Big Data
  • 4. • Sources multiples: sites, bases de données, téléphones, serveurs:  Détecter les sentiments et réactions des clients  Détecter les conditions critiques ou potentiellement mortelles dans les hôpitaux , et à temps pour intervenir  Prédire des modèles météorologiques pour planifier l’usage optimal des éoliennes  Prendre des décisions risquées basées sur des données transactionnelles en temps réel  Identifier les criminels et les menaces à partir de vidéos, sons et flux de données  Étudier les réactions des étudiants pendant un cour, prédire ceux qui vont réussir, d’après les statistiques et modèles réunis au long des années (domaine Big Data in Education) INTRODUCTION AUX BIG DATA 4
  • 5. • Réunir un grand volume de données variées pour trouver de nouvelles idées • Capturer des données créées rapidement • Sauvegarder toutes ces données • Traiter ces données et les utiliser INTRODUCTION AUX BIG DATA 5
  • 6. • Extraction d’informations et décisions à partir de données, caractérisées par les 5 V:  Volume (Volume)  Variété (Variety)  Vitesse (Velocity)  Véracité (Veracity)  Valeur (Value) INTRODUCTION AUX BIG DATA 6 5 Vs du BigData Volume Vitesse Valeur Variété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes
  • 7. 7 • Le prix de stockage des données a beaucoup diminué ces 30 dernières années:  De $100,000 / Go (1980)  À $0.10 / Go (2013) • Les lieux de stockage fiables (comme des SAN: Storage Area Network) ou réseaux de stockage peuvent être très coûteux  Choisir de ne stocker que certaines données, j ugées sensibles  Perte de données, pouvant être très utiles, comme les logs • Comment déterminer les données qui méritent d’être stockées?  Transactio ns? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?  Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi. • Problèmes:  Comment stocker les données dans un endroit fiable, qui soit moins cher  Comment parcourir ces données et en extraire des info rmations facilement et rapidement? Introduction aux Big Data - ² Volume Vitesse Valeur Variété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes
  • 8. 8 • Pour un stockage dans des bases de données ou dans des entrepôts de données, les données doivent respecter un format prédéfini. • La plupart des données existantes sont non- structurées ou semi-structurées • Données sous plusieurs formats et types • On veut tout stocker:  Exemple: pour une discussion dans un centre d’appel, on peut la stocker sous forme textuelle pour son contenu, comme on peut stocker l’enregistrement en entier, pour interpréter le ton de voix du client • Certaines données peuvent paraître obsolètes, mais sont utiles pour certaines décisions:  Exemple: Pour le transport de marchandise, on a tendance à choisir le camion le plus proche. Mais parfois, ce n’est pas la meilleure solution. D’autres problèmes peuvent intervenir.  Besoin de : Données GPS, Plan de livraison du camion, Circulation, Chargement du camion, Niveau d’essence… Introduction aux Big Data 5 Vs du BigData Volume Vitesse Valeur Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Vitesse Valeur Volume Véracité
  • 9. 9 • Rapidité d’arrivée des données • Vitesse de traitement • Les données doivent être stockées à l’arrivée, parfois même des Teraoctets par jour  Sinon, risque de perte d’informations • Exemple  Il ne suffit pas de savoir quel article un client a acheté ou réservé  Si si on sait que vous avez passé plus de 5mn à consulter un article dans une boutique d’achat en ligne, il est possible de vous envoyer un email dès que cet article est soldé. Introduction aux Big Data - 5 Vs du Big Data Volume Vitesse Valeur Variété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Valeur Variété Véracité Volume
  • 10. 10 • Cela fait référence au désordre ou la fiabilité des données. Avec l’augmentation de la quantité, la qualité et précision se perdent (abréviations, typos, déformations, source peu fiable…) • Les solutions Big Data doivent remédier à cela en se référant au volume des données existantes • Nécessité d’une (très) grande rigueur dans l’organisation de la collecte et le recoupement, croisement, enrichissement des données pour lever l’incertitude et la nature imprévisible des données introduites dans les modèles mais aussi pour respecter le cadre légal pour créer la confiance et garantir la sécurité et l’intégrité des données. Introduction aux Big Data 5 Vs du BigData Volume Vitesse Valeur Variété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Valeur Variété Volume Vitesse
  • 11. • Le V le plus important • Il faut transformer toutes les données en valeurs exploitables: les données sans valeur sont inutiles • Atteindre des objectifs stratégiques de création de valeur pour les clients et pour l’entreprise dans tous les domaines d’activité INTRODUCTION AUX BIG DATA 11 5 Vs du BigData Volume Vitesse Valeur Variété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Vitesse Variété Volume Véracité Valeur
  • 12. 12 Introduction aux Big Data De nouvelles exigences nécessitent une nouvelle conception et construction Les besoins métier guident la conception de la solution Le responsable métier définit les besoins : Quelles questions doit-on poser? IT conçoit une solution avec un ensemble de structures et fonctionnalités Le responsable métier exécute les requêtes pour répondre aux questions – encore et encore
  • 13. • Appropriée pour:  Des données structurées  Opérations et processus répétitifs  Sources relativement stables  Besoins bien compris et bien cadrés INTRODUCTION AUX BIG DATA 13
  • 14. 14 IntroductionauxBigData Les sources d’information guident la découverte créative Le responsable métier et IT identifient les sources de données disponibles Denouvelles idées conduisent à l’intégration de technologies traditionnelles IT fournit une plateforme qui permet une exploration créative de toutes les données disponibles Le responsable métier détermine les questions à poser en explorant les données et relations entre elles
  • 15. • La question n’est pas :  Dois-je choisir entre l’approche classique et l’approche Big Data? • Mais plutôt:  Comment les faire fonctionner ensemble? INTRODUCTION AUX BIG DATA 15 Entrepôt de Données Plateforme Big Data Sources Traditionnelles Nouvelles Sources
  • 16. Approche Big Data Analyse Itérative et Exploratoire Responsables Métier Déterminent quelles questions poser APPROCHE BIG DATA VS APPROCHE TRADITIONNELLE 16 Responsables IT Structurent les données pour répondre à ces questions Responsables IT Fournissent une plateforme pour permettre la découverte créative Responsables Métier Explorent la plateforme pour déterminer quelles questions poser Introduction aux Big Data Approche Traditionnelle Analyse Structurée et Répétée