SlideShare ist ein Scribd-Unternehmen logo
1 von 30
La Data science au service
des entreprises
Thèse professionnelle en vue de l’obtention du Mastère Spécialisé en
« Informatique Décisionnelle »
1
Présenté par: Aymen ZAAFOURI
Année universitaire : 2014-2015
2
Origines et principes de la data science
Outils techniques
Méthodes théoriques
Conclusion
Exemples de projets data science
Plan de la présentation
Origines et principes de la Data science
3
Origines de la data science
• Une chute exponentielle des coûts de stockage
• Facebook, Google et Yahoo se sont mis à développer de nouvelles technologies
pour des besoins qui se créaient.
• les méthodes statistiques sophistiqués ont pris un essor considérable
 Révolution majeure relative aux données, que ce soit en termes d’usage ou de
quantité
4
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Le Data scientist
• Professionnel de la gestion et de l’analyse du Big data pour la stratégie et
l’opérationnel de l’entreprise.
• Maîtrise des concepts statistiques avancés
• Excellente culture technique
• Compréhension solide des enjeux métiers de son entreprise.
• « Une personne meilleure en statistique que n’importe quel développeur
et meilleure en développement que n’importe quel statisticien »
- Josh wills (Slack)
5
Mathématique Technologie
Data
Science
Métier
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
BI vs Data Science
BI Data Science
Répond aux questions :
- Que s'est-il passé ?
- Quand ?
- Qui ?
- Combien ?
- Pourquoi est-ce arrivé ?
- Cela se reproduira-t-il ?
- Que se passe-t-il si nous modifions x ?
Comprend :
- Rapports (KPI, éléments de
mesure)
- OLAP (cubes, permutation
d'axes, exploration)
- Tableaux de bord
- Surveillance/alertes
automatisées
- Analyse statistique/quantitative
- Exploration de données
- Modélisation/analytique prédictifs
- Analyse textuelle
6
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
BI vs Data Science
7
• Limites de la BI
oVolumétrie: Un datawarehouse de quelques téraoctets est très
compliqué à maintenir.
oLes données non-structurées n’ont jamais été abordées par la Business
Intelligence.
oLa BI temps réel: Architectures complexes, coûteuses et dont le retour
sur investissement a toujours été contesté.
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
8
Compréhension
du besoin
Définir l’approche
analytique
Exigence des
Données
Collecte des
données
Compréhension
des données
Préparation des
donnéesModélisation
Evaluation
Déploiement
Suivi
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science Conclusion
Outils techniques
9
Outils techniques
Technologies
10
• Hadoop est un framework 100% open source, écrit en Java.
• Scalabilité horizontale.
• Ses performances évoluent en fonction du nombre de machines constituant le cluster.
 Plus le nombre de nœuds est élevé moins le temps d’exécution des jobs est court!
• Tolère les pannes: les données sont répliquées donc récupérables suite à une défaillance.
Hadoop = MapReduce + HDFS
11
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
HDFS
Se décompose en Namenode et plusieurs Datanodes:
o Les Datanodes regroupent les blocs de données en
les répliquant.
o Le Namenode orchestre les données
MapReduce
o Etape Map : La création d’une association pour
chaque observation des fichiers partitionnés, et la
redistribution des clés sur les clusters.
o Etape Reduce : La réalisation d’une opération
mathématique d’agrégation de valeurs par clés.
12
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
• Projets liés à Hadoop: • Limites de Hadoop:
o Plusieurs fichiers de petites tailles car l’accès
aux données est un peu lent.
o Calcul intensif utilisant des données de tailles
réduites.
o Traitement séquentiel des données.
13
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
• Créé en 2009 dans le laboratoire AMPLab
• Ecrit en Scala.
• Plus rapide que Hadoop : 100 fois plus rapide en mémoire, 10 fois plus vite sur disque.
• Spark apporte des améliorations à MapReduce grâce à des étapes de shuffle/Regroupement
automatique moins coûteuses
• Spark maintient les résultats intermédiaires en mémoire plutôt que sur disque
• Le moteur d’exécution est conçu pour travailler aussi bien en mémoire que sur disque
• Il est capable de travailler avec une partie des données en mémoire, une autre sur disque.
• L’un des concurrent de Spark : Apache Flink
14
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
NoSQL
• Scalabilité horizontale
• Haute disponibilité
• Absence de shéma
Une technologie alternative et non pas
concurrente
• 4 grandes familles:
o Clé-Valeur :
o Orientée colonnes :
o Orientée graphes :
o Orientée documents :
15
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Clé Valeur
BDD Clé-Valeur
Clé
Colonne 1 : valeur
Colonne 2 : valeur
Colonne 3 : valeur
BDD Orientée colonnes
Clé
Champs 1 : valeur
Champs 2 : valeur
Champs 3 : valeur
Champs 3 : valeur
BDD Orientée document
Nœud 3
Nœud 4
Nœud 2
Nœud 1
BDD Orientée graphes
• Moteur de recherche Open Source.
• Les données sont indexées sous forme de documents.
• Avantages:
o Simplicité : Sa mise en place est très simple.
o Rapidité : Les recherches sont traitées en quasi temps réel grâce à la parallélisation des traitements.
o Scalablilité : Le rajout de nouveau nœud permet d’augmenter la capacité de traitement et d’être en haute disponibilité.
o Sauvegarde : Les données sont automatiquement sauvegardées et répliquées.
• Le projet est mature et est déjà utilisé
• En production par la Fondation Mozilla, Foursquare, ainsi que la Douane Française.
16
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Outils techniques
Langages
17
• Langage de programmation
interprété dérivé de S
• un langage de programmation
simple et efficace intégrant les
conditions, les boucles, la
récursivité
• Logiciel libre de traitement des
données et d'analyse statistiques
• Packages: e1071, ggplot2, tree,
CORElearn, FactomineR, …
• Développé par des chercheurs à
l’EPFL
• Basé sur le langage JAVA
• Avantages:
o Scalabilité
o Multi-paradigmes
18
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
• Langage interprété, gratuit et facile à
apprendre
• code facile à lire grâce aux
indentations
• Scikit-learn: bibliothèque dédiée à
l’apprentissage automatique
Méthodes théoriques
19
Méthodes théoriques
Techniques descriptives
20
Méthodes de réduction des dimensions
• Appelés aussi « Les méthodes de Statistique exploratoire
multidimensionnelle »
• Plusieurs méthodes selon la nature des variables:
• ACP: Analyse en Composantes Principales
• AFC: Analyse Factorielle des Correspondances
• ACM: Analyse des correspondances multiples
21
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Classification
• Consiste à définir des classes: Individus statistiques homogènes
• Découper l'ensemble des données étudiées en un ou plusieurs sous
ensembles nommés classes, chaque sous-ensemble devant être le
plus homogène possible
• Plusieurs méthodes de classification:
oHiérarchique ascendante
oK-means
22
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Méthodes théoriques
Techniques prédictives
23
Arbre de décision
• représente un ensemble de choix sous la forme graphique d'un arbre.
• Les différentes décisions possibles sont situés aux extrémités des
branches (les « feuilles » de l'arbre).
• Les résultats sont atteints en fonction des décisions prises à chaque
étape.
24
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Maitrise du sujet
Présentation à améliorer
Non
Oui
Temps dépassé
Présentation à améliorer
OuiNon
Bonne présentation
Régression
• La régression est un ensemble de méthodes utilisées pour analyser la
relation d'une variable par rapport à une ou plusieurs autres.
• Plusieurs méthodes:
• Régression linéaire simple
• Régression linéaire multiple
• Régression logistique dichotomique
• Régression logistique multinomiale
25
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Exemples de projets
26
• 1er site E-commerce en France selon le CA
• Croissance du volume d'affaires de 3,7 %
• 78 millions de voyages vendus en un an
• Une architecture basée sur Hadoop et
ElasticSearch
• Des requêtes temps réel pour permettre
l’analyse de 25 millions de lignes de log (1To
de données par jour.)
• Personnalisation des offres en fonction des
profils grâce à un système de
recommandation.
• Plus de 140 millions de recherches par mois.
• Détection des requêtes où PagesJaunes.fr ne
fournit par le résultat attendu par l'utilisateur.
• Analyse des requêtes pour améliorer les
résultats
• Architecture basée sur ElasticSearch, Spark et
ZoomData.
• Rendre l'in terface utilisateur plus personnelle
début 2016.
27
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Conclusion
28
Conclusion
• La BI et la Data science sont complémentaires.
• Les enjeux de la data sciences sont nombreux:
• Objets connectés.
• Achat et vente des données.
29
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Merci pour votre attention
30

Weitere ähnliche Inhalte

Was ist angesagt?

[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data TalendJean-Michel Franco
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3 Mehdi TAZI
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big DataEvenements01
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIHaShem Selmi
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentariesRima Jamli Faidi
 
Nouvelles opportunités pour les données fortement interconnectées : La base d...
Nouvelles opportunités pour les données fortement interconnectées : La base d...Nouvelles opportunités pour les données fortement interconnectées : La base d...
Nouvelles opportunités pour les données fortement interconnectées : La base d...Cédric Fauvet
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012datasio
 
Croisière sur le data lake
Croisière sur le data lakeCroisière sur le data lake
Croisière sur le data lakeDavid Morel
 
Neo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j
 
Keynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreuxKeynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreuxAlexia Audevart
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...Aurélien Malo
 
Neo4j et ses cas d'usages
Neo4j et ses cas d'usagesNeo4j et ses cas d'usages
Neo4j et ses cas d'usagesNeo4j
 

Was ist angesagt? (20)

[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big Data
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Nouvelles opportunités pour les données fortement interconnectées : La base d...
Nouvelles opportunités pour les données fortement interconnectées : La base d...Nouvelles opportunités pour les données fortement interconnectées : La base d...
Nouvelles opportunités pour les données fortement interconnectées : La base d...
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
lean development
lean developmentlean development
lean development
 
Croisière sur le data lake
Croisière sur le data lakeCroisière sur le data lake
Croisière sur le data lake
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Neo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métier
 
Big data
Big dataBig data
Big data
 
Keynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreuxKeynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreux
 
Chapitre i-intro
Chapitre i-introChapitre i-intro
Chapitre i-intro
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
 
Neo4j et ses cas d'usages
Neo4j et ses cas d'usagesNeo4j et ses cas d'usages
Neo4j et ses cas d'usages
 

Andere mochten auch

Tunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouriTunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouriAymen ZAAFOURI
 
Memoire recherche
Memoire rechercheMemoire recherche
Memoire recherchetmauriac
 
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...Le_GFII
 
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...Guillaume MOCQUET
 
A la recherche d'ElasticSearch
A la recherche d'ElasticSearchA la recherche d'ElasticSearch
A la recherche d'ElasticSearchNinnir
 
Chapitre2 prise en_main_kibana
Chapitre2 prise en_main_kibanaChapitre2 prise en_main_kibana
Chapitre2 prise en_main_kibanaFabien SABATIER
 
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatfifi75
 
Logging with Elasticsearch, Logstash & Kibana
Logging with Elasticsearch, Logstash & KibanaLogging with Elasticsearch, Logstash & Kibana
Logging with Elasticsearch, Logstash & KibanaAmazee Labs
 
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Jean-Pierre Riehl
 
Intro to Data Science for Enterprise Big Data
Intro to Data Science for Enterprise Big DataIntro to Data Science for Enterprise Big Data
Intro to Data Science for Enterprise Big DataPaco Nathan
 
10 R Packages to Win Kaggle Competitions
10 R Packages to Win Kaggle Competitions10 R Packages to Win Kaggle Competitions
10 R Packages to Win Kaggle CompetitionsDataRobot
 
Myths and Mathemagical Superpowers of Data Scientists
Myths and Mathemagical Superpowers of Data ScientistsMyths and Mathemagical Superpowers of Data Scientists
Myths and Mathemagical Superpowers of Data ScientistsDavid Pittman
 
How to Become a Data Scientist
How to Become a Data ScientistHow to Become a Data Scientist
How to Become a Data Scientistryanorban
 
Artificial neural network
Artificial neural networkArtificial neural network
Artificial neural networkDEEPASHRI HK
 
Artificial Intelligence Presentation
Artificial Intelligence PresentationArtificial Intelligence Presentation
Artificial Intelligence Presentationlpaviglianiti
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data businessVincent de Stoecklin
 
Tips for data science competitions
Tips for data science competitionsTips for data science competitions
Tips for data science competitionsOwen Zhang
 
Tutorial on Deep learning and Applications
Tutorial on Deep learning and ApplicationsTutorial on Deep learning and Applications
Tutorial on Deep learning and ApplicationsNhatHai Phan
 

Andere mochten auch (20)

Tunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouriTunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouri
 
Memoire recherche
Memoire rechercheMemoire recherche
Memoire recherche
 
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
 
Chapitre1 elk chez_psa
Chapitre1 elk chez_psaChapitre1 elk chez_psa
Chapitre1 elk chez_psa
 
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
 
A la recherche d'ElasticSearch
A la recherche d'ElasticSearchA la recherche d'ElasticSearch
A la recherche d'ElasticSearch
 
Chapitre2 prise en_main_kibana
Chapitre2 prise en_main_kibanaChapitre2 prise en_main_kibana
Chapitre2 prise en_main_kibana
 
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
 
IPTV
IPTVIPTV
IPTV
 
Logging with Elasticsearch, Logstash & Kibana
Logging with Elasticsearch, Logstash & KibanaLogging with Elasticsearch, Logstash & Kibana
Logging with Elasticsearch, Logstash & Kibana
 
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
 
Intro to Data Science for Enterprise Big Data
Intro to Data Science for Enterprise Big DataIntro to Data Science for Enterprise Big Data
Intro to Data Science for Enterprise Big Data
 
10 R Packages to Win Kaggle Competitions
10 R Packages to Win Kaggle Competitions10 R Packages to Win Kaggle Competitions
10 R Packages to Win Kaggle Competitions
 
Myths and Mathemagical Superpowers of Data Scientists
Myths and Mathemagical Superpowers of Data ScientistsMyths and Mathemagical Superpowers of Data Scientists
Myths and Mathemagical Superpowers of Data Scientists
 
How to Become a Data Scientist
How to Become a Data ScientistHow to Become a Data Scientist
How to Become a Data Scientist
 
Artificial neural network
Artificial neural networkArtificial neural network
Artificial neural network
 
Artificial Intelligence Presentation
Artificial Intelligence PresentationArtificial Intelligence Presentation
Artificial Intelligence Presentation
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data business
 
Tips for data science competitions
Tips for data science competitionsTips for data science competitions
Tips for data science competitions
 
Tutorial on Deep learning and Applications
Tutorial on Deep learning and ApplicationsTutorial on Deep learning and Applications
Tutorial on Deep learning and Applications
 

Ähnlich wie La "Data science" au service des entreprises

Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4jNeo4j
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
Système d'archivage électronique mutualisé
Système d'archivage électronique mutualiséSystème d'archivage électronique mutualisé
Système d'archivage électronique mutualiséLogilab
 
Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...AbdeslamAMRANE3
 
15 03 16_data sciences pour l'actuariat_f. soulie fogelman
15 03 16_data sciences pour l'actuariat_f. soulie fogelman15 03 16_data sciences pour l'actuariat_f. soulie fogelman
15 03 16_data sciences pour l'actuariat_f. soulie fogelmanArthur Charpentier
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Denodo
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Excelerate Systems
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationORSYS
 
Doxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décisionDoxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décisionDOXACONSEILRHetFORMA
 
Ged Open Source - Documation 2010
Ged Open Source - Documation 2010Ged Open Source - Documation 2010
Ged Open Source - Documation 2010Thomas Choppy
 
Introduction à Neo4j - La base de données de graphes - 2016
Introduction à Neo4j - La base de données de graphes - 2016Introduction à Neo4j - La base de données de graphes - 2016
Introduction à Neo4j - La base de données de graphes - 2016Cédric Fauvet
 
5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agileagileDSS
 
BUSINESS INTELIGENCE : Exploitation d'un Datamart
BUSINESS INTELIGENCE : Exploitation d'un DatamartBUSINESS INTELIGENCE : Exploitation d'un Datamart
BUSINESS INTELIGENCE : Exploitation d'un DatamartFalitokiniaina Rabearison
 

Ähnlich wie La "Data science" au service des entreprises (20)

Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4j
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Système d'archivage électronique mutualisé
Système d'archivage électronique mutualiséSystème d'archivage électronique mutualisé
Système d'archivage électronique mutualisé
 
chap4.pdf
chap4.pdfchap4.pdf
chap4.pdf
 
Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...
 
15 03 16_data sciences pour l'actuariat_f. soulie fogelman
15 03 16_data sciences pour l'actuariat_f. soulie fogelman15 03 16_data sciences pour l'actuariat_f. soulie fogelman
15 03 16_data sciences pour l'actuariat_f. soulie fogelman
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
 
1-Intro to DB.pptx
1-Intro to DB.pptx1-Intro to DB.pptx
1-Intro to DB.pptx
 
Doxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décisionDoxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décision
 
Big data
Big dataBig data
Big data
 
Ged Open Source - Documation 2010
Ged Open Source - Documation 2010Ged Open Source - Documation 2010
Ged Open Source - Documation 2010
 
Introduction à Neo4j - La base de données de graphes - 2016
Introduction à Neo4j - La base de données de graphes - 2016Introduction à Neo4j - La base de données de graphes - 2016
Introduction à Neo4j - La base de données de graphes - 2016
 
5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile
 
BUSINESS INTELIGENCE : Exploitation d'un Datamart
BUSINESS INTELIGENCE : Exploitation d'un DatamartBUSINESS INTELIGENCE : Exploitation d'un Datamart
BUSINESS INTELIGENCE : Exploitation d'un Datamart
 

La "Data science" au service des entreprises

  • 1. La Data science au service des entreprises Thèse professionnelle en vue de l’obtention du Mastère Spécialisé en « Informatique Décisionnelle » 1 Présenté par: Aymen ZAAFOURI Année universitaire : 2014-2015
  • 2. 2 Origines et principes de la data science Outils techniques Méthodes théoriques Conclusion Exemples de projets data science Plan de la présentation
  • 3. Origines et principes de la Data science 3
  • 4. Origines de la data science • Une chute exponentielle des coûts de stockage • Facebook, Google et Yahoo se sont mis à développer de nouvelles technologies pour des besoins qui se créaient. • les méthodes statistiques sophistiqués ont pris un essor considérable  Révolution majeure relative aux données, que ce soit en termes d’usage ou de quantité 4 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 5. Le Data scientist • Professionnel de la gestion et de l’analyse du Big data pour la stratégie et l’opérationnel de l’entreprise. • Maîtrise des concepts statistiques avancés • Excellente culture technique • Compréhension solide des enjeux métiers de son entreprise. • « Une personne meilleure en statistique que n’importe quel développeur et meilleure en développement que n’importe quel statisticien » - Josh wills (Slack) 5 Mathématique Technologie Data Science Métier Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 6. BI vs Data Science BI Data Science Répond aux questions : - Que s'est-il passé ? - Quand ? - Qui ? - Combien ? - Pourquoi est-ce arrivé ? - Cela se reproduira-t-il ? - Que se passe-t-il si nous modifions x ? Comprend : - Rapports (KPI, éléments de mesure) - OLAP (cubes, permutation d'axes, exploration) - Tableaux de bord - Surveillance/alertes automatisées - Analyse statistique/quantitative - Exploration de données - Modélisation/analytique prédictifs - Analyse textuelle 6 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 7. BI vs Data Science 7 • Limites de la BI oVolumétrie: Un datawarehouse de quelques téraoctets est très compliqué à maintenir. oLes données non-structurées n’ont jamais été abordées par la Business Intelligence. oLa BI temps réel: Architectures complexes, coûteuses et dont le retour sur investissement a toujours été contesté. Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 8. 8 Compréhension du besoin Définir l’approche analytique Exigence des Données Collecte des données Compréhension des données Préparation des donnéesModélisation Evaluation Déploiement Suivi Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 11. • Hadoop est un framework 100% open source, écrit en Java. • Scalabilité horizontale. • Ses performances évoluent en fonction du nombre de machines constituant le cluster.  Plus le nombre de nœuds est élevé moins le temps d’exécution des jobs est court! • Tolère les pannes: les données sont répliquées donc récupérables suite à une défaillance. Hadoop = MapReduce + HDFS 11 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 12. HDFS Se décompose en Namenode et plusieurs Datanodes: o Les Datanodes regroupent les blocs de données en les répliquant. o Le Namenode orchestre les données MapReduce o Etape Map : La création d’une association pour chaque observation des fichiers partitionnés, et la redistribution des clés sur les clusters. o Etape Reduce : La réalisation d’une opération mathématique d’agrégation de valeurs par clés. 12 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 13. • Projets liés à Hadoop: • Limites de Hadoop: o Plusieurs fichiers de petites tailles car l’accès aux données est un peu lent. o Calcul intensif utilisant des données de tailles réduites. o Traitement séquentiel des données. 13 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 14. • Créé en 2009 dans le laboratoire AMPLab • Ecrit en Scala. • Plus rapide que Hadoop : 100 fois plus rapide en mémoire, 10 fois plus vite sur disque. • Spark apporte des améliorations à MapReduce grâce à des étapes de shuffle/Regroupement automatique moins coûteuses • Spark maintient les résultats intermédiaires en mémoire plutôt que sur disque • Le moteur d’exécution est conçu pour travailler aussi bien en mémoire que sur disque • Il est capable de travailler avec une partie des données en mémoire, une autre sur disque. • L’un des concurrent de Spark : Apache Flink 14 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 15. NoSQL • Scalabilité horizontale • Haute disponibilité • Absence de shéma Une technologie alternative et non pas concurrente • 4 grandes familles: o Clé-Valeur : o Orientée colonnes : o Orientée graphes : o Orientée documents : 15 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion Clé Valeur BDD Clé-Valeur Clé Colonne 1 : valeur Colonne 2 : valeur Colonne 3 : valeur BDD Orientée colonnes Clé Champs 1 : valeur Champs 2 : valeur Champs 3 : valeur Champs 3 : valeur BDD Orientée document Nœud 3 Nœud 4 Nœud 2 Nœud 1 BDD Orientée graphes
  • 16. • Moteur de recherche Open Source. • Les données sont indexées sous forme de documents. • Avantages: o Simplicité : Sa mise en place est très simple. o Rapidité : Les recherches sont traitées en quasi temps réel grâce à la parallélisation des traitements. o Scalablilité : Le rajout de nouveau nœud permet d’augmenter la capacité de traitement et d’être en haute disponibilité. o Sauvegarde : Les données sont automatiquement sauvegardées et répliquées. • Le projet est mature et est déjà utilisé • En production par la Fondation Mozilla, Foursquare, ainsi que la Douane Française. 16 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 18. • Langage de programmation interprété dérivé de S • un langage de programmation simple et efficace intégrant les conditions, les boucles, la récursivité • Logiciel libre de traitement des données et d'analyse statistiques • Packages: e1071, ggplot2, tree, CORElearn, FactomineR, … • Développé par des chercheurs à l’EPFL • Basé sur le langage JAVA • Avantages: o Scalabilité o Multi-paradigmes 18 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion • Langage interprété, gratuit et facile à apprendre • code facile à lire grâce aux indentations • Scikit-learn: bibliothèque dédiée à l’apprentissage automatique
  • 21. Méthodes de réduction des dimensions • Appelés aussi « Les méthodes de Statistique exploratoire multidimensionnelle » • Plusieurs méthodes selon la nature des variables: • ACP: Analyse en Composantes Principales • AFC: Analyse Factorielle des Correspondances • ACM: Analyse des correspondances multiples 21 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 22. Classification • Consiste à définir des classes: Individus statistiques homogènes • Découper l'ensemble des données étudiées en un ou plusieurs sous ensembles nommés classes, chaque sous-ensemble devant être le plus homogène possible • Plusieurs méthodes de classification: oHiérarchique ascendante oK-means 22 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 24. Arbre de décision • représente un ensemble de choix sous la forme graphique d'un arbre. • Les différentes décisions possibles sont situés aux extrémités des branches (les « feuilles » de l'arbre). • Les résultats sont atteints en fonction des décisions prises à chaque étape. 24 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion Maitrise du sujet Présentation à améliorer Non Oui Temps dépassé Présentation à améliorer OuiNon Bonne présentation
  • 25. Régression • La régression est un ensemble de méthodes utilisées pour analyser la relation d'une variable par rapport à une ou plusieurs autres. • Plusieurs méthodes: • Régression linéaire simple • Régression linéaire multiple • Régression logistique dichotomique • Régression logistique multinomiale 25 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 27. • 1er site E-commerce en France selon le CA • Croissance du volume d'affaires de 3,7 % • 78 millions de voyages vendus en un an • Une architecture basée sur Hadoop et ElasticSearch • Des requêtes temps réel pour permettre l’analyse de 25 millions de lignes de log (1To de données par jour.) • Personnalisation des offres en fonction des profils grâce à un système de recommandation. • Plus de 140 millions de recherches par mois. • Détection des requêtes où PagesJaunes.fr ne fournit par le résultat attendu par l'utilisateur. • Analyse des requêtes pour améliorer les résultats • Architecture basée sur ElasticSearch, Spark et ZoomData. • Rendre l'in terface utilisateur plus personnelle début 2016. 27 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 29. Conclusion • La BI et la Data science sont complémentaires. • Les enjeux de la data sciences sont nombreux: • Objets connectés. • Achat et vente des données. 29 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  • 30. Merci pour votre attention 30