1. La Data science au service
des entreprises
Thèse professionnelle en vue de l’obtention du Mastère Spécialisé en
« Informatique Décisionnelle »
1
Présenté par: Aymen ZAAFOURI
Année universitaire : 2014-2015
2. 2
Origines et principes de la data science
Outils techniques
Méthodes théoriques
Conclusion
Exemples de projets data science
Plan de la présentation
4. Origines de la data science
• Une chute exponentielle des coûts de stockage
• Facebook, Google et Yahoo se sont mis à développer de nouvelles technologies
pour des besoins qui se créaient.
• les méthodes statistiques sophistiqués ont pris un essor considérable
Révolution majeure relative aux données, que ce soit en termes d’usage ou de
quantité
4
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
5. Le Data scientist
• Professionnel de la gestion et de l’analyse du Big data pour la stratégie et
l’opérationnel de l’entreprise.
• Maîtrise des concepts statistiques avancés
• Excellente culture technique
• Compréhension solide des enjeux métiers de son entreprise.
• « Une personne meilleure en statistique que n’importe quel développeur
et meilleure en développement que n’importe quel statisticien »
- Josh wills (Slack)
5
Mathématique Technologie
Data
Science
Métier
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
6. BI vs Data Science
BI Data Science
Répond aux questions :
- Que s'est-il passé ?
- Quand ?
- Qui ?
- Combien ?
- Pourquoi est-ce arrivé ?
- Cela se reproduira-t-il ?
- Que se passe-t-il si nous modifions x ?
Comprend :
- Rapports (KPI, éléments de
mesure)
- OLAP (cubes, permutation
d'axes, exploration)
- Tableaux de bord
- Surveillance/alertes
automatisées
- Analyse statistique/quantitative
- Exploration de données
- Modélisation/analytique prédictifs
- Analyse textuelle
6
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
7. BI vs Data Science
7
• Limites de la BI
oVolumétrie: Un datawarehouse de quelques téraoctets est très
compliqué à maintenir.
oLes données non-structurées n’ont jamais été abordées par la Business
Intelligence.
oLa BI temps réel: Architectures complexes, coûteuses et dont le retour
sur investissement a toujours été contesté.
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
8. 8
Compréhension
du besoin
Définir l’approche
analytique
Exigence des
Données
Collecte des
données
Compréhension
des données
Préparation des
donnéesModélisation
Evaluation
Déploiement
Suivi
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science Conclusion
11. • Hadoop est un framework 100% open source, écrit en Java.
• Scalabilité horizontale.
• Ses performances évoluent en fonction du nombre de machines constituant le cluster.
Plus le nombre de nœuds est élevé moins le temps d’exécution des jobs est court!
• Tolère les pannes: les données sont répliquées donc récupérables suite à une défaillance.
Hadoop = MapReduce + HDFS
11
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
12. HDFS
Se décompose en Namenode et plusieurs Datanodes:
o Les Datanodes regroupent les blocs de données en
les répliquant.
o Le Namenode orchestre les données
MapReduce
o Etape Map : La création d’une association pour
chaque observation des fichiers partitionnés, et la
redistribution des clés sur les clusters.
o Etape Reduce : La réalisation d’une opération
mathématique d’agrégation de valeurs par clés.
12
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
13. • Projets liés à Hadoop: • Limites de Hadoop:
o Plusieurs fichiers de petites tailles car l’accès
aux données est un peu lent.
o Calcul intensif utilisant des données de tailles
réduites.
o Traitement séquentiel des données.
13
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
14. • Créé en 2009 dans le laboratoire AMPLab
• Ecrit en Scala.
• Plus rapide que Hadoop : 100 fois plus rapide en mémoire, 10 fois plus vite sur disque.
• Spark apporte des améliorations à MapReduce grâce à des étapes de shuffle/Regroupement
automatique moins coûteuses
• Spark maintient les résultats intermédiaires en mémoire plutôt que sur disque
• Le moteur d’exécution est conçu pour travailler aussi bien en mémoire que sur disque
• Il est capable de travailler avec une partie des données en mémoire, une autre sur disque.
• L’un des concurrent de Spark : Apache Flink
14
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
15. NoSQL
• Scalabilité horizontale
• Haute disponibilité
• Absence de shéma
Une technologie alternative et non pas
concurrente
• 4 grandes familles:
o Clé-Valeur :
o Orientée colonnes :
o Orientée graphes :
o Orientée documents :
15
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Clé Valeur
BDD Clé-Valeur
Clé
Colonne 1 : valeur
Colonne 2 : valeur
Colonne 3 : valeur
BDD Orientée colonnes
Clé
Champs 1 : valeur
Champs 2 : valeur
Champs 3 : valeur
Champs 3 : valeur
BDD Orientée document
Nœud 3
Nœud 4
Nœud 2
Nœud 1
BDD Orientée graphes
16. • Moteur de recherche Open Source.
• Les données sont indexées sous forme de documents.
• Avantages:
o Simplicité : Sa mise en place est très simple.
o Rapidité : Les recherches sont traitées en quasi temps réel grâce à la parallélisation des traitements.
o Scalablilité : Le rajout de nouveau nœud permet d’augmenter la capacité de traitement et d’être en haute disponibilité.
o Sauvegarde : Les données sont automatiquement sauvegardées et répliquées.
• Le projet est mature et est déjà utilisé
• En production par la Fondation Mozilla, Foursquare, ainsi que la Douane Française.
16
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
18. • Langage de programmation
interprété dérivé de S
• un langage de programmation
simple et efficace intégrant les
conditions, les boucles, la
récursivité
• Logiciel libre de traitement des
données et d'analyse statistiques
• Packages: e1071, ggplot2, tree,
CORElearn, FactomineR, …
• Développé par des chercheurs à
l’EPFL
• Basé sur le langage JAVA
• Avantages:
o Scalabilité
o Multi-paradigmes
18
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
• Langage interprété, gratuit et facile à
apprendre
• code facile à lire grâce aux
indentations
• Scikit-learn: bibliothèque dédiée à
l’apprentissage automatique
21. Méthodes de réduction des dimensions
• Appelés aussi « Les méthodes de Statistique exploratoire
multidimensionnelle »
• Plusieurs méthodes selon la nature des variables:
• ACP: Analyse en Composantes Principales
• AFC: Analyse Factorielle des Correspondances
• ACM: Analyse des correspondances multiples
21
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
22. Classification
• Consiste à définir des classes: Individus statistiques homogènes
• Découper l'ensemble des données étudiées en un ou plusieurs sous
ensembles nommés classes, chaque sous-ensemble devant être le
plus homogène possible
• Plusieurs méthodes de classification:
oHiérarchique ascendante
oK-means
22
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
24. Arbre de décision
• représente un ensemble de choix sous la forme graphique d'un arbre.
• Les différentes décisions possibles sont situés aux extrémités des
branches (les « feuilles » de l'arbre).
• Les résultats sont atteints en fonction des décisions prises à chaque
étape.
24
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
Maitrise du sujet
Présentation à améliorer
Non
Oui
Temps dépassé
Présentation à améliorer
OuiNon
Bonne présentation
25. Régression
• La régression est un ensemble de méthodes utilisées pour analyser la
relation d'une variable par rapport à une ou plusieurs autres.
• Plusieurs méthodes:
• Régression linéaire simple
• Régression linéaire multiple
• Régression logistique dichotomique
• Régression logistique multinomiale
25
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
27. • 1er site E-commerce en France selon le CA
• Croissance du volume d'affaires de 3,7 %
• 78 millions de voyages vendus en un an
• Une architecture basée sur Hadoop et
ElasticSearch
• Des requêtes temps réel pour permettre
l’analyse de 25 millions de lignes de log (1To
de données par jour.)
• Personnalisation des offres en fonction des
profils grâce à un système de
recommandation.
• Plus de 140 millions de recherches par mois.
• Détection des requêtes où PagesJaunes.fr ne
fournit par le résultat attendu par l'utilisateur.
• Analyse des requêtes pour améliorer les
résultats
• Architecture basée sur ElasticSearch, Spark et
ZoomData.
• Rendre l'in terface utilisateur plus personnelle
début 2016.
27
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion
29. Conclusion
• La BI et la Data science sont complémentaires.
• Les enjeux de la data sciences sont nombreux:
• Objets connectés.
• Achat et vente des données.
29
Origines et principes
de la data science
Outils techniques Méthodes théoriques
Exemples de projets
data science
Conclusion