Valtech - Big Data en action

Pierre Yves Koenig
Data Scientist
Valtech Toulouse
2
Open
Data Scientist
Sommaire
• Qu’est-ce que l’« Open Data Scientist »?
• Cas d’étude « eReputation »
• Cas d’étude « Recommandation »
• Cas d’étude « Molécules »
• Cas d’étude « Velib » (ébauche)
• Conclusion
Géraud Dugé de Bernonville
Architecte Big Data
Valtech Toulouse

4
Big Data
Buzz
« Big data is like teenage sex:
everyone talks about it,
nobody really knows how to do it,
everyone thinks everyone else is doing it,
so everyone claims they are doing it. »
Dan Ariely

10,2 M€
Reste
du
Monde
36 M€
USA
36,3 M€
EUROPE DU SUD
5
Big Data
Quelles solutions?

Nouveaux outils pour l’organisation
des données
• « schema-less »
• Tolérants aux pannes
• Disponibles
• Distribués
6
Big Data
NoSQL

7
Big Data
Architectures
Temps réel
Vs.
Batch

• Liste non exhaustive !!!
• Chaque jour de nouveaux acteurs
8
Big Data
En perpétuelle
évolution

9
Picto
section
Répondre
à une
problématique

10
Big Data
Démarche Valtech
Pour cela Valtech propose une démarche itérative
• Data architecte / architecte SI
• Rôle prédominant du « Data Scientist »

10,2 M€
Reste
du
Monde
36 M€
USA
36,3 M€
EUROPE DU SUD
65,1 M€
EUROPE
DU NORD
11
Open
Data Scientist
“Data Scientist: The
Sexiest Job of the 21st”
“Data Scientist’s Salary:
$150,000 – $250,000 a year”
fortune.com

12
Data
Science
Un domaine pluri-disciplinaire

14
Big Data
Du POC à la mise en
oeuvre
Utilisation de KNIME pour le prototypage, la fouille de données
Déclinaison vers des implémentations Big Data adaptées

10,2 M€
Reste
du
Monde
36 M€
USA
36,3 M€
EUROPE DU SUD
65,1 M€
EUROPE
DU NORD
« Elle est diffusée de manière
structurée selon une méthodologie et
une licence ouverte garantissant son
libre accès et sa réutilisation par tous,
sans restriction technique, juridique
ou financière. »
15
Cas d’utilisation
Open Data

Enjeux
Open Data
• Source d’innovation
16
• Tranquilien (SNCF)
• Paris’Moov
• Concours

17
Picto
section
Data Scientist
ToolBox

18
ToolBox
KNIME
Description

19
ToolBox
Tulip
Description

20
Picto
section
Démarche
Data Scientist

21
Démarche
Case Study
• Collecte de l’information
• Pré-traitement
• Traitement
• Regroupement
• Présentation
Case Study :
• eReputation
• Recommandation
• Molecules
• Velib

22
Picto
section
Case study
eReputation

65,1 M€
EUROPE
DU NORD
23
Case study
eReputation
• Problématique
• Collecte d’information
• Pré-traitement
• Traitement
• Regroupement
• Présentation

24
Du POC au Big Data
eReputation
• Cloud Amazon
• Elastic MapReduce
• DynamoDB
• Hadoop et Mahout

25
Du POC au Big Data
eReputation

26
Picto
section
Case study
Recommandation

27
Case study
Recommandation
• Problématique
• Pré-traitement
• Traitement
• Regroupement
• Présentation

28
Picto
section
Case study
Molécules

29
Case study
Molécules
• Problématique
• Pré-traitement
• Traitement
• Regroupement
• Présentation / Exploration

31
Analyse et Structure de la donnée
Pré traitement des données

32
Case study
Molécules
Phase de traitement
Choix du type de distance :
• euclidienne
• cosinus
• Tanimoto
• …

33
Réseau de molécules
Filtres

34
Visualisation du réseau
Exploration

35
Case study
Molécules
Dessin de graphe :
Algrithme force-resort

36
Case study
Molécules
Dessin de graphe :
Treemap circulaire

37
Exploration
Par voisinage

38
Case study
Molécules
Demo

39
Picto
section
Case study
Velib’

40
Case study
Velib’
• Problématique
• Pré-traitement
• Traitement
• Regroupement
• Présentation
• Définition d’un modèle
prédictif

41
Case study
Velib’
Définition d’un model prédictif
• Ajout des informations sur la météo
• Evaluation

42
Picto
section
Pour conclure

43
Pour aller plus loin
Positionnement
Valtech
Positionnement de Valtech :
• Brainstormings pour identifier les cas d’utilisation
• Conseil en Architecture Big Data
• Expertise NoSQL, Hadoop
• Analyse de données
• Formations Big Data, NoSQL, Hadoop

44
Picto
section
Merci
de votre
attention

Valtech - Big Data en action

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Valtech - Big Data en action

Ähnlich wie Valtech - Big Data en action (20)

Mehr von Valtech

Mehr von Valtech (20)

Valtech - Big Data en action

Hinweis der Redaktion