Le buzz est à son comble, tout le monde en parle, mais avez-vous vu un Data Scientist travailler en temps réel sur des données Big Data ? Découvrez un cas d’utilisation basé sur des données Open Data et sur un modèle predictif.
Hervé Desaunois - Directeur technique, Valtech Toulouse
herve.desaunois@valtech.fr
Pierre-Yves Koenig – Data Scientist, Valtech Toulouse
pierre-yves.koenig@valtech.fr
2. Pierre Yves Koenig
Data Scientist
Valtech Toulouse
2
Open
Data Scientist
Sommaire
• Qu’est-ce que l’« Open Data Scientist »?
• Cas d’étude « eReputation »
• Cas d’étude « Recommandation »
• Cas d’étude « Molécules »
• Cas d’étude « Velib » (ébauche)
• Conclusion
Géraud Dugé de Bernonville
Architecte Big Data
Valtech Toulouse
4. 4
Big Data
Buzz
« Big data is like teenage sex:
everyone talks about it,
nobody really knows how to do it,
everyone thinks everyone else is doing it,
so everyone claims they are doing it. »
Dan Ariely
5. 10,2 M€
Reste
du
Monde
36 M€
USA
36,3 M€
EUROPE DU SUD
5
Big Data
Quelles solutions?
6. Nouveaux outils pour l’organisation
des données
• « schema-less »
• Tolérants aux pannes
• Disponibles
• Distribués
6
Big Data
NoSQL
10. 10
Big Data
Démarche Valtech
Pour cela Valtech propose une démarche itérative
• Data architecte / architecte SI
• Rôle prédominant du « Data Scientist »
11. 10,2 M€
Reste
du
Monde
36 M€
USA
36,3 M€
EUROPE DU SUD
65,1 M€
EUROPE
DU NORD
11
Open
Data Scientist
“Data Scientist: The
Sexiest Job of the 21st”
“Data Scientist’s Salary:
$150,000 – $250,000 a year”
fortune.com
14. 14
Big Data
Du POC à la mise en
oeuvre
Utilisation de KNIME pour le prototypage, la fouille de données
Déclinaison vers des implémentations Big Data adaptées
15. 10,2 M€
Reste
du
Monde
36 M€
USA
36,3 M€
EUROPE DU SUD
65,1 M€
EUROPE
DU NORD
« Elle est diffusée de manière
structurée selon une méthodologie et
une licence ouverte garantissant son
libre accès et sa réutilisation par tous,
sans restriction technique, juridique
ou financière. »
15
Cas d’utilisation
Open Data
16. Enjeux
Open Data
• Source d’innovation
16
• Tranquilien (SNCF)
• Paris’Moov
• Concours
23. 65,1 M€
EUROPE
DU NORD
23
Case study
eReputation
• Problématique
• Collecte d’information
• Pré-traitement
• Traitement
• Regroupement
• Présentation
24. 24
Du POC au Big Data
eReputation
• Cloud Amazon
• Elastic MapReduce
• DynamoDB
• Hadoop et Mahout
43. 43
Pour aller plus loin
Positionnement
Valtech
Positionnement de Valtech :
• Brainstormings pour identifier les cas d’utilisation
• Conseil en Architecture Big Data
• Expertise NoSQL, Hadoop
• Analyse de données
• Formations Big Data, NoSQL, Hadoop
Visuel à remplacer par une nouvelle photo montrant en premier plan net les nouveaux devices, et en arrière plan, flou, les hommes qui développent et utilisent ce objets.
À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
Ref — Dan Ariely
Date de janvier 2013, depuis cela a évolué: il existe de véritables réalisation de Big Data
Ref : http://batman.wikia.com/wiki/The_Riddler_%28Frank_Gorshin%29
Idéalement, il faut partir d’une problématique, pour aider, Valtech mets en place des sessions de Brainstorming basées sur des Innovation games afin de définir les cas d’utilisation
Salaire: https://datajobs.com/big-data-salary
Ref: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Statistics helps by making sure your conclusions are valid. Machine learning helps by making your predictions of the future accurate. Math is a general skill that helps everything.
Les dangers:
Finding false causation
Building bad models
Bad A/B tests
Telling bad stories
Ref: http://www.quora.com/In-the-data-science-venn-diagram-why-is-the-common-region-of-Hacking-Skills-and-Substantive-Expertise-considered-as-danger-zone
Ref http://www.tylervigen.com/
Proto avec Knime: Knime plateforme dotée d’un ETL, permettant l’analyse de donnée et la visualisation.
L’idée est de valider une méthologie avec KNIME qui permet un prototypage rapide
http://www.w3.org/DesignIssues/LinkedData.html
http://www.w3.org/DesignIssues/LinkedData.html
À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
Le datascientist intervient a different dans le processus d’analyse.
Source -> validité
Manipulation -> pourquoi filtrer des valeur qui sont par exemple statistiquement non significative
Valarisation -> quels type d’algorithm est le mieux adapter à la question posée
IL nous faut une question
`
Collect de l’information
- Au choix : bd sql /nosql; fichier, des site internet, web service …
Pre traitement des données
Utilisation massive de knime
Le pre traitement peut etre du text mining -> case study eReputation
Recherche d’artefacts ou données non utiles-> recommandation
Image : histogram des couleur
Text : occurrence – filtre -> eReputation
Filter -> velib
Valorisation
Suivant le type des données
Image : feature inside, classification
Text : mise en evidence de thematique, regroupement de document -> ereputaion
Suivant la masse des données
Regroupement -> molecules
Suivant la complexité des données
Structuration de la donnée
Mise en graphe -> molecules
Regroupement / clustering ou profilage
Definitionde model predictif
Presentation/ representation
Information peut rester volumineuse
Differentes representations
Visualisation
À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
• problématique
- visibilité
- positionnement
veille technologique
• collect d’information
- differentes source d’information (google,
twitter …)
- Nb rows?
• pre traitement
- text mining (stop word,
pos filter, tf idf)
- Nb words?
• traitement
- regroupement
kmean
- Nb words/cluster?
À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
• problematique
- amazon, .. wikipedia
- recommander un film
etant donné un film, le
conseiller ou pas
j’aime les films que mes voisins aiment.
Voisin?
• regroupement
- profil
À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
Nous allons ici vous presenter un cas d’etude resultant d’une mission chez un groupe pharmasotique.
Comme toujours nous allons suivre la demarche de definition de la problematique, les données,
Les differents traitement réalisé …
Contexte :On se place dans un contexte de recherche en pharmacologie. Le développement d’un médicament est un processus long (une dizaine d’années) qui commence toujours par le choix de molécules à investiguer. Partant d’une collection importante de molécules, il faut choisir suivant différents critères un sous ensemble prometteur. Comment faire ?
// to be add
but :
Trouver des nouveaux médicaments
Améliorer des médicament existant Médicament = molécule
Tester toutes les molécules : impossible ! $$ !( Collection de plus de 3 millions molécules)
Comment choisir les bonnes molécules à tester?
Analyse et Structuration de la donnée :
On peut pour chaque molécule calculer une empreinte digitale de par leur structure chimique. Ce calcul consiste à répertorier l’ensemble des sous graphes constituant les molécules. Pour chaque molécule on obtient un vecteur caractéristique. Cette opération est très couteuse et est souvent parallélisée. Ces vecteurs vont nous permettre de comparer les molécules entre elles en calculant une distance entre ces vecteurs. La distance qu’on utilise est une distance d’inclusion (Tanimoto), montrant ainsi combien deux molécules partagent une même structure.
Quelle distance choisir …
Il existe enormement de distance et il convient de choisir la mieux adapter a notre cas :
Euclidienne : les données sont projeter dans le plan euclidien suivant x et y et on calcule alors la distance entre (x1, y1) et (x2, y2)
cosinus : le cosinus de l’angle formé par les deux vecteurs (souvant utilisé pour les vecteurs de mot avec ponderation tf idf)
tanimoto : (A n B) / (A u B) -> distance ensembliste (peut etre pondérée)
mahathan
…
Dans notre cas ce qui nous interesse c’est le sous ensemble comun entre les molecules. On va donc s’orienter vers une distance ensembliste tel que Tanimoto
Réseau de molécules :On construit ainsi un réseau dans lequel les entités sont nos molécules et les relations entre elles sont pondérées par la distance de Tanimoto. Au début nous avons un graphe complet où toutes les molécules sont reliées entre elles. Une distance de Tanimoto inférieur à 0,7 est jugée comme non significative, un premier filtre est donc appliqué à notre réseau. Cette opération va nous déconnecter le réseau de molécule faisant ainsi apparaitre des groupes de molécules (séries chimiques). L’utilisateur expert du métier va vouloir une représentation de ce réseau afin de pouvoir l’explorer.
Visualisation du réseau :Il va pouvoir dans un premier temps valider ou non le découpage et le cas échéant l’affiner en jouant sur les filtres mis à sa disposition. Cette visualisation va lui permettre aussi de contrôler la véracité de l’information et modifier le réseau localement. La visualisation du réseau permet par des artifices visuels de rendre compte de propriétés des données. En effet sur une molécule, nous disposons de plus d’information que sa structure chimique. Comme par exemple l’ensemble des tests d’activité, de toxicités… . Ces informations peuvent être représentés par la couleur, la taille, ou encore la texture du cercle qui la représente.
Chaque composant connexte, ou serie chimique, est desinner a l’aide d’un algorithme force resort.
Les molecules sont consideré comme des billes metlique ayant une charge electrique variable.
Les liens entre molecule sont quant a eux considéré comme des resort ayant une taille initiale et une raideur.
L’algorithme de dessin est inspiré de la phisque et de la loie d’equilibre des system.
Negligeant les frotements , l’algorithme simule les attraction et repulsion des molecules jusqu’’atteindre l’equibre.
L’ensemble des composantes sont considerés par la suite comme des nœuds, on suit alors un algorithme de pavage de l’espace.
Le plus souvant carré ou rectangulaire, la treemap choisie ici est la treemap circulaire.
On choisi alors de placer la composante la plus grosse (ayant le plus de molecule) au centre du dessin.
D’autre algorithme de dessin consiste a utiliser une treemap classique comme grille, on parle alors de packing component
Cet algortihme de dessin a été concu dans un soucis de lisibilité, de taille et de vitesse.
Exploration par voisinage :L’activité d’une molécule décrit la quantité de produit nécessaire afin d’avoir un effet notable. Ainsi plus une molécule est active, plus sont absorption est facile jouant ainsi sur la posologie du médicament. Notre réseau peut être orienté en fonction de l’activité de ces molécules. Cela permet de par une navigation par voisinage d’affiner la sélection. Par exemple, pour une molécule dont l’activité est faible avec une posologie en intra veineuse, on peut vouloir cherche dans son voisinage une molécule plus active ayant le même principe actif avec une posologie moins contraignante. Une exploration par voisinage est donc ici nécessaire.
Ce n’est pas la seul interaction que nous fournissons à l’utilisateur. Un calcul des plus court chemin peut par exemple renseigner sur le processus de synthèse de la molécule cible.
Dans cette demo, malheureusement vous ne pourez pas voir le logitiel qui a été utilisé pour les images, ce logitiel est la propriété du client.
Par contre avec l’aide de knime et de tulip nous pouvons nous en approcher tres fortement, avec moins d’interaction specifique bien sure.
Cependant, tulip offre des interacteur tres interessant pour une exploration de proche en proche … par voisinage.
À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
• Prédire l’occupation d’une station en terme de place disponible et de vélo disponible
• Prévoir un itinéraire
• Stockage de la données (on ne stock
que les changements)
• Agrégation de l’information par 5, 10 minute,
par heure, par jours
• Open data : web service qui interoge toute les minute
l’ensemble des stations de paris
• Prevision meteo
• Calendrier (weekend et jours feries)
À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.
À conserver en attendant de disposer d’un nouveau visuel, fortement inspiré du visage de David Bowman dans 2001 l’odysée de l’espace.