Analytics & Machine Learning avec la Data Virtualization

Analytics & Machine Learning
avec la Data Virtualization
Emily Sergent
Sales Engineer
Juin 2019

Emily Sergent
Sales Engineer, Denodo Paris
Présentation

1. Vers l’analytique avancée
2. Les challenges de la donnée
3. Les architectures virtuelles
4. Machine Learning et Denodo : démo
5. Cas d’usage : McCormick
6. Q&A
7. Prochaines étapes
Agenda

4
Vers l’analytique avancée : valeur et investissement

5
Vers l’analytique avancée : le « gouffre » à franchir

6
Le cycle de vie de la Data Science
Un workflow type de data scientist :
1. Déterminer la cible de l’étude
2. Identifier et collecter les données pertinentes
3. Mettre les données dans un format utile
4. Analyser les données sélectionnées
5. Préparer les données dans le format attendu par
les algorithmes de Machine Learning
6. Exécuter les algorithmes (apprentissage)
7. Visualiser et partager les résultats

7
Le cycle de vie de la Data Science
80% du temps est passé à chercher les données
10% du temps est passé à analyser les données
10% du temps est passé à visualiser les données

8
L’accès aux données… partir à l’aventure ?
Trouver les données pertinentes
Obtenir l’accès
Maîtriser des technologies hétérogènes
(noSQL, REST APIs, etc.)
Transformer dans un format utile
Combiner les différentes sources
Nettoyer les données
Transformer pour les algorithmes ML
Partager les données, les méthodes, et les
résultats
Photo by Jasper van der Meij on Unsplash

9
Data Lake – La solution?
Mais… un investissement important
Sans gestion, un « Data Swamp »
Réplication, réplication, réplication…
souvent sans valeur ajoutée
Peut vite devenir chronophage pour les
data scientists… et pour l’IT
Puissance de calcul à moindre coût
Flexibilité
Photo by Aaron Burden on Unsplash

10
La Data Virtualization
Une infrastructure data mutualisée
Sécurité et accès maîtrisés
Plate-forme unique pour Data Science,
Analytics et APIs
Valeur extraite de vos technologies
existantes (RDBMS, Hadoop, etc.)
Investissement optimisé
Time-to-Data réduit
Photo by Tiago Gerken on Unsplash

11
Les architectures virtuelles
The evolution of Analytical Architectures: Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs, Gartner April 2018

12
Architecture Information Agile
Data Access
Security
Governance and Metadata management
Unstructured Data
Structured Data
RDBMS
Excel
Flat Files
XML
Email
Sensors (IIoT)
Social Media
RFID
Wearables
Storage
Compute
IMDG
Data Ingestion
Real Time/
Data Streaming
CDC
Metadata
Enrichment
Data Virtualization
Data Services
Data Insight
Data Mining
Dashboards
Data Discovery
and Self-Service
Reporting
Search and Index
SaaS Applications
Batch
Data Warehouse
RDBMS
Big Data Lakes
noSQL

13
Gartner, Adopt the Logical Data Warehouse Architecture to Meet Your Modern
Analytical Needs, May 2018
“When designed properly, Data Virtualization can speed data
integration, lower data latency, offer flexibility and reuse, and
reduce data sprawl across dispersed data sources.
Due to its many benefits, Data Virtualization is often the first step
for organizations evolving a traditional, repository-style data
warehouse into a Logical Architecture”

14
Etapes du workflow de la Data Science
Identifiez les
données utiles
Modifier les données dans
un format utile
Analyser
les données
Exécuter les algorithmes
de data science
(ML, AI, etc.)
Partagez avec les
utilisateurs métiers
Préparer pour les
algorithmes ML

Démonstration
Optimiser le workflow Data Science avec Denodo
15

16
https://flic.kr/p/x8HgrF
Peut-on prédire l’usage des vélos new-yorkais
à partir des données des années précédentes?

17
Source de données – Citibike

18
Quels sont les facteurs externes à prendre en
considération?
https://flic.kr/p/CYT7SS

19
Source de données – NWS Weather Data

20
Ce que l’on va faire…
1. Explorer les données mises à disposition
2. Formatter les données pour faciliter notre compréhension
• Comprendre les facteurs temporels, les conditions climatiques, etc.
3. Une fois les facteurs importants identifiés, formatter les données en
entrée des algorithmes
4. Avec Python, « entraîner » l’algorithme ML sur les données 2017
5. Lire les données de 2018 et les comparer avec nos prédictions

24
McCormick Spice
Data Services
(Data Virtualization)
API Management and Runtime
Semantics & Discovery
Governance
Security
System 1 System n
External
API $
Governance
Security

25
McCormick Spice
L’approche
1. Requête envoyée par le modèle pour obtenir les données
2. Entrainement partiel ou complet du modèle
Algorithms
Backend
Systems
External
Systems
1
Request Enterprise
Data
Services
2 Collect
train
4 3
Receive
Bénéfices
✓ Données fraîches
✓ Sans réplication
✓ Partage des données sans étape manuelle de validation
✓ Plateforme adaptée à l’apprentissage

26
A retenir
• The Denodo Platform makes all kinds of data – from a variety of
data sources – readily available to your data analysts and data
scientists
• Data virtualization shortens the ‘data wrangling’ phases of
analytics/ML projects
• Avoids needing to write ‘data prep’ scripts in Python, R, etc.
• It’s easy to access and analyze the data from analytics tools such as
Zeppelin or Jupyter
• You can use the Denodo Platform to share the results of your
analytics with others
• Et enfin… même les new-yorkais n’aiment pas faire du vélo
sous la neige
• La plate-fome Denodo peut rendre toutes vos données
facilement accessibles pour les analystes et les data scientists
• Les étapes d’accès et de transformation des données sont
plus rapides
• L’accès est simple depuis les outils populaires, tels Zeppelin
or Jupyter
• Denodo peut également vous aider à partager les résultats de
vos recherches

28
Prochaines étapes
Essayez Denodo dès aujourd’hui avec notre
Test Drive !
www.denodo.com/TestDrive
C’EST A VOUS

Merci !
www.denodo.com info@denodo.com
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm,
without prior the written authorization from Denodo Technologies.

Analytics & Machine Learning avec la Data Virtualization

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Analytics & Machine Learning avec la Data Virtualization

Ähnlich wie Analytics & Machine Learning avec la Data Virtualization (20)

Mehr von Denodo

Mehr von Denodo (20)

Analytics & Machine Learning avec la Data Virtualization