Watch full webinar here: [https://buff.ly/2ZaQk8S]
La data science avancée, telle que le machine learning, se révèle être un outil extrêmement utile pour tirer des informations et de la valeur des données existantes. Cependant, une grande partie des ressources (comme les data scientists) se voit affectée à la recherche des bonnes données et à leur préparation.
Dans ce nouveau webinar en français, nous vous montrerons comment utiliser la virtualisation des données pour obtenir les informations souhaitées de manière plus efficace et plus agile.
Rejoignez ce webinar le 6 juin pour découvrir:
*Comment la data virtualisation accélère l’acquisition et le traitement des données
*Comment la plateforme Denodo pour la virtualisation des données s'intègre à des outils tels que Spark, Python, Zeppelin, etc.
*Comment la virtualisation des données permet de gérer plus efficacement de gros volumes de données
*Cas client & démo
3. 1. Vers l’analytique avancée
2. Les challenges de la donnée
3. Les architectures virtuelles
4. Machine Learning et Denodo : démo
5. Cas d’usage : McCormick
6. Q&A
7. Prochaines étapes
Agenda
6. 6
Le cycle de vie de la Data Science
Un workflow type de data scientist :
1. Déterminer la cible de l’étude
2. Identifier et collecter les données pertinentes
3. Mettre les données dans un format utile
4. Analyser les données sélectionnées
5. Préparer les données dans le format attendu par
les algorithmes de Machine Learning
6. Exécuter les algorithmes (apprentissage)
7. Visualiser et partager les résultats
7. 7
Le cycle de vie de la Data Science
80% du temps est passé à chercher les données
10% du temps est passé à analyser les données
10% du temps est passé à visualiser les données
8. 8
L’accès aux données… partir à l’aventure ?
Trouver les données pertinentes
Obtenir l’accès
Maîtriser des technologies hétérogènes
(noSQL, REST APIs, etc.)
Transformer dans un format utile
Combiner les différentes sources
Nettoyer les données
Transformer pour les algorithmes ML
Partager les données, les méthodes, et les
résultats
Photo by Jasper van der Meij on Unsplash
9. 9
Data Lake – La solution?
Mais… un investissement important
Sans gestion, un « Data Swamp »
Réplication, réplication, réplication…
souvent sans valeur ajoutée
Peut vite devenir chronophage pour les
data scientists… et pour l’IT
Puissance de calcul à moindre coût
Flexibilité
Photo by Aaron Burden on Unsplash
10. 10
La Data Virtualization
Une infrastructure data mutualisée
Sécurité et accès maîtrisés
Plate-forme unique pour Data Science,
Analytics et APIs
Valeur extraite de vos technologies
existantes (RDBMS, Hadoop, etc.)
Investissement optimisé
Time-to-Data réduit
Photo by Tiago Gerken on Unsplash
11. 11
Les architectures virtuelles
The evolution of Analytical Architectures: Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs, Gartner April 2018
12. 12
Architecture Information Agile
Data Access
Security
Governance and Metadata management
Unstructured Data
Structured Data
RDBMS
Excel
Flat Files
XML
Email
Sensors (IIoT)
Social Media
RFID
Wearables
Storage
Compute
IMDG
Data Ingestion
Real Time/
Data Streaming
CDC
Metadata
Enrichment
Data Virtualization
Data Services
Data Insight
Data Mining
Dashboards
Data Discovery
and Self-Service
Reporting
Search and Index
SaaS Applications
Batch
Data Warehouse
RDBMS
Big Data Lakes
noSQL
13. 13
Gartner, Adopt the Logical Data Warehouse Architecture to Meet Your Modern
Analytical Needs, May 2018
“When designed properly, Data Virtualization can speed data
integration, lower data latency, offer flexibility and reuse, and
reduce data sprawl across dispersed data sources.
Due to its many benefits, Data Virtualization is often the first step
for organizations evolving a traditional, repository-style data
warehouse into a Logical Architecture”
14. 14
Etapes du workflow de la Data Science
Identifiez les
données utiles
Modifier les données dans
un format utile
Analyser
les données
Exécuter les algorithmes
de data science
(ML, AI, etc.)
Partagez avec les
utilisateurs métiers
Préparer pour les
algorithmes ML
20. 20
Ce que l’on va faire…
1. Explorer les données mises à disposition
2. Formatter les données pour faciliter notre compréhension
• Comprendre les facteurs temporels, les conditions climatiques, etc.
3. Une fois les facteurs importants identifiés, formatter les données en
entrée des algorithmes
4. Avec Python, « entraîner » l’algorithme ML sur les données 2017
5. Lire les données de 2018 et les comparer avec nos prédictions
24. 24
McCormick Spice
Data Services
(Data Virtualization)
API Management and Runtime
Semantics & Discovery
Governance
Security
System 1 System n
External
API $
Governance
Security
25. 25
McCormick Spice
L’approche
1. Requête envoyée par le modèle pour obtenir les données
2. Entrainement partiel ou complet du modèle
Algorithms
Backend
Systems
External
Systems
1
Request Enterprise
Data
Services
2 Collect
train
4 3
Receive
Bénéfices
✓ Données fraîches
✓ Sans réplication
✓ Partage des données sans étape manuelle de validation
✓ Plateforme adaptée à l’apprentissage
26. 26
A retenir
• The Denodo Platform makes all kinds of data – from a variety of
data sources – readily available to your data analysts and data
scientists
• Data virtualization shortens the ‘data wrangling’ phases of
analytics/ML projects
• Avoids needing to write ‘data prep’ scripts in Python, R, etc.
• It’s easy to access and analyze the data from analytics tools such as
Zeppelin or Jupyter
• You can use the Denodo Platform to share the results of your
analytics with others
• Et enfin… même les new-yorkais n’aiment pas faire du vélo
sous la neige
• La plate-fome Denodo peut rendre toutes vos données
facilement accessibles pour les analystes et les data scientists
• Les étapes d’accès et de transformation des données sont
plus rapides
• L’accès est simple depuis les outils populaires, tels Zeppelin
or Jupyter
• Denodo peut également vous aider à partager les résultats de
vos recherches