Résumé des présentations et ressources de l'événement "Parcours Big Data" organisé par @Cetic dans la cadre de la Big Data Week 2014, en collaboration avec @awtbe
2. Introduction technique
• Vieille histoire, mais stockage rare et cher.
• Coût du stockage et capacité de traitement ne sont
plus un problème.
• Bond technologique par les acteurs d’Internet :
Google, Amazon, Microsoft, Twitter, … & IOT,
industrie, …
• Tout le monde n’a pas la puissance de Facebook …
mais peut bénéficier de leur expérience.
• 3 … 6 V : Vitesse, variété, volume, … et visualisation,
véracité, valeur.
• Exemple : www.memoiredepatrimoine.com
• Stéphane Mouton @smouton de @CETIC
3. Volume des données
• Nous produisons tous des données. Explosion en
2020 avec l’Internet of Everything
• Problèmes liés au Volume : temps de traitement des
data, complexité des algorithmes
• Nouvelles idées business // auxquelles l’IT doit
répondre (exploration, analyse, vue à 360°, …).
• Exemple : analyse de données d’une banque
-> les clients fuient à cause d’une amende
-> action business.
• Hadoop … solution Open Source héritée de
l’expérience de Google.
• Une solution « unique » impossible. Compléter.
• Eric Charles @echarles de @datalayerio
4. Vitesse des données
• On est dans un flux de données, mais on en perd
trop … Catch ‘em all !
• Pas nouveau (finance, téléphonie, énergie, SCM, …),
mais plus de flux, plus rapide (social, IOT, jeux, …).
• Technologies : agile, lean, distributed computing,
Cloud, functional programming, lambda architecture.
• Spark-Streaming (airbnb, amazon, Twitter), Storm
(Twitter), S4 (Amazon), Kafka + Sanza (Linkedin), …
• Exemples : qualité, environnement, optimisation de la
production, SAV, capacity planning, marketing.
• Andy Petrella @noootsab de @NextLab_be
• http://slides.com/noootsab/bdw14
5. Variété des données
• Variété (diversité) : contenu (chiffres, multimédia,
texte, …), format (html, txt, pdf, …), structuration (BD,
markup, non structuré, source (gov, entreprises,
crowd, IOT, logs, quantified self, …), …
• 80% des données produites = non structurées.
• 7ème V : variabilité <> variété … data apparemment
similaires, mais avec un sens différent.
• Challenges : identifier, comprendre, extraire, stocker,
informer.
• Open Data : Publish & Share (CKAN), Transform
(DataTank), Explore and visalise (Data Unity).
• Fabrice Estiévenart @fab_estievenart de @CETIC
6. Qualité des données
• L’ennemi des SI : le temps. Données en retard.
• Complétude. Tenter de décrire au mieux la réalité.
• Evolution des SI : structuré (Microsoft : 150 millions
d’entreprises à gérer = 1 mois de retard) > non
structuré (Internet).
• USA : mauvaise qualité des données : 600 millions $.
• 80 % des coûts des SI = contenu.
• 67 zetabytes arrivent tous les ans sur nos rétines.
Qu’en retient-on ?
• Défis : Comprendre les données (sémantique) et gérer
les droits d’utilisation.
• Dominique Orban Rever http://www.rever.eu
7. Adapter l’infrastructure IT
• Comment du concept à la réalité technique ?
• De plus en plus de données, d’utilisateurs, d’usages, …
le système ne suit plus !
• Not blade servers, not virtualized,
not highly oversubscribed, not SAN/NAS.
• High performance & scaling. High availability.
Ease of (rapid) deployment. Comprehensive
manageability. Coexistence with existing applications.
Service & support.
• IT Data Center // Dedicated Pod.
• Hugues De Pra @hdepra de @Cisco_BE
8. Aspects juridiques du Big Data
• … quelques aspects juridiques ;-)
• Traitement des données : loi du 30/12/92 sur la vie
privée.
• Protection des données à caractère personnel …
comme une adresse IP !
• Plein de données pour faire plein de choses … oui,
mais il faut informer les sujets, vérifier les bases
légales, déclarer les données, …
• Protection du contenu : loi du 31/08/1998 sur la
protection des bases de données.
• Open Data : Directive PSI.
• Philippe Laurent @Ph_LAURENT
9. Etude de cas 1. Trasys
• Maintenance prédictive.
• Création de « patterns » qui permettent des
prédictions et des actions. Ces patterns sont
regénérées en fonction des nouvelles données
produites.
• Modèles de régression, de classification, d’association
et de clustering.
• Solutions prédictives = valeur business.
• Michel Mans de www.trasys.be
10. Etude de cas 2. Swan Insights
• Data Driven Society. On ne peut plus ignorer les data
pour prendre des décisions.
• Data Operating System … DOS ;-)
• Pont entre les données non structurées du monde réel
et les processus décisionnels des entreprises.
• Exemple : sales & marketing. Données sociales :
analyse des connexions et création de clusters par
algorithmes (recherche fondamentale). Caractérisation
personnelle. Segmentation des clients.
• DataGraph : http://swaninsights.com/the-datagraph/
• Laurent Kinet @laurentkinet de @SwanInsights
11. Etude de cas 3. Infopôle
• Création d’une 7ème grappe Infopôle Cluster TIC
sur le Big Data.
• User group incluant la demande et l’offre dans le Big
Data. En lien avec la plateforme PFI Big Data wallonne.
• Collaboration avec un projet Big Data européen.
• Frédéric Jourdain @FredoJourdain de @Infopole
12. Défi ?
• 94 % des entreprises en Wallonie <= 4 personnes.
• De leur capacité à gérer et analyser le Big Data
dépend la compétitivité des entreprises, des
organisations et des territoires.
• Comment faire “descendre” le Big Data au niveau
des TPE / PME en Wallonie ?
• Quelles solutions ? Comment (in)former les
entreprises ?
13. Major ICT trends
Web² / mobile
Real and virtual worlds
are going to merge
Cloud
A universal platform for
online services
Social
Empowerment. A new
distribution of roles
Big data
The new power
of data and analytics
Programmable
World
Source : Master Plan TIC & AWT
14. Ressources BigData @ awt.be
• Big Data. La révolution des données.
Volume infini, temps réel et formats déstructurés
caractérisent les données du Big Data. De leur
capacité à gérer et analyser ces données dépend la
compétitivité des entreprises, des organisations et
des territoires.
• Assises du Big Data et lancement d'une plateforme
d'innovation Big Data en Wallonie.
Le 13/12/2013, avec la Wallonie, l'AWT, le CETIC, NRB
et les Pôles de compétitivité, l'Infopôle Cluster TIC a
organisé les Assises du Big Data. L'occasion
d'annoncer une plateforme d'innovation Big Data
pour la Wallonie.
15. Plateforme ICT
• Les entreprises du Big Data en Wallonie.
Cartographie des entreprises wallonnes du secteur
ICT actives dans le Big Data ou le Web sémantique.
16. Contacts et infos
André Blavier
ab@awt.be | www.awt.be
www.awt.be/bigdata
opendata.awt.be
www.slideshare.net/awt
@unpeudeblabla
www.twitter.com/awtbe
www.facebook.com/awtbe
www.awt.be/web/rss
www.youtube.com/user/awtbe