SlideShare ist ein Scribd-Unternehmen logo
1 von 17
Downloaden Sie, um offline zu lesen
www.centraliens.net 17
Dossier
D
ans notre vie quotidienne, nous
constatons l’explosion des données
numériques : nos relations avec nos
fournisseurs, l’administration, les
banques et aussi la photographie, la vidéo, les
réseaux sociaux sont devenus numériques,
avec une progression exponentielle de la créa-
tion de données. Cette progression est loin
d’être terminée, notamment avec le dévelop-
pement de l’usage des smartphones, tablettes
numériques et avec l’arrivée de « l’Internet
des objets » qui voit n’importe quelle apps ou
objet (réfrigérateur, montre cardio, voiture et
plus généralement objet connecté) échanger
de l’information avec des systèmes ou acteurs
toujours plus nombreux sur les réseaux Inter-
net. Ainsi, de nouvelles technologies ont été
créées et se développent, en particulier dans le
domaine de l’analyse, pour tirer parti de ces in-
formations numériques : le « big data » est né.
Il a ses caractéristiques propres ; on parle des
trois, et parfois des quatre « V » :
• volumes de données ;
• variété de nature, de type… ;
• vitesse ;
• véracité des données.
Seulement voilà, au-delà des technologies,
quelssontlesusagespotentielsdecesbigdata?
Ouvrent-elles la porte à de nouveaux services
pour le commun des mortels ?
Toutes ces informations qui traquent le
moindre de nos mouvements, questions, en-
vies, ne viennent-elles pas entraver les libertés
individuelles ?
In fine, c’est l’usage des technologies de big
data qui va apporter la valeur, parfois consi-
dérée comme le cinquième « V » et dimen-
sion ultime des big data.
Il est intéressant de souligner ici que l’ap-
proche big data est et doit être systémique, car
c’est le modèle d’affaire ou de fonctionnement
des organisations elles-mêmes qui est modifié.
C’est une des raisons pour laquelle la plupart
des professionnels contactés m’ont expliqué
le caractère stratégique de ce sujet pour leur
société. D’où leur refus de communiquer.
Ce caractère systémique va d’ailleurs large-
ment au-delà des frontières des entreprises
et des organisations ; l’approche de l’ingé-
nieur doit être holistique. De fait, il induit
une réelle complexité du sujet dans le sens ou
la réaction des écosystèmes aux systèmes de
big data mis en place évoluent avec le temps :
par exemple, Google modifie régulièrement
ses algorithmes de « scoring » pour tenir
compte de l’usage qui est fait de son moteur
de recherche. Nous verrons dans le dossier
l’exemple d’une société française innovante et
reconnue mondialement.
Au fond, c’est un terrain de jeu passion-
nant : le marketing, souvent premier grand
bénéficiaire du volet technologique du big
data, doit être traité en même temps que la
stratégie, les partenariats et l’organisation.
Nous apportons ici des éléments de réponse
et de réflexion en illustrant en particulier les
usages du big data :
• un premier article plante le décor de la
révolution industrielle que représente ce
nouveau monde de l’information ;
• deux articles couvrent les aspects techno-
logiques : la recherche (analyse séman-
tique des données), la mise en œuvre de ces
technologies (les architectures de systèmes
en question) ;
• différents points de vue s’expriment : les
assurances, la publicité et la santé ;
• enfin un article sur les métadonnées et la
protection de la vie privée.
Je tiens à remercier vivement les auteurs qui
ont partagé leur point de vue. J’espère que ce
dossier vous éclairera sur ce sujet qui fait cou-
ler beaucoup d’encre. Nous sommes au début
d’une nouvelle ère de l’information, à chacun
d’écrire une partie de ce nouveau chapitre.
Je vous souhaite autant de plaisir à le lire
que j’en ai eu à échanger avec les différents
auteurs, experts de ce sujet, pour coordonner
ce dossier !
Big data, so what ?
Sommaire
p 18 La révolution des données
ou l’or du XXIe
siècle
p 20 De la business intelligence
aux big data :
apport des technologies sémantiques
p 24 Des architectures pour le big data
p 26 À l’aube d’une révolution
dans l’assurance
p 28 La science de prédiction des clics
p 30 Vers la médecine 3.0 ?
p 32 Métadonnées,
« pour ou contre » ?
Bruno Cambounet
(84)
Vice-président chez
Axway, société leader
dans la gouvernance
des flux de données,
en charge des marchés
verticaux.
Il a développé son expérience dans des
positions d’opérationnel et de conseil.
Il dirige des projets d’innovation et de
développement dans différents sec-
teurs comme l’industrie, le transport
et logistique, la santé, les télécommu-
nications et les services.
Il préside le groupement professionnel
Centrale Consultants de l’Association
des Centraliens.
Dossier
18 Centraliens no
634 [juin 2014]
La révolution des données
ou l’or du XXIe
siècle
La révolution numérique a engendré des gains de productivité records au cours des dernières
années. Pour beaucoup d’analystes, c’est la troisième révolution industrielle. Des États-Unis
à l’Europe, de la santé à l’éducation, les big data préfigurent un nouveau modèle de société.
A
ux États-Unis, les gains de produc-
tivité enregistrés par le Bureau of
Statisticssurlesannées2009,2010et
2011sontlesplusimportantsjamais
rencontrés. Pour les analystes économiques,
la principale force derrière cette accélération
est le paradigme numérique. Les similitudes
avec le « Gilded Age » lié à l’émergence de la
deuxième révolution industrielle sont trou-
blantes : concentration des capitaux à grande
vitesse, maîtrise d’économies de réseaux par
quelques acteurs très concentrés, besoins très
élevés en capitaux, etc.
À n’en pas douter nous assistons là à l’opti-
misation de l’adéquation des offres et des de-
mandes grâce aux gains d’opportunités carac-
téristiques du numérique qui servent l’intérêt
d’une toute petite minorité, amassant des for-
tunes à des vitesses très élevées. En effet, pen-
dant que ces gains de productivité permettent
à Sergueï Brin, Mark Zuckerberg et quelques
autres de s’enrichir, la classe moyenne améri-
caine s’appauvrit rapidement. Ces problèmes
ne sont pas nouveaux : on garde à l’esprit les
conditions effroyables dans lesquelles vivaient
les ouvriers anglais tout au long du XIXe
siècle,
travaillant dans des usines rudimentaires
et insalubres… Puis le droit du travail a été
inventé, tout comme la sécurité sociale et
l’éducation obligatoire.
L’idée est là. Chaque révolution industrielle
amène son modèle social et sa régulation
appropriée.
La première a vu l’émergence du code civil,
qui a fourni une stabilité du droit propre à
permettre une forte expansion économique.
La deuxième a donné naissance aux droits so-
cial et du travail, qui ont permis l’émergence
d’une classe prolétaire formée et disposant
d’uneconsciencepolitique.Latroisièmepour-
rait voir l’avènement du « code des données ».
Une manne croissante
d’informations
En effet, la révolution numérique pourrait se
transformer rapidement en révolution des
données. Afin de replacer les choses dans leur
contexte, il faut savoir que 90 % de la donnée
produite dans le monde l’a été au cours des
deux dernières années.
Car en plus de disposer d’une manne crois-
sante d’informations, la production de ces
données se fait au sein d’un réseau unifié,
communiquant à l’aide d’un même protocole
(« IP ») utilisé pour véhiculer l’information.
Si aujourd’hui le nombre d’adresses IP est de
l’ordre de 10 à 20 milliards, l’on estime qu’en
2025, avec l’avènement de l’ère des objets
connectés, ce nombre pourrait passer à 150
ou même 200 milliards. Et il ne s’agit là que
de prédictions relativement conservatrices
car, comme le fait remarquer Jean-Yves Pro-
nier, directeur marketing du gestionnaire de
données EMC, « ces estimations sont rendues
fausses d’année en année par les nouveaux
usages ».
Aujourd’hui, nous en sommes encore à l’âge
de pierre de l’exploitation intelligente et mas-
sive de la donnée connectée. Néanmoins,
nous pouvons déjà en discerner les contours
et en apprécier le potentiel. Il y a peu, l’ex-
ploitation d’une si grande quantité de don-
nées était impossible car les volumes étaient
trop importants et les outils d’analyse pas
encore inventés. Néanmoins, une nouvelle
génération d’algorithmes permet désormais
de gérer ces données dans leur globalité et
leur complexité : on a donné à cet ensemble
de technologies le nom de « big data ».
En plus de faire communiquer les données
entre elles, nous pouvons à présent nous ser-
vir d’un jeu de données pour en comprendre
un autre et ainsi de suite, révélant le secret qui
90 % de la donnée produite dans le monde l’a été au
cours des deux dernières années.
www.centraliens.net 19
big data, so what ?
se cache derrière ces quantités d’informations
produites et stockées tous les jours.
C’est de cette manière que Google, en comp-
tant le nombre de fautes d’orthographe saisies
dans le moteur de recherche, parvient à esti-
mer précisément le niveau d’illettrisme dans
un pays ou une zone géographique donnée.
Au même titre l’ONU, avec son programme
Global Pulse, écoute désormais les réseaux
sociaux pour détecter de façon préventive les
endroits dans le monde où un conflit est sus-
ceptible de survenir.
Autre exemple : dans l’agglomération de
Chicago, l’analyse des flux de données issues
des réseaux sociaux a permis de prédire avec
un niveau de précision inouï où seraient
commis les prochains crimes, et ainsi de les
prévenir en plaçant des véhicules de police
au niveau des zones d’alerte. L’on pourrait
étendre ces mêmes mécanismes au domaine
de l’épidémiologie, la prévention précoce des
maladies chroniques ou encore le traitement
des pathologies orphelines.
Un impact sur tous les secteurs
En bref, les technologies big data risquent
d’impacter fortement de très nombreux sec-
teurs, ce type d’approches pouvant être massi-
vement généralisé afin d’optimiser les oppor-
tunités dans tous les domaines.
Certes,ilyalesrisquesentoutgenre,lesaddic-
tions, les abus que des entreprises pourraient
être tentées de commettre, et la volonté de
surveillance sans limite des États. Pour autant,
tout aussi technologiques que puissent être les
données, nous en sommes jusqu’à preuve du
contraire les maîtres et c’est à nous, les sociétés
civiles, les institutions élues, de décider de la
façon dont nous souhaitons construire notre
société.
De surcroît, la data n’est pas une force brute,
une énergie motrice, un liquide que l’on met
dans un moteur à explosion, c’est un outil
qui nous permet de créer un monde plus
intelligent, où les opportunités sont plus
nombreuses, ou les occasions manquées se
raréfient ; c’est potentiellement un nouveau
modèle de société, une nouveau vecteur d’ex-
pression, l’opportunité d’une consommation
plus raisonnée.
À l’heure où notre modèle social semble lar-
gement menacé et où l’économie est en berne,
c’est là l’occasion pour notre nation de se re-
construire, de se réinventer d’une manière qui
va largement au-delà de ce que nous pouvons
concevoir. L’éducation, la santé, la production
de richesse, l’utilisation des ressources… tout
cela sera affecté par ce que l’on appelle désor-
mais « l’or du XXIe
siècle ».
Mark Zuckerberg, premier actionnaire de Facebook et 21e
fortune mondiale,
estimée à 26,7 milliards de dollars.
Gilles Babinet
Depuis 1989, Gilles
Babinet a fondé neuf
sociétés dans des
domaines d’activité
variés : travaux élec-
triques en hauteur,
design, téléchargement de musique,
recherche publicitaire et marketing, big
data… En 2011 il est élu premier pré-
sident du Conseil national du numé-
rique. Nommé « Digital Champion »
par la ministre déléguée au Numérique
en 2012, il publie en janvier 2014 L’Ère
numérique, un nouvel âge de l’huma-
nité dans lequel il met en avant l’impact
de la sphère numérique sur la société
moderne.
©Facebook
Dossier
20 Centraliens no
634 [juin 2014]
L
’objectif principal de la business
intelligence (BI) est de transformer
les données en connaissances afin
d’améliorer le processus décisionnel.
Or, certains facteurs comme la croissance
constante du volume de données et d’infor-
mations ont conduit à la nécessité de mettre
en œuvre de nouveaux moyens d’interac-
tion. Les utilisateurs manipulent de plus
en plus de données non structurées (docu-
ments, courriels, réseaux sociaux, contacts)
en plus des données structurées (CRM,
bases de données, etc.). Ces utilisateurs
souhaitent plus d’interactivité, de flexibi-
lité et de dynamicité. De plus, les processus
de décisions sont de plus en plus rapides et
nécessitent d’être plus automatisés. Toutes
ces évolutions ont induit un changement
de paradigme important pour la BI, avec
notamment la prise en compte des données
non structurées extraites à l’aide des techno-
logies sémantiques.
Extraire de la valeur à partir de ces don-
nées est devenu un enjeu crucial dans un
marché mondial hyper compétitif. La BI est
également impactée par les big data, avec le
besoin croissant d’extraire de la valeur en
temps réel à partir d’importants volumes
de données. Les technologies sémantiques
regroupent un ensemble de méthodes, pro-
cessus et algorithmes destinés à extraire du
sens à partir des données. Les technologies
du web sémantique incluent un ensemble
de standards comme le modèle RDF (Re-
source Description Framework), un lan-
gage de description d’ontologies (OWL) et
un langage d’interrogation (SPARQL). Les
technologies sémantiques et celles du web
sémantique peuvent adresser la variété dans
les big data.
Évolution de la BI pour prendre
en compte les « big data »
La business intelligence est un ensemble d’ou-
tils et de méthodes destinés à collecter, repré-
senter et analyser les données pour assister le
processus d’aide à la décision dans les entre-
prises. Elle est définie comme la capacité pour
une organisation à prendre toutes les données
en entrée et à les convertir en connaissances,
délivrant ainsi une information pertinente au
moment opportun et via un canal de diffusion
adapté. Durant ces vingt dernières années, de
nombreux outils ont été conçus pour rendre
disponibles de grands volumes de données
d’entreprise à des utilisateurs non experts.
La BI est une technologie mature, largement
acceptée mais qui fait face à de nouveaux
défis tels que l’intégration de données non
structurées dans le processus d’analyse. Ces
défis sont induits par les volumes de don-
nées disponibles en constante augmentation,
dont les systèmes doivent comprendre le sens
et être capables d’y réagir en temps réel. Les
technologies sémantiques et les mécanismes
de raisonnement associés peuvent faciliter ce
processus d’analyse.
La BI traditionnelle peut donc être étendue
aux technologies sémantiques pour intégrer le
sens des données. La vision du projet CUBIST
(www.cubist-project.eu) est d’étendre le pro-
cessus classique d’ETL (extraction, transfor-
mation et chargement) aux données structu-
rées et non structurées et à leur stockage sous
forme de triplets RDF.
La figure 1a représente l’architecture clas-
sique d’un outil de BI dans lequel les données
sont structurées et chargées dans un entrepôt
de données. Les utilisateurs peuvent interagir
avec des requêtes restreintes produisant un
tableau de bord statique.
Destinée à analyser les données brutes pour en extraire du sens, la business intelligence
est également impactée par les problématiques de big data.
De la business intelligence
aux big data :
apport des technologies sémantiques
www.centraliens.net 21
big data, so what ?
La figure 1b correspond à la vision du projet
CUBIST, dans laquelle les sources de don-
nées sont hétérogènes (structurées ou non) et
stockées sémantiquement dans un triple store
(entreposage de triplets RDF). Les utilisateurs
peuvent interagir avec des requêtes flexibles
(requêtes SPARQL) et utiliser dynamique-
ment des outils de visualisation analytique.
La figure 1c représente une évolution plus
récente pour prendre en compte les flux de
données et la sémantique. Avec la croissance
exponentielle des capteurs, logs, réseaux
sociaux et objets connectés, de larges collec-
tions de données sont générées en temps réel.
Elles sont appelées des « flux de données » :
il n’y a pas de limite quant au volume géné-
ré ni de contrôle sur l’ordre d’arrivée. Les
méthodes d’analyse doivent donc s’adapter
au traitement des données à la volée et dans
l’ordre d’arrivée. Ces flux de données sont
analysés en temps réel, mais également agré-
gés et interprétés de manière à générer des
alertes pour réagir à des événements. L’ana-
lyse sémantique de ces flux, et plus particuliè-
rement leur croisement avec d’autres sources
d’information, est une vraie valeur ajoutée
dans le processus de décision.
Ces flux, et plus particulièrement leur croi-
sement avec d’autres sources d’information,
est une vraie valeur ajoutée dans le processus
de décision.
Dans une plate-forme BI temps réel, de
multiples sources de données hétérogènes
peuvent être connectées, et ces données
peuvent être statiques ou dynamiques. Les
données statiques peuvent provenir de bases
de données ou de données ouvertes (open
data), et ne changent pas ou peu. Les don-
nées dynamiques proviennent de capteurs et
peuvent éventuellement être dans un format
sémantique comme RDF. Ces données, sta-
tiques et dynamiques, sont exploitées pour
répondre à des processus spécifiques. Des
requêtes continues et persistantes permettent
de gérer ces flux en temps réel et aux utilisa-
teurs de recevoir des nouveaux résultats dès
qu’ils sont disponibles.
Les technologies sémantiques
De nombreuses techniques permettent d’ex-
traire du sens ou de la connaissance à partir
des données. Parmi celles-ci, nous pouvons
citer le traitement automatique des langues,
la fouille de données, l’apprentissage ainsi
que l’ingénierie des ontologies. Ces tech-
niques permettent d’extraire des modèles et
des patrons, de structurer les données non
structurées et ainsi de transformer n’im-
porte quelle donnée en information ou en
connaissance actionnable.
Les technologies du web sémantique per-
mettent de lier, publier et rechercher des
données sur le web, mais aussi de structurer
Figure 1. BI classique (a), BI sémantique (b) et BI en temps réel (c).
Dossier
22 Centraliens no
634 [juin 2014]
et d’enrichir sémantiquement des données
au format RDF, et ceci à très grande échelle.
Les approches guidées par la sémantique
peuvent simplifier le processus d’intégra-
tion de sources de données hétérogènes
par le biais d’ontologies, fournir ainsi une
couche unifiée de métadonnées, découvrir
et enrichir l’information et, enfin, fournir
un mécanisme unifié d’accès aux données.
La sémantique peut donc adresser la variété
dans les big data, en permettant la transfor-
mation des données non structurées dans
un format structuré en vue de leur analyse.
De plus, la valeur des données augmente
quand celles-ci peuvent être liées à d’autres
données (linked data). Les technologies
sémantiques sont donc une opportunité
pour réduire le coût et la complexité de l’in-
tégration de données.
En conclusion, comme le montre la figure  2,
les « linked data » évoluent vers des masses
de plus en plus importantes qu’il est pos-
sible de qualifier de « big linked data », mais
les big data peuvent aussi tirer profit d’une
évolution vers les « linked big data ».
Figure 2. Big data et linked data.
Marie-Aude
Aufaure est professeur
à l’École Centrale Paris
(Laboratoire MAS).
Elle dirige depuis 2008
la chaire business
intelligence.
Elle participe aux tra-
vaux de l’Inria Paris-Rocquencourt, où
elle a réalisé sa thèse. Elle est impliquée
dans plusieurs projets européens et
nationaux.
Docteur en informatique, elle a été
enseignante à l’université de Lyon et à
Supélec. Ses domaines de compétence
couvrent les bases de données, la fouille
de données, l’ingénierie des connais-
sances et, plus récemment, les big data.
Printemps 2015 : executive certificate big data
Un programme de formation continue préparé par Marie-Aude Aufaure
À l’ère du numérique, le déluge de données crée de nouvelles opportunités économiques
pour les entreprises. Toute la chaîne du décisionnel est impactée par les big data : collecte des
données hétérogènes, analyse, visualisation, marketing, stratégie d’entreprise... De nouveaux
métiers apparaissent, tels que « data scientist ».
Centrale Paris Executive Education, la formation continue de l’École Centrale Paris, propose
en 2015 un nouveau cursus de vingt jours. Cette formation est composée de six modules qui
pourront être choisis à la carte.
L’objectif est de dresser un état des lieux et un panorama des technologies. Les entreprises ont
besoin de maîtriser leurs données et la valeur qu’elles peuvent générer. L’organisation centrée
des données permet ainsi de placer les données au centre de la gestion opérationnelle et déci-
sionnelle et de réduire le temps de prise de décision.
La formation comprend :
3 modules non techniques : enjeux, perspectives et applications des big data, retours d’ex-
périence, aspects juridiques et protection des données ;
3 modules techniques : acquisition et stockage des données, traitement distribué, analyse
et visualisation de données.
Les technologies de l’information et de la communication seront largement utilisées, en com-
binant enseignement en ligne et présentiel. Des webinars seront également proposés. Des in-
tervenants industriels, chercheurs, institutionnels (acteurs majeurs du domaine des big data)
prendront part à cette formation.
Il existe déjà depuis deux ans un « executive certificate » cloud computing. Cette formation de vingt-sept jours
permet de former des professionnels maîtrisant la gouvernance et l’architecture de solutions cloud.
www.ecp.fr/home/Formations/Formation_continue
www.centraliens.net 23
big data, so what ?
Dossier
24 Centraliens no
634 [juin 2014]
Figure 1. Les trois propriétés du théorème CAP de Brewer.
L
a montée en puissance du big data
actuelle est le fruit de trois tendances
concomitantes : la disponibilité des
données, la disponibilité des algo-
rithmes de traitement, la disponibilité de la
puissance machine permettant de stocker et
de traiter ces données. D’un point de vue tech-
nique, on parle de big data lorsque la quantité
ou le débit des données pose un défi qui ne
peut être relevé avec des technologies « stan-
dard»(typiquementlesbasesdedonnéesrela-
tionnelles).
Pour avoir une idée des ordres de grandeur,
on peut considérer qu’aujourd’hui une base de
données relationnelle commence à montrer ses
limites dans deux cas : pour des quantités de
données stockées supérieures à 10 To, ou pour
des débits de « transactions » (l’écriture ou la
lectured’unedonnée)quidépassent1000tran-
sactions par seconde. Ces limites sont évidem-
ment indicatives et, par ailleurs, évoluent dans
le temps selon la fameuse loi de Moore : « toute
ressource informatique double de capacité à prix
constant tous les 18 mois. »
Deux points méritent cependant l’attention.
D’une part, la quantité des données disponibles
croissent bien plus rapidement que la loi de
Moore1
. D’autre part, il existe une ressource
informatique qui échappe à la loi de Moore : la
vitesse d’écriture des données sur les supports
physiques. Certes quand on passe du disque
dur tournant (HDD) au disque dur fixe (SDD),
le débit d’écriture progresse, mais bien moins
rapidement que les autres ressources que sont
le volume de stockage et la puissance de traite-
ment. Les systèmes d’informations modernes
doivent donc manipuler une quantité de don-
nées qui croît beaucoup plus vite que la loi de
Moore avec une « tuyauterie » qui croît beau-
coup moins vite. Ce ciseau est structurant dans
la mesure où il a déterminé les choix d’archi-
tecture des solutions dites de big data. Rete-
nons donc ce point : l’une des actions les plus
coûteuses en temps dans les systèmes d’infor-
mations modernes devient le déplacement de
la donnée d’un espace de stockage à un autre.
Distribuer la donnée sur
un grand nombre de machines
D’où viennent les limitations des bases de
données relationnelles ? Essentiellement d’une
conception monomachine. Cette affirmation
est en réalité simplificatrice car les architec-
tures de ces bases ont évolué, mais elles portent
malgré tout cette caractéristique dans leur code
génétique. Aussi, pour augmenter le débit de
transactions et la capacité de stockage, une idée
naturelle est apparue : distribuer la donnée sur
un grand nombre de machines.
On dispose ainsi non seulement d’un espace de
stockage mais aussi d’un débit de transaction
proportionnelsaunombredemachinespuisque,
d’une certaine façon, on multiplie le nombre de
tuyauxparlesquelstransiteladonnée.
Ce principe est au cœur de la conception des
solutions dites big data. La réalité est cependant
moinssimplequ’iln’yparaît.Voicivenulemo-
ment d’introduire le théorème de Brewer, du
nom de la personne qui l’a conjecturé en 2000,
la preuve ayant été publiée en 2002. Car oui, il
s’agit d’un vrai théorème !
LethéorèmedeBrewer,aussiappeléthéorème
CAP, du nom des sommets du triangle de la fi-
gure 1, stipule que dans tout système distribué,
on ne peut garantir simultanément que deux
des trois propriétés suivantes ;
consistency (cohérence) : la capacité d’un
système à garantir que tous ceux qui accèdent
àunedonnéeontlamêmevisiondeladonnée;
availability (disponibilité) : le fait que la
donnée est accessible à tout moment ;
partition tolerance (tolérance à la parti-
tion) : le fait que le système dans son ensemble
fonctionnecorrectement,mêmeencasdeperte
d’une machine, induisant donc une « sépara-
tion » (partition) entre les machines.
Les deux premières propriétés, assez classiques,
sont celles que garantissent les bases de don-
nées relationnelles : on veut pouvoir lire et
écrire des données tout le temps (availability)
engarantissantquetoutlemondevoielamême
donnée (consistency).
Assurer la tolérance
à la partition
Pendant longtemps, ces propriétés ont
suffi à notre bonheur. Mais quand il a été
nécessaire de répartir la donnée sur plu-
sieurs machines pour augmenter le volume
de stockage, la tolérance à la partition est
devenue essentielle. En effet, le coût pour
garantir que tous les nœuds d’un cluster
fonctionnent correctement à tout moment
devient très rapidement exorbitant.
On a ainsi cherché des compromis sur les
autres axes. Et en premier lieu, sur la cohé-
rence. De prime abord, cela paraît très ris-
qué : comment travailler de façon fiable avec
des données qui ne le sont pas ? Pour pallier
ce problème, la stratégie a consisté à dupli-
Des architectures
pour le big data
La distribution des données sur un grand nombre de machines est au cœur des solutions big data.
Or si le principe semble simple, il soulève des enjeux de conception qui ont suscité l’innovation.
www.centraliens.net 25
big data, so what ?
quer plusieurs versions d’une même don-
née sur différentes machines. Il suffit alors
de disposer de plusieurs copies absolument
identiques d’une donnée pour être certain
de cette donnée, même si une autre copie
est corrompue ou dans un état instable.
On parle ainsi de cohérence in fine, car le
système ne garantit pas à tout moment la
cohérence de la donnée, mais garantit qu’au
bout d’un certain temps la donnée le sera.
Ce mode de fonctionnement est au cœur
de plusieurs familles de solutions big data,
notamment Hadoop et Cassandra.
Hadoop, plate-forme de plus en plus utili-
sée dans le domaine du big data, présente
une autre caractéristique intéressante. Elle
propose une distribution des traitements
au plus proche des données, selon un algo-
rithme appelé MapReduce. Souvenez-vous :
avec le big data, l’opération la plus longue
est le déplacement de la donnée. Avec
MapReduce, Hadoop s’efforce de déplacer
l’exécution des traitements sur les machines
qui détiennent les données nécessaires à ces
traitements (figure 2).
Chaque rectangle bleu correspond à une opé-
ration qui peut être exécutée sur un serveur
différent (typiquement, le serveur le moins
chargé détenant une copie de la donnée qui
intervient dans le traitement). On « mappe »
des sous-tâches indépendantes sur des ser-
veurs différents et quand chaque serveur a
accompli sa sous-tâche, on recolle les mor-
ceaux entre eux pour obtenir le résultat final.
Des changements
plus profonds qu’il n’y paraît
Ce rapide survol des architectures des solu-
tions big data donne un aperçu des nouveaux
principes mis en œuvre pour traiter de très
gros volumes de données. Ces changements,
plus profonds qu’il n’y paraît, induisent
quelques corollaires importants :
quitte à devoir utiliser plusieurs ma-
chines, autant utiliser des machines de
grande série (commodity hardware) plutôt
que de gros serveurs très coûteux. Il s’agit
d’une tendance forte dans les infrastructures
actuelles ;
à partir du moment où on utilise un
grand nombre de machines, l’automatisa-
tion de la configuration des machines et du
déploiement des traitements doit être très
poussée. Ceci a suscité l’émergence d’outils
et de pratiques qui, poussées à l’extrême, ont
favorisé l’émergence du cloud ;
tous les traitements ne sont pas distri-
buables sur plusieurs machines. Il y a par
conséquent une recherche particulièrement
active pour identifier des algorithmes qui se
prêtent à ce type de parallélisation.
Les solutions big data s’inscrivent éga-
lement dans un mouvement plus vaste,
l’accessibilité de ces technologies (certains
parlent de consumérisation). Hadoop, par
exemple, est open source. La plupart des
algorithmes d’apprentissage automatique
sont également disponibles gratuitement.
Il est possible de louer pour quelques cen-
taines d’euros (et une durée limitée) plu-
1. Voir à ce sujet l'article de Stacey Higginbotham sur
le site Gigaom.com, « Question everything : a new
processor for big data ».
sieurs machines sur un cloud tel que celui
d’Amazon. Ainsi, aujourd’hui, les techno-
logies big data sont accessibles à quasiment
tout le monde alors qu’il y a peu, leurs équi-
valents étaient réservés à des entreprises dis-
posant de solides capacités d’investissement
informatique. Le potentiel d’innovation lié à
l’ouverture et à la puissance de ces outils est
considérable.
Ludovic Cinquin
(95)
Directeur général
France d'Octo,
cabinet de conseil
en technologies
et management de
système d'information. Co-auteur de
plusieurs ouvrages, dont Les Géants
du web : culture pratique architecture.
En parallèle à ses activités de manage-
ment, il accompagne les grands comptes
dans le cadre de missions de conseil
stratégiques. Il intervient régulièrement
en tant que speaker, notamment à la
conférence USI (www.usievents.com).
Figure 2. L’algorithme MapReduce permet de déplacer l’exécution des traitements sur les machines
qui détiennent les données nécessaires à ces traitements.
Dossier
26 Centraliens no
634 [juin 2014]
S
i l’on considère l’assurance auto, le
développement des premières offres
de tarification au kilomètre ne date
que de quelques années, bénéficiant
des progrès en matière de télématique per-
mettant d’embarquer dans le véhicule des so-
lutions de géolocalisation fiables, discrètes et
économiques. Cette géolocalisation permet
à l’assureur d’intégrer dans sa tarification le
nombre de kilomètres réellement parcourus,
qui constitue une dimension jusqu’à présent
estimée et pourtant d’ordre un dans l’évalua-
tion du risque, et d’offrir ainsi à l’assuré un
tarif plus « juste ». Ce principe du « pay as
you drive » n’est que la première étape d’une
ouverture beaucoup plus large des possibi-
lités de personnalisation des tarifs. On peut
imaginer le « pay where you drive », le « pay
how you drive »… Le fait de collecter cette
masse d’informations sur la conduite permet
de converger vers le « segment of one », c’est-
à-dire la possibilité de proposer des prix per-
sonnalisés par conducteur et donc plus bas
pour les bons conducteurs.
Le big data pourra également permettre
d’enrichir le contenu des services qu’offre
l’assureur à ses assurés : le flots des données
capturées (par les boîtiers de télématique em-
barqués ou par toute autre source de données
publique ou privée) permet en effet d’infor-
mer en temps réel le conducteur sur les zones
à risque, les obstacles susceptibles de ralentir
sa route, les conditions météo, ainsi que sur
son propre comportement (freinage, accélé-
ration…) dans une optique de prévention. Il
permet en outre de géolocaliser le véhicule,
notamment en cas de vol. Seulement 2 %
des assureurs automobile américains offrent
aujourd’hui des produits fondés sur le moni-
toring du comportement des assurés. Cette
proportion devrait atteindre 10 à 15 % en
2017. Sur le plan concurrentiel, l’usage de
la télématique constitue une innovation de
rupture susceptible de modifier le paysage
concurrentiel, selon le rythme de déploie-
ment par les acteurs installés ou de nouveaux
entrants.
En matière de santé, on peut de la même ma-
nière imaginer la possibilité pour l’assureur
de prendre en compte les habitudes de vie de
ses assurés (le « pay how you live ») en s’ap-
puyant sur un flot de données générées par
les individus dans leur vie quotidienne. Ce
champ d’application est certainement moins
mûr que ne l’est la télématique automobile,
mais la technologie évolue vite. Commencent
ainsi à apparaître des outils connectés desti-
nés à mieux gérer notre santé : bracelet lisant
la qualité du sommeil, balances connectées
au Smartphone, outils de monitoring des
habitudes alimentaires…
Intégration des données
génétiques
Le progrès ne s’arrêtera pas là : la génération
dedatasantéreflétantleshabitudesdeviesera
progressivement complétée par la génération
de données génétiques. En 2013, le génome
d’un million d’individus a été séquencé. La
carte génétique d’un individu peut désormais
être établie pour une somme de 100 euros, et
la connaissance précise du patrimoine géné-
tique va permettre d’entrer dans le domaine
de la médecine prédictive. Cette révolution
médicale risque de fortement déstabiliser les
fondamentaux de l’assurance santé.
La quantité de données est
l’élément majeur de la fiabilité
des statistiques, fondement de
l’assurance. L’abondance et
la qualité des données sont
par conséquent des facteurs
essentiels de différenciation
compétitive pour les assureurs.
Dans un monde « big data »,
la disponibilité de données
nouvelles et la capacité de
les exploiter va profondément
modifier la relation
qu’entretiennent les assureurs
avec leurs clients, en transformant
la manière d’entrer en contact
avec eux et de les servir.
À l’aube d’une révolution
dans l’assurance
www.centraliens.net 27
big data, so what ?
Sur un plan fondamental, un risque n’est
en effet assurable qu’à la condition d’être
quantifiable et mutualisable, et que les
distorsions occasionnées par l’asymétrie
d’information (source d’antisélection) et
l’aléa moral soient limitées. Dans le cas de
l’assurance automobile, la connaissance du
risque va évoluer et le tarif sera de plus en
plus individualisé. Pour autant le risque
ne disparaîtra pas, l’asymétrie d’informa-
tion est même abaissée (l’assureur connaît
mieux le comportement de son assuré) et
il reste indispensable de s’assurer. Le mar-
ché de l’assurance santé sera en revanche
fortement impacté, avec différents états
de marché possibles selon la manière dont
les données personnelles de santé seront
gérées.
Un marché autorisant la tarification repo-
sant sur des données génétiques ira dans
le sens d’une hypersegmentation tarifaire,
avec pour conséquence de rendre les po-
lices d’assurance plus coûteuses pour un
nombre croissant de « risques aggravés »,
tandis que la taille et la qualité des mutua-
lités diminuera. Il est vraisemblable que les
préoccupations éthiques fassent obstacle à
ce type de marché, en limitant les possibi-
lités d’utilisation des données personnelles
dans le domaine de la santé. La consé-
quence est dans ce cas l’apparition d’une
asymétrie d’information amplifiée entre
les assurés et les assureurs, avec le risque
pour les assureurs de voir les bons risques
leur échapper ou de devoir les tarifer à des
prix très bas.
Cette question sur l’équilibre du marché est
le reflet d’un débat de société entre d’une
part le besoin de personnalisation souhaité
par chaque consommateur d’un service et
d’autre part la volonté des pouvoirs publics
de lutter contre les discriminations.
À ce titre, il est utile de rappeler qu’un avis
de la Cour de justice européenne de 2011 in-
terdit la possibilité offerte aux assureurs au-
tomobile d’utiliser le genre en tarification.
Limitation des risques
de fraude
Actuellement, les méthodes traditionnelles
de détection des fraudes à l’assurance ex-
ploitent des rapports d’expertise, les histo-
riques de fraudes antérieures… sans pour
autant exploiter toutes les sources de don-
nées comme l’activité des assurés sur les
réseaux sociaux. Le big data va permettre
de détecter et d’utiliser toutes sortes de « si-
gnaux faibles » et pouvant être corrélés à des
tentatives de fraude ou des fraudes avérées.
De manière moins spécifique à l’assurance,
mais tout aussi impactant pour les opéra-
teurs en place, les technologies du big data
vont offrir de nouvelles possibilités sur le
plan commercial. Les capacités des outils
de CRM vont être démultipliées, enrichies
d’une infinité de données client mêlant
sources internes et externes, de manière à
cibler toujours plus précisément les besoins
de chaque prospect ou client. La connais-
sance des clients en temps quasi réel per-
mettant de les gérer de manière totalement
individualisée, et de leur proposer le service
adapté au bon moment par le bon canal
commercial.
La révolution du big data est bien en route
pour les assureurs installés, dans un envi-
ronnement qui individualisera de plus en
plus le risque et la relation client, avec in fine
la possibilité de modifier profondément le
paysage concurrentiel du secteur. Une autre
famille d’acteurs cherchera inévitablement
à tirer son épingle du jeu et à s’approprier
une part significative de la valeur : il s’agit
des fournisseurs de données, détenteurs du
nouvel or noir, et maîtres de la segmenta-
tion des risques.
Christophe Mugnier
(95)
Directeur de la stra-
tégie, du contrôle de
gestion et des achats
d’Axa France. Avant
de rejoindre le groupe
Axa il y a 18 ans, Christophe Mugnier
a dirigé l’actuariat Vie individuelle
et assuré la Direction technique des
assurances collectives et l’activité
épargne et retraite entreprises. Il est
membre de l’Institut des actuaires.
Le séquençage des génomes risque de déstabiliser les fondamentaux
de l'assurance santé.
La connaissance des clients en temps quasi réel permet de les gérer de manière
totalement individualisée.
Dossier
28 Centraliens no
634 [juin 2014]
S
ur Internet, le marché de la publi-
cité se décompose en deux grandes
catégories :
Le search, c’est-à-dire l’achat de
mots-clés auprès des moteurs de recherche.
Si vous travaillez pour un site de vente
en ligne de chaussures, vous pouvez par
exemple choisir d’acheter le mot-clé « chaus-
sure sport », ce qui vous permettra d’appa-
raître dans la partie liens sponsorisés des
résultats de votre moteur de recherche. Pour
cela vous rémunérez ce dernier au CPC (cost
per click), c’est-à-dire uniquement si l’utili-
sateur clique sur votre lien. Plus votre CPC
est élevé, plus vous aurez de chance d’arriver
en tête des liens sponsorisés. Les utilisateurs
de ce type de campagnes ont en général un
objectif de performance. Autrement dit, ils
calculent le retour sur investissement de leur
campagne.
Le display, l’affichage de bannières publici-
taires chez tous les sites dits « éditeurs », qui
souhaitent générer des revenus publicitaires.
Si l’on reprend le même exemple, vous pou-
vez décider de promouvoir votre site en affi-
chant des bannières contenant votre logo et
des photos de vos chaussures les plus popu-
laires. Vous rémunérez alors la plupart du
temps le site éditeur au CPM (cost per mille),
c’est-à-dire pour chaque affichage, essen-
tiellement parce que les performances de ce
type de campagnes étaient beaucoup moins
bonnes que celles du search.
Leader mondial de la publicité display à la
performance, Criteo diffuse des campagnes
pour le compte de ses clients (la plupart des
grands sites marchands). Son objectif : affi-
cher « la bonne publicité, au bon utilisateur,
au bon moment ». Les niveaux de perfor-
mance sont mesurés aux taux de clics et aux
taux de conversion. Ce dernier représente
la proportion d’utilisateurs qui « conver-
tissent », c’est-à-dire qui achètent un article
sur le site après un clic.
Criteo a choisi le même modèle de rému-
nération que le search. L’entreprise achète
au CPM sur des sites éditeur mais est rému-
nérée au CPC. Les intérêts de Criteo et des
clients se rejoignent puisque le client ne paie
pas pour des affichages qui ne génèrent pas
de revenu incrémental pour lui.
L’achat de ces affichages se fait via des plates-
formes de RTB (real time bidding), des
places de marché où les acheteurs (sociétés
de publicité en ligne) et les vendeurs (sites
éditeurs qui souhaitent générer des revenus
publicitaires) se retrouvent pour effectuer
des transactions.
Aspect essentiel des modèles
économiques du net actuel,
la publicité se décompose
en deux grandes catégories :
la mise en avant lors
de la recherche (search) et
l’affichage classique sous forme
de bannières (display).
Société de diffusion publicitaire
en ligne, Criteo emploie des
technologies big data
pour affiner ses campagnes.
La science de prédiction des clics
Le CPC (cost per click) est calculé en fonction du nombre de fois où l’utilisateur a cliqué sur un lien
proposé par le moteur de recherche.
Search : achat de mots clés.
Display : affichage de bannières publicitaires.
www.centraliens.net 29
big data, so what ?
Chacun des acheteurs potentiels connectés
à ces plates-formes reçoit une requête pour
chaque opportunité d’affichage envoyée par
les sites éditeurs et doit répondre par une
enchère. L’acheteur ayant émis l’enchère la
plus élevée gagne le droit de faire l’affichage
et doit générer une bannière de publicité.
Tout ceci se fait en temps réel et en quelques
millisecondes au moment du chargement de
la page par l’utilisateur.
Comment prévoir le taux
de clics ?
La capacité à prédire précisément le taux de
clics a un impact direct sur la performance :
idéalement Criteo devrait acheter tous les
affichages qui conduisent à un clic et seu-
lement ceux-là. Son modèle de prédiction
du taux de clics prend en compte plusieurs
dizaines de variables collectées de différentes
sources :
l’engagement de l’utilisateur, évalué grâce
aux données collectées directement sur
les sites marchands : a-t-il vu un grand
nombre de pages produits ? Est-il un ache-
teur régulier sur ce site ? etc. ;
la qualité de l’affichage, estimée grâce aux
données transmises par les plates-formes
RTB au moment de la requête : l’affichage
se trouve-t-il vers le haut ou le bas de la
page ? Les utilisateurs passent-ils beau-
coup de temps sur la page sur laquelle il
apparaîtra ? etc. ;
l’aspect de la bannière, choisi dynamique-
ment de manière à maximiser la perfor-
mance.
La capacité de Criteo à recommander les
bons produits est également primordiale.
Pour cela la société utilise les événements
collectés sur les sites de ses clients pour cal-
culer des similarités entre produits : si les
utilisateurs qui ont vu le produit A ont aussi
souvent vu le produit B, on peut vraisembla-
blement supposer qu’un utilisateur qui n’au-
rait vu que le produit A serait aussi intéressé
par le produit B.
Des données très volumineuses
La volumétrie des données utilisées pour
générer ces modèles de prédiction et de re-
commandation est considérable : 20 téraoc-
tets par jour. Elle nécessite la mise en œuvre
de technologies spécifiques comme Hadoop
(voir l’article « Des architectures pour le big
data » dans ce même dossier). Par ailleurs,
ces modèles de prédictions sont appelés plus
de 15 millions de fois par seconde et mis à
jour quotidiennement. Ces modèles sont
optimisés en permanence par une équipe
R&D composée à la fois de développeurs et
d’experts en machine learning.
On retrouve donc bien les fameux « 3 V »
qui définissent le big data selon les défini-
tions d’Internet :
• volume : 20 To/j ;
• variété : les données utilisées proviennent
à la fois des sites marchands, des sites des
éditeurs sur lesquels les bannières sont affi-
chées et des campagnes de publicité à pro-
prement parler ;
• vitesse : 15 millions d’appels aux modèles
de prédiction par seconde.
Au-delà des 3 V, un aspect remarquable chez
Criteo est que le big data est au cœur de la
valeur ajoutée offerte aux clients : il est la clé
du succès actuel de la société.
Bastien Albizzati
(02)
Titulaire d’un master
de recherche opéra-
tionnelle de l’universi-
té de Berkeley, Bastien
Albizzati est respon-
sable des améliorations des modèles
de prédiction et de recommandation
au sein de l’équipe produit de Criteo.
Autre expérience : la recherche opé-
rationnelle chez Saint-Gobain Re-
cherche, avec un projet de simulation
des risques inondations pour la Caisse
centrale de réassurance.
Les événements collectés sur les sites de clients permettent de cibler une publicité personnalisée.
Dossier
30 Centraliens no
634 [juin 2014]
Vers la médecine 3.0 ?
Le suivi de la grippe saisonnière dans 18 pays, dont
les États-Unis. « Google Flu Trend » est apparu
en 2008. .
La quantité de données issue
de la prise en charge d’individus
dans un cadre sanitaire ne cesse
d’augmenter, de même que le
nombre de sources de données
disponibles. Si l’on associe ce
constat aux évolutions techno-
logiques, chaque individu peut
ainsi espérer bénéficier d’une
médecine prédictive, préventive,
personnalisée et participative.
L
a gestion de ces données massives est
un important levier pour une meil-
leure compréhension des maladies,
du développement de médicaments
et du traitement des patients. Les applica-
tions du big data pourraient ainsi contri-
buer à réduire de 300 milliards de dollars
(environ 217 milliards d’euros) les coûts
liés au système de santé américain grâce à la
prévention et à la médecine personnalisée.
Lasurveillanceépidémiologiquefigureparmi
les pistes prometteuses, avec certains avan-
tages par rapport aux systèmes traditionnels
de veille en termes de réactivité. C’est ainsi
que Google Flu Trends est apparu en 2008
pour le suivi de la grippe saisonnière à travers
18 pays, puis que les hashtags de Twitter ont
été utilisés par la Food Standards Agency bri-
tannique pour surveiller les pics épidémiques
de gastro-entérite durant l’hiver 2012-2013.
En France, l’entreprise Celtipharm publie
depuis peu sur openhealth.fr des cartes épi-
démiques réactualisées chaque jour, à partir
des achats réalisés dans un réseau de plus de
4 000 pharmacies.
Un peu de prudence est néanmoins de mise
dans l’exploitation et l’analyse qui sont faites
de certaines données. Selon une étude pu-
bliée dans la revue Science et relayée par The
Register, les prédictions de pics d’épidémie
réalisées par Google seraient erronées pour
100 des 108 semaines écoulées depuis 2011.
La pharmacovigilance représente un autre
enjeu critique en termes de veille sanitaire,
particulièrement mis en évidence lors de
l’affaire du Mediator. Ici encore, l’accès à
certaines sources de données et leur exploi-
tation pourraient apporter une surveillance
plus réactive en générant des alertes et en
permettant des prises de décisions adaptées
au contexte de la part des pouvoirs publics.
Big data n’est pas synonyme
d’open data
La veille sanitaire pourrait donc s’inscrire
dans une politique de plus grande transpa-
rence publique, mais toutes les données de
santé ne sont pas accessibles, et la rançon de
leur confidentialité se matérialise très logi-
quement par des difficultés à pouvoir les ex-
ploiter. En France, après la circulation d’une
pétition en 2013 pour « libérer les données
de santé » et la remise au ministère d’un
rapport de l’Inspection générale des affaires
sociales, une démarche est désormais enga-
gée afin d’intégrer l’ouverture des données
publiques de santé dans la future loi de san-
té, de façon très encadrée. Une commission
associant les différents acteurs concernés
remettra ses conclusions en avril 2014 sous
la forme d’un rapport et d’une doctrine qui
guideront les décisions publiques.
Les données du Système national d’infor-
mation inter-régimes de l’assurance-mala-
die (Sniiram) sont bien entendu concernées,
puisqu’il s’agirait du plus vaste entrepôt de
données de santé au monde, consolidant
chaque année 500 millions d’actes médi-
caux et 11 millions de séjours hospitaliers.
L’accès aux données devra ainsi garantir le
respect de la vie privée et de l’anonymat, et
leur « ouverture » sera limitée en raison des
risques de ré-identification indirecte. Un
dispositif juridique, technique et organisa-
tionnel en sécurisera donc l’accès et l’utili-
sation, à travers la mise en place d’une gou-
vernance adaptée.
Une médecine bijective
et réflexive à la fois
Le « crowd sourcing médical » n’est pas
seulement exploitable à travers les com-
mentaires échangés entre les internautes
sur les réseaux sociaux, sans qu’ils soient
conscients que ces données vont servir à
dépister une épidémie. Les individus pour-
raient souhaiter, un peu à la manière dont
des patients sont enrôlés dans des essais cli-
niques, devenir des contributeurs de masse
de données anonymes permettant de déve-
lopper un véritable big data de santé inter-
national au service de la recherche, dans le
cadre d’une médecine plus participative.
En marge des médias sociaux, le grand public
commence également à partager des données
personnelles de santé ou de « bien-être » à
travers des dispositifs tels que des montres
intelligentes et des bracelets connectés qui
surveillent le sommeil, l’exercice physique
et la consommation de calories, la fréquence
www.centraliens.net 31
big data, so what ?
cardiaque, etc. Parallèlement à l’arrivée de
smartphones disposant de fonctions permet-
tant à chacun de surveiller son état de santé
par l’intermédiaire de capteurs, des construc-
teurs tels Apple et Samsung travaillent sur
des dispositifs et des technologies leur per-
mettant de pénétrer le marché du « quanti-
fied self » et de la santé connectée.
L’alimentation du big data à travers l’Internet
des objets passera également par le domicile,
la domotique et des solutions permettant
d’assurer le maintien à domicile de personnes
en situation de dépendance, âgées et/ou at-
teintes de pathologies chroniques. Différents
services peuvent ainsi se décliner à travers un
« habitat intelligent et connecté », de la télé-
consultation à la télésurveillance, en passant
par des systèmes assurant la coordination
de soins et d’aides à domicile, la livraison de
repas, des services de coaching nutritionnel
ou thérapeutique. Les supermarchés peuvent
désormais aussi connaître les habitudes ali-
mentaires des consommateurs, et même un
réfrigérateur peut être connecté à Internet
afin de suivre ce qui est consommé et ce qui
doit être réapprovisionné.
De la santé publique
à la médecine individualisée
ou personnalisée
Dans un autre domaine, l’étude du génome
et des relations entre les maladies et leurs
facteurs de risque génétiques et environ-
nementaux permet d’explorer le champ de
la médecine personnalisée en optimisant
le traitement d’un individu donné. Cepen-
dant, les technologies de l’information ne
peuvent pas encore suivre le rythme de
l’explosion des données, en particulier pour
assurer un « suivi génétique global » des
cancers qui nécessiterait le recoupement
des caractéristiques de millions de tumeurs.
Les jeux de données recueillis par les clini-
ciens sont tout simplement bien trop volu-
mineux pour être partagés ou échangés sur
les réseaux en place. À titre d’illustration
aux États-Unis, en estimant un volume de
100 Go par tumeur appliqué à 16 millions
de personnes atteintes d’un cancer, on tota-
liserait des centaines de pétaoctets (un mil-
lion de gigaoctets) de données par an.
Le sujet est d’actualité, l’Opecst (Office par-
lementaire d’évaluation des choix scienti-
fiques et technologiques) ayant remis en
janvier dernier à la Commission des affaires
sociales de l’Assemblée nationale un rapport
sur les enjeux scientifiques, technologiques,
éthiques et juridiques de la médecine per-
sonnalisée.
De la causalité à la corrélation
La sécurité représente un enjeu majeur en
raison de la capacité à identifier un individu
à travers des caractéristiques pourtant décla-
rées anonymisées ou leur recoupement avec
d’autres bases de données publiques. Dans
l’État américain de l’Illinois, des données
anonymisées de sorties d’hospitalisation, de
recensement et de listes électorales ont ainsi
pu être recoupées avec des données géné-
tiques également anonymisées, permettant
de ré-identifier 50 % des patients atteints de
la maladie de Huntington. Certains scien-
tifiques vont même jusqu’à affirmer que
« l’anonymat est devenu algorithmiquement
impossible ».
Il existe donc un véritable cadre éthique
et sécuritaire à définir au niveau interna-
tional afin de garantir le bon usage de ces
En France, une démarche est engagée pour intégrer l’ouverture des données publiques de santé
de façon très encadrée dans la future loi de santé.
Docteur
Laurent Guigue
Médecin de santé pu-
blique, spécialiste de
l’informatique médi-
cale. Il est directeur
médical au sein de la
société Santéos, filiale de Worldline.
Son expertise concerne notamment le
partage de données de santé à caractère
personnel.
Docteur
Christophe Richard
Il dirige le groupe de
travail « open data/
big data en santé » du
Syntec numérique.
Il est également secré-
taire général du Collège national des
médecins des hébergeurs (CNMH).
données sans risque pour la vie privée, et il
convient de se prémunir contre toute dicta-
ture des données qui nous conduirait à lais-
ser prendre des décisions par des machines,
à l’image des dérives du trading haute fré-
quence dans le milieu boursier.
Les données de santé n’ont pas qu’une valeur
économique, elles sont une opportunité et
un enjeu majeur en santé et constituent une
ressource pour les outils de big data. Chacun
devra s’attacher à construire une économie
du système qui ne sera pas fondée sur la vente
des données, mais sur les enseignements qui
découleront des traitements effectués.
Dossier
32 Centraliens no
634 [juin 2014]
M
étadonnées, littéralement « don-
nées à propos des données  ».
Bien que le terme ne soit pas
nouveau – il est utilisé dans les
systèmes de classification des bibliothèques
– l’avènement du numérique lui donne un
nouveau sens et surtout une nouvelle por-
tée. Les métadonnées modernes sont les
traces numériques que nous laissons tous
derrière nous, en permanence. Lorsque nous
téléphonons, lorsque nous naviguons sur
Internet, lorsque nous payons avec notre
carte bancaire. Les métadonnées de nos télé-
phones portables ressemblent à une facture
très détaillée : appels ou textos reçus, dates
et heures, antennes GSM auxquelles nous
nous sommes connectés. Ces métadonnées
comportementales sont, avec les données
textuelles, un des deux grands types de « big
data  », ces très grands ensembles de don-
nées dont la collecte et l’utilisation à grande
échelle sont récemment devenues non seule-
ment possibles mais (très) bon marché.
Est-ce parce que le grand public a appris
leur existence par les agences de renseigne-
ment aux États-Unis ou en France ? Parce
qu’elles sont collectées de manière passive ?
Ou encore parce qu'elles sont plus difficiles à
appréhender que leurs équivalents textuels ?
Il est en tout cas certain que ces métadonnées
inquiètent.
Du positif…
Mais d’abord, revenons sur le côté positif de
ces métadonnées. Elles facilitent notre vie
quotidienne  : quel est le meilleur chemin
pour éviter les bouchons  ? Quel sera mon
film préféré ? Quelle page web répond exac-
tement à ma question ?
Les métadonnées sont également cruciales
pour l’ingénieur : gérer et améliorer le réseau
téléphonique, lutter contre la fraude ban-
caire, optimiser un réseau de distribution.
Enfin, pour la recherche scientifique, ces
métadonnées sont une révolution. Un récent
article dans la revue Science compare leur
impact scientifique à l’invention du micros-
cope. En épidémiologie, les données de
mobilité sont utilisées pour étudier la pro-
pagation d’un virus comme la malaria. En
économie du développement, les chercheurs
travaillent à l’utilisation des données télépho-
niques pour comprendre et mieux combattre
la pauvreté. Autre exemple : les métadonnées
font avancer la recherche en management et
en sciences sociales. Comment la produc-
tivité d’un employé est-elle influencée par
ses liens sociaux les plus forts, quel décou-
page rationnel pour un territoire comme la
France, comment la diversité de notre réseau
social est-elle liée à notre pouvoir d’achat, ou
encore comment nos connaissances et amis
influent-ils sur nos opinions ?
Que du positif ? Même si nous sommes bien
loin des références orwelliennes ou kaf-
kaïennes, l’utilisation commerciale et gou-
vernementale à grande échelle de métadon-
nées comportementales soulève trois grandes
questions.
Des interrogations/questions
Tout d’abord, celle de l’anonymat  : nos
traces numériques contiennent beaucoup
d’informations et sont fondamentalement
personnelles et privées. C’est pourquoi les
chercheurs comme les entreprises n’utilisent
que des bases de données anonymisées,
Le 6 juin 2013, un nouveau mot
est (ré)apparu dans la langue
française : métadonnées !
Pas de nouvelle édition du
Petit Robert à l’horizon, mais
bien les révélations inédites
d’un ancien consultant de
la NSA, l’agence américaine
de renseignement.
En quelques jours, le mot
a fait la une de tous les grands
quotidiens.
Métadonnées,
« pour ou contre » ?
La collecte et l’utilisation à grande échelle des métadonnées sont devenues non seulement possibles mais
très bon marché.
www.centraliens.net 33
big data, so what ?
desquelles on a retiré les identifiants d’un
utilisateur  : son nom, son numéro de télé-
phone, son adresse… Cependant, dans le
cas des métadonnées, cela n’est absolument
pas suffisant. Un récent article en collabora-
tion avec l’université de Louvain montre par
exemple que notre manière de nous déplacer
est très régulière, unique, et comparable à
des empreintes digitales. Il suffit en effet de
connaître quatre points, quatre endroits et
temps approximatifs, où un utilisateur était
pour le retrouver dans une base de données
pourtant apparemment anonyme de 1,5 mil-
lion de personnes. Les métadonnées sont
riches, leurs usages multiples et il est très peu
probable qu’il soit jamais possible de les ano-
nymiser. Il est donc temps d’oublier, légale-
ment et techniquement, la notion d’anony-
mat au profit d’une quantification du risque
de ré-identification.
Deuxième interrogation  : les révélations
indirectes sur l’individu. Les métadonnées
téléphoniques contiennent beaucoup plus
d’informations qu’il n’y paraît. Une étude en
collaboration avec des chercheurs de l’ENS
de Lyon a montré qu’il est possible de prédire
la personnalité d’une personne en observant
la manière dont celle-ci utilise son téléphone.
En calculant un certain nombre d’indicateurs
à partir des métadonnées téléphoniques, la
durée moyenne qu’un utilisateur prend pour
répondre à un texto, la distance moyenne
qu’il parcourt par jour ou encore la diversité
de ses contacts, des algorithmes de machine
learning peuvent prédire le score d’un utilisa-
teur dans chacun des cinq grands facteurs de
personnalité : l’extraversion, le neuroticisme,
l’ouverture à l’expérience, la conscienciosité
ou encore l’agréabilité. La vraie question à se
poser pour les métadonnées n’est donc pas
ce qu’elles révèlent directement mais bien ce
qu’un algorithme pourrait, raisonnablement,
révéler sur une personne en les utilisant.
Enfin, troisième question, la propriété et
l’accès aux métadonnées. Bien qu’utilisées à
bon escient, leur collecte et leur utilisation
sont malheureusement souvent faites de
manière peu transparente. Ce manque de
transparence nourrit les fantasmes. L’uti-
lisateur, celui qui génère les données, doit
au minimum y avoir accès. Seul l’accès aux
métadonnées brutes permet de comprendre
ce qu’elles contiennent et l’usage qui peut en
être fait, directement ou indirectement. De
même seul cet accès aux données brutes per-
met à l’utilisateur de les utiliser pleinement.
Il ne s’agit donc pas d’être « pour ou contre »
les métadonnées mais de les expliquer, de se
poser les bonnes questions et de choisir les
réponses que nous voulons y apporter, en
tant qu’ingénieurs ou que simples citoyens.
Yves-Alexandre
de Montjoye (08)
@yvesalexandre est
chercheur en mathé-
matiques appliquées
au MIT Media Lab.
Il développe des mé-
thodes stochastiques pour l’analyse
de métadonnées comportementales  :
données de mobilité, transactions
financières, communications dans les
réseaux sociaux. Ses recherches ont
reçu une couverture médiatique dans
BBC News, CNN, The New York Times,
Wall Street Journal, Foreign Policy,
Le Monde, Der Spiegel, dans les rap-
ports du World Economic Forum et
des Nations unies.
Avant de rejoindre le MIT, Yves-
Alexandre était chercheur au Santa Fe
Institute (Nouveau-Mexique).
Il est titulaire d’un master en mathéma-
tiques appliquées de l’université de Lou-
vain et d’un master en ingénierie mathé-
matique de la KU Leuven (Belgique).
Notre manière de nous déplacer est régulière, unique et comparable
à des empreintes digitales.
Il est possible de prédire la personnalité d’une personne en observant la manière
dont celle-ci utilise son téléphone.

Weitere ähnliche Inhalte

Was ist angesagt?

Baina bigdata introduction 2016
Baina bigdata introduction 2016Baina bigdata introduction 2016
Baina bigdata introduction 2016Karim Baïna
 
Quelques heures à San Francisco...
Quelques heures à San Francisco...Quelques heures à San Francisco...
Quelques heures à San Francisco...Stéphane Toullieux
 
Liv watson icgfm xbrl a language of the government world francais
Liv watson icgfm xbrl a language of the government world francaisLiv watson icgfm xbrl a language of the government world francais
Liv watson icgfm xbrl a language of the government world francaisicgfmconference
 
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-31-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3Georgios Fradelos
 
Ch&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assuranceCh&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assuranceBetito Yan
 
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatfifi75
 
Karim Baina Big Data ENSIAS December 2016
Karim Baina Big Data ENSIAS December 2016Karim Baina Big Data ENSIAS December 2016
Karim Baina Big Data ENSIAS December 2016Karim Baïna
 
Valtech - Big Data pour le marketing
Valtech - Big Data pour le marketingValtech - Big Data pour le marketing
Valtech - Big Data pour le marketingValtech
 
Voici les 34 technologies de 2016 à forts enjeux stratégiques selon Gartner
Voici les 34 technologies de 2016 à forts enjeux stratégiques selon GartnerVoici les 34 technologies de 2016 à forts enjeux stratégiques selon Gartner
Voici les 34 technologies de 2016 à forts enjeux stratégiques selon GartnerThibaut Watrigant
 
Panorama des médias sociaux 2020
Panorama des médias sociaux 2020Panorama des médias sociaux 2020
Panorama des médias sociaux 2020Frederic CAVAZZA
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceJulien DEMAUGÉ-BOST
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerceCOMPETITIC
 
les metiers issus des nouvelles technologies
les metiers issus des nouvelles technologiesles metiers issus des nouvelles technologies
les metiers issus des nouvelles technologiesBilal Rezkellah
 
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015yann le gigan
 
Premiers résultats de l’enquête Capacity
Premiers résultats de l’enquête Capacity Premiers résultats de l’enquête Capacity
Premiers résultats de l’enquête Capacity CoRAIA
 
Vers des compétences adaptées aux besoins d’une économie digitalisée
Vers des compétences adaptées aux besoins d’une économie digitaliséeVers des compétences adaptées aux besoins d’une économie digitalisée
Vers des compétences adaptées aux besoins d’une économie digitaliséeGroupe Alpha
 
[Fr] Rapport Mc Kinsey sur la mutation numérique
[Fr] Rapport Mc Kinsey sur la mutation numérique[Fr] Rapport Mc Kinsey sur la mutation numérique
[Fr] Rapport Mc Kinsey sur la mutation numériqueYann Gourvennec
 

Was ist angesagt? (18)

Baina bigdata introduction 2016
Baina bigdata introduction 2016Baina bigdata introduction 2016
Baina bigdata introduction 2016
 
Quelques heures à San Francisco...
Quelques heures à San Francisco...Quelques heures à San Francisco...
Quelques heures à San Francisco...
 
Liv watson icgfm xbrl a language of the government world francais
Liv watson icgfm xbrl a language of the government world francaisLiv watson icgfm xbrl a language of the government world francais
Liv watson icgfm xbrl a language of the government world francais
 
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-31-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
 
Ch&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assuranceCh&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assurance
 
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
 
Karim Baina Big Data ENSIAS December 2016
Karim Baina Big Data ENSIAS December 2016Karim Baina Big Data ENSIAS December 2016
Karim Baina Big Data ENSIAS December 2016
 
Valtech - Big Data pour le marketing
Valtech - Big Data pour le marketingValtech - Big Data pour le marketing
Valtech - Big Data pour le marketing
 
Voici les 34 technologies de 2016 à forts enjeux stratégiques selon Gartner
Voici les 34 technologies de 2016 à forts enjeux stratégiques selon GartnerVoici les 34 technologies de 2016 à forts enjeux stratégiques selon Gartner
Voici les 34 technologies de 2016 à forts enjeux stratégiques selon Gartner
 
Panorama des médias sociaux 2020
Panorama des médias sociaux 2020Panorama des médias sociaux 2020
Panorama des médias sociaux 2020
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligence
 
Chapitre 6 annexes
Chapitre 6 annexesChapitre 6 annexes
Chapitre 6 annexes
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerce
 
les metiers issus des nouvelles technologies
les metiers issus des nouvelles technologiesles metiers issus des nouvelles technologies
les metiers issus des nouvelles technologies
 
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015
 
Premiers résultats de l’enquête Capacity
Premiers résultats de l’enquête Capacity Premiers résultats de l’enquête Capacity
Premiers résultats de l’enquête Capacity
 
Vers des compétences adaptées aux besoins d’une économie digitalisée
Vers des compétences adaptées aux besoins d’une économie digitaliséeVers des compétences adaptées aux besoins d’une économie digitalisée
Vers des compétences adaptées aux besoins d’une économie digitalisée
 
[Fr] Rapport Mc Kinsey sur la mutation numérique
[Fr] Rapport Mc Kinsey sur la mutation numérique[Fr] Rapport Mc Kinsey sur la mutation numérique
[Fr] Rapport Mc Kinsey sur la mutation numérique
 

Andere mochten auch

Know (and Love) the Person in the Mirror
Know (and Love) the Person in the MirrorKnow (and Love) the Person in the Mirror
Know (and Love) the Person in the MirrorCoaching Sanctuary
 
Envol - réunion du 9 juillet 2015 - CCI Béziers CCI Narbonne
Envol - réunion du 9 juillet 2015 - CCI Béziers CCI NarbonneEnvol - réunion du 9 juillet 2015 - CCI Béziers CCI Narbonne
Envol - réunion du 9 juillet 2015 - CCI Béziers CCI NarbonneMarie Mourlhou
 
Curso [Modo De Compatibilidad]
Curso [Modo De Compatibilidad]Curso [Modo De Compatibilidad]
Curso [Modo De Compatibilidad]Luiscondop
 

Andere mochten auch (6)

Know (and Love) the Person in the Mirror
Know (and Love) the Person in the MirrorKnow (and Love) the Person in the Mirror
Know (and Love) the Person in the Mirror
 
THE CAMP : Dossier de presse
THE CAMP : Dossier de presseTHE CAMP : Dossier de presse
THE CAMP : Dossier de presse
 
Never Gonna Be Alone
Never Gonna Be AloneNever Gonna Be Alone
Never Gonna Be Alone
 
Envol - réunion du 9 juillet 2015 - CCI Béziers CCI Narbonne
Envol - réunion du 9 juillet 2015 - CCI Béziers CCI NarbonneEnvol - réunion du 9 juillet 2015 - CCI Béziers CCI Narbonne
Envol - réunion du 9 juillet 2015 - CCI Béziers CCI Narbonne
 
Curso [Modo De Compatibilidad]
Curso [Modo De Compatibilidad]Curso [Modo De Compatibilidad]
Curso [Modo De Compatibilidad]
 
La tribune de l'innovation avec thecamp
La tribune de l'innovation avec thecampLa tribune de l'innovation avec thecamp
La tribune de l'innovation avec thecamp
 

Ähnlich wie Central634_Dossier_completDV_001

Big data, l'accélération d'innovation
Big data, l'accélération d'innovationBig data, l'accélération d'innovation
Big data, l'accélération d'innovationLionel Martins
 
LIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big DataLIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big DataInetum
 
Résumé Big Data et objets connectés. Faire de la France un champion de la r...
Résumé Big Data et objets connectés. Faire de la France un champion de la r...Résumé Big Data et objets connectés. Faire de la France un champion de la r...
Résumé Big Data et objets connectés. Faire de la France un champion de la r...Hortense Billot
 
Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Hortense Billot
 
Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Monimmeuble.com
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGMargarita Zlatkova
 
Perspectives n°17 aout-septembre 2013 - athénéa conseils
Perspectives n°17   aout-septembre 2013 - athénéa conseilsPerspectives n°17   aout-septembre 2013 - athénéa conseils
Perspectives n°17 aout-septembre 2013 - athénéa conseilsYoann DUCUING
 
La data: marchandise du 21em siècle
La data: marchandise du 21em siècleLa data: marchandise du 21em siècle
La data: marchandise du 21em siècleCHARLES Frédéric
 
DIGIWORLD Yearbook 2010 - IDATE
DIGIWORLD Yearbook 2010 - IDATEDIGIWORLD Yearbook 2010 - IDATE
DIGIWORLD Yearbook 2010 - IDATERomain Fonnier
 
La veille dans un environnement numérique mouvant
La veille dans un environnement numérique mouvantLa veille dans un environnement numérique mouvant
La veille dans un environnement numérique mouvantChristophe Deschamps
 
Big data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBig data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBruno Patin
 
Le Numérique Pilier d'innovation sociétale et économique ? - Antoine CHOTARD ...
Le Numérique Pilier d'innovation sociétale et économique ? - Antoine CHOTARD ...Le Numérique Pilier d'innovation sociétale et économique ? - Antoine CHOTARD ...
Le Numérique Pilier d'innovation sociétale et économique ? - Antoine CHOTARD ...UNITEC
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
 
Etude AKOYA Big Data
Etude AKOYA Big DataEtude AKOYA Big Data
Etude AKOYA Big DataJocelyn Muret
 
Livre blanc big data écosystème français
Livre blanc big data écosystème françaisLivre blanc big data écosystème français
Livre blanc big data écosystème françaisMatthias Fille
 
Andre Blavier digital transformation - AdN
Andre Blavier   digital transformation - AdNAndre Blavier   digital transformation - AdN
Andre Blavier digital transformation - AdNSynhera
 
Etude PwC/AFDEL/SNJV GSL 100 France (2014)
Etude PwC/AFDEL/SNJV GSL 100 France (2014)Etude PwC/AFDEL/SNJV GSL 100 France (2014)
Etude PwC/AFDEL/SNJV GSL 100 France (2014)PwC France
 
[Livre blanc Institut g9+ V2] 2020 : Ou vont les industries francaises du num...
[Livre blanc Institut g9+ V2] 2020 : Ou vont les industries francaises du num...[Livre blanc Institut g9+ V2] 2020 : Ou vont les industries francaises du num...
[Livre blanc Institut g9+ V2] 2020 : Ou vont les industries francaises du num...Institut G9+
 

Ähnlich wie Central634_Dossier_completDV_001 (20)

2014-12-16-G9plus-LB-Big-Data
2014-12-16-G9plus-LB-Big-Data2014-12-16-G9plus-LB-Big-Data
2014-12-16-G9plus-LB-Big-Data
 
Big data, l'accélération d'innovation
Big data, l'accélération d'innovationBig data, l'accélération d'innovation
Big data, l'accélération d'innovation
 
LIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big DataLIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big Data
 
MAGCOM n°4
MAGCOM n°4MAGCOM n°4
MAGCOM n°4
 
Résumé Big Data et objets connectés. Faire de la France un champion de la r...
Résumé Big Data et objets connectés. Faire de la France un champion de la r...Résumé Big Data et objets connectés. Faire de la France un champion de la r...
Résumé Big Data et objets connectés. Faire de la France un champion de la r...
 
Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...
 
Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
 
Perspectives n°17 aout-septembre 2013 - athénéa conseils
Perspectives n°17   aout-septembre 2013 - athénéa conseilsPerspectives n°17   aout-septembre 2013 - athénéa conseils
Perspectives n°17 aout-septembre 2013 - athénéa conseils
 
La data: marchandise du 21em siècle
La data: marchandise du 21em siècleLa data: marchandise du 21em siècle
La data: marchandise du 21em siècle
 
DIGIWORLD Yearbook 2010 - IDATE
DIGIWORLD Yearbook 2010 - IDATEDIGIWORLD Yearbook 2010 - IDATE
DIGIWORLD Yearbook 2010 - IDATE
 
La veille dans un environnement numérique mouvant
La veille dans un environnement numérique mouvantLa veille dans un environnement numérique mouvant
La veille dans un environnement numérique mouvant
 
Big data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBig data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiers
 
Le Numérique Pilier d'innovation sociétale et économique ? - Antoine CHOTARD ...
Le Numérique Pilier d'innovation sociétale et économique ? - Antoine CHOTARD ...Le Numérique Pilier d'innovation sociétale et économique ? - Antoine CHOTARD ...
Le Numérique Pilier d'innovation sociétale et économique ? - Antoine CHOTARD ...
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Etude AKOYA Big Data
Etude AKOYA Big DataEtude AKOYA Big Data
Etude AKOYA Big Data
 
Livre blanc big data écosystème français
Livre blanc big data écosystème françaisLivre blanc big data écosystème français
Livre blanc big data écosystème français
 
Andre Blavier digital transformation - AdN
Andre Blavier   digital transformation - AdNAndre Blavier   digital transformation - AdN
Andre Blavier digital transformation - AdN
 
Etude PwC/AFDEL/SNJV GSL 100 France (2014)
Etude PwC/AFDEL/SNJV GSL 100 France (2014)Etude PwC/AFDEL/SNJV GSL 100 France (2014)
Etude PwC/AFDEL/SNJV GSL 100 France (2014)
 
[Livre blanc Institut g9+ V2] 2020 : Ou vont les industries francaises du num...
[Livre blanc Institut g9+ V2] 2020 : Ou vont les industries francaises du num...[Livre blanc Institut g9+ V2] 2020 : Ou vont les industries francaises du num...
[Livre blanc Institut g9+ V2] 2020 : Ou vont les industries francaises du num...
 

Central634_Dossier_completDV_001

  • 1. www.centraliens.net 17 Dossier D ans notre vie quotidienne, nous constatons l’explosion des données numériques : nos relations avec nos fournisseurs, l’administration, les banques et aussi la photographie, la vidéo, les réseaux sociaux sont devenus numériques, avec une progression exponentielle de la créa- tion de données. Cette progression est loin d’être terminée, notamment avec le dévelop- pement de l’usage des smartphones, tablettes numériques et avec l’arrivée de « l’Internet des objets » qui voit n’importe quelle apps ou objet (réfrigérateur, montre cardio, voiture et plus généralement objet connecté) échanger de l’information avec des systèmes ou acteurs toujours plus nombreux sur les réseaux Inter- net. Ainsi, de nouvelles technologies ont été créées et se développent, en particulier dans le domaine de l’analyse, pour tirer parti de ces in- formations numériques : le « big data » est né. Il a ses caractéristiques propres ; on parle des trois, et parfois des quatre « V » : • volumes de données ; • variété de nature, de type… ; • vitesse ; • véracité des données. Seulement voilà, au-delà des technologies, quelssontlesusagespotentielsdecesbigdata? Ouvrent-elles la porte à de nouveaux services pour le commun des mortels ? Toutes ces informations qui traquent le moindre de nos mouvements, questions, en- vies, ne viennent-elles pas entraver les libertés individuelles ? In fine, c’est l’usage des technologies de big data qui va apporter la valeur, parfois consi- dérée comme le cinquième « V » et dimen- sion ultime des big data. Il est intéressant de souligner ici que l’ap- proche big data est et doit être systémique, car c’est le modèle d’affaire ou de fonctionnement des organisations elles-mêmes qui est modifié. C’est une des raisons pour laquelle la plupart des professionnels contactés m’ont expliqué le caractère stratégique de ce sujet pour leur société. D’où leur refus de communiquer. Ce caractère systémique va d’ailleurs large- ment au-delà des frontières des entreprises et des organisations ; l’approche de l’ingé- nieur doit être holistique. De fait, il induit une réelle complexité du sujet dans le sens ou la réaction des écosystèmes aux systèmes de big data mis en place évoluent avec le temps : par exemple, Google modifie régulièrement ses algorithmes de « scoring » pour tenir compte de l’usage qui est fait de son moteur de recherche. Nous verrons dans le dossier l’exemple d’une société française innovante et reconnue mondialement. Au fond, c’est un terrain de jeu passion- nant : le marketing, souvent premier grand bénéficiaire du volet technologique du big data, doit être traité en même temps que la stratégie, les partenariats et l’organisation. Nous apportons ici des éléments de réponse et de réflexion en illustrant en particulier les usages du big data : • un premier article plante le décor de la révolution industrielle que représente ce nouveau monde de l’information ; • deux articles couvrent les aspects techno- logiques : la recherche (analyse séman- tique des données), la mise en œuvre de ces technologies (les architectures de systèmes en question) ; • différents points de vue s’expriment : les assurances, la publicité et la santé ; • enfin un article sur les métadonnées et la protection de la vie privée. Je tiens à remercier vivement les auteurs qui ont partagé leur point de vue. J’espère que ce dossier vous éclairera sur ce sujet qui fait cou- ler beaucoup d’encre. Nous sommes au début d’une nouvelle ère de l’information, à chacun d’écrire une partie de ce nouveau chapitre. Je vous souhaite autant de plaisir à le lire que j’en ai eu à échanger avec les différents auteurs, experts de ce sujet, pour coordonner ce dossier ! Big data, so what ? Sommaire p 18 La révolution des données ou l’or du XXIe siècle p 20 De la business intelligence aux big data : apport des technologies sémantiques p 24 Des architectures pour le big data p 26 À l’aube d’une révolution dans l’assurance p 28 La science de prédiction des clics p 30 Vers la médecine 3.0 ? p 32 Métadonnées, « pour ou contre » ? Bruno Cambounet (84) Vice-président chez Axway, société leader dans la gouvernance des flux de données, en charge des marchés verticaux. Il a développé son expérience dans des positions d’opérationnel et de conseil. Il dirige des projets d’innovation et de développement dans différents sec- teurs comme l’industrie, le transport et logistique, la santé, les télécommu- nications et les services. Il préside le groupement professionnel Centrale Consultants de l’Association des Centraliens.
  • 2. Dossier 18 Centraliens no 634 [juin 2014] La révolution des données ou l’or du XXIe siècle La révolution numérique a engendré des gains de productivité records au cours des dernières années. Pour beaucoup d’analystes, c’est la troisième révolution industrielle. Des États-Unis à l’Europe, de la santé à l’éducation, les big data préfigurent un nouveau modèle de société. A ux États-Unis, les gains de produc- tivité enregistrés par le Bureau of Statisticssurlesannées2009,2010et 2011sontlesplusimportantsjamais rencontrés. Pour les analystes économiques, la principale force derrière cette accélération est le paradigme numérique. Les similitudes avec le « Gilded Age » lié à l’émergence de la deuxième révolution industrielle sont trou- blantes : concentration des capitaux à grande vitesse, maîtrise d’économies de réseaux par quelques acteurs très concentrés, besoins très élevés en capitaux, etc. À n’en pas douter nous assistons là à l’opti- misation de l’adéquation des offres et des de- mandes grâce aux gains d’opportunités carac- téristiques du numérique qui servent l’intérêt d’une toute petite minorité, amassant des for- tunes à des vitesses très élevées. En effet, pen- dant que ces gains de productivité permettent à Sergueï Brin, Mark Zuckerberg et quelques autres de s’enrichir, la classe moyenne améri- caine s’appauvrit rapidement. Ces problèmes ne sont pas nouveaux : on garde à l’esprit les conditions effroyables dans lesquelles vivaient les ouvriers anglais tout au long du XIXe siècle, travaillant dans des usines rudimentaires et insalubres… Puis le droit du travail a été inventé, tout comme la sécurité sociale et l’éducation obligatoire. L’idée est là. Chaque révolution industrielle amène son modèle social et sa régulation appropriée. La première a vu l’émergence du code civil, qui a fourni une stabilité du droit propre à permettre une forte expansion économique. La deuxième a donné naissance aux droits so- cial et du travail, qui ont permis l’émergence d’une classe prolétaire formée et disposant d’uneconsciencepolitique.Latroisièmepour- rait voir l’avènement du « code des données ». Une manne croissante d’informations En effet, la révolution numérique pourrait se transformer rapidement en révolution des données. Afin de replacer les choses dans leur contexte, il faut savoir que 90 % de la donnée produite dans le monde l’a été au cours des deux dernières années. Car en plus de disposer d’une manne crois- sante d’informations, la production de ces données se fait au sein d’un réseau unifié, communiquant à l’aide d’un même protocole (« IP ») utilisé pour véhiculer l’information. Si aujourd’hui le nombre d’adresses IP est de l’ordre de 10 à 20 milliards, l’on estime qu’en 2025, avec l’avènement de l’ère des objets connectés, ce nombre pourrait passer à 150 ou même 200 milliards. Et il ne s’agit là que de prédictions relativement conservatrices car, comme le fait remarquer Jean-Yves Pro- nier, directeur marketing du gestionnaire de données EMC, « ces estimations sont rendues fausses d’année en année par les nouveaux usages ». Aujourd’hui, nous en sommes encore à l’âge de pierre de l’exploitation intelligente et mas- sive de la donnée connectée. Néanmoins, nous pouvons déjà en discerner les contours et en apprécier le potentiel. Il y a peu, l’ex- ploitation d’une si grande quantité de don- nées était impossible car les volumes étaient trop importants et les outils d’analyse pas encore inventés. Néanmoins, une nouvelle génération d’algorithmes permet désormais de gérer ces données dans leur globalité et leur complexité : on a donné à cet ensemble de technologies le nom de « big data ». En plus de faire communiquer les données entre elles, nous pouvons à présent nous ser- vir d’un jeu de données pour en comprendre un autre et ainsi de suite, révélant le secret qui 90 % de la donnée produite dans le monde l’a été au cours des deux dernières années.
  • 3. www.centraliens.net 19 big data, so what ? se cache derrière ces quantités d’informations produites et stockées tous les jours. C’est de cette manière que Google, en comp- tant le nombre de fautes d’orthographe saisies dans le moteur de recherche, parvient à esti- mer précisément le niveau d’illettrisme dans un pays ou une zone géographique donnée. Au même titre l’ONU, avec son programme Global Pulse, écoute désormais les réseaux sociaux pour détecter de façon préventive les endroits dans le monde où un conflit est sus- ceptible de survenir. Autre exemple : dans l’agglomération de Chicago, l’analyse des flux de données issues des réseaux sociaux a permis de prédire avec un niveau de précision inouï où seraient commis les prochains crimes, et ainsi de les prévenir en plaçant des véhicules de police au niveau des zones d’alerte. L’on pourrait étendre ces mêmes mécanismes au domaine de l’épidémiologie, la prévention précoce des maladies chroniques ou encore le traitement des pathologies orphelines. Un impact sur tous les secteurs En bref, les technologies big data risquent d’impacter fortement de très nombreux sec- teurs, ce type d’approches pouvant être massi- vement généralisé afin d’optimiser les oppor- tunités dans tous les domaines. Certes,ilyalesrisquesentoutgenre,lesaddic- tions, les abus que des entreprises pourraient être tentées de commettre, et la volonté de surveillance sans limite des États. Pour autant, tout aussi technologiques que puissent être les données, nous en sommes jusqu’à preuve du contraire les maîtres et c’est à nous, les sociétés civiles, les institutions élues, de décider de la façon dont nous souhaitons construire notre société. De surcroît, la data n’est pas une force brute, une énergie motrice, un liquide que l’on met dans un moteur à explosion, c’est un outil qui nous permet de créer un monde plus intelligent, où les opportunités sont plus nombreuses, ou les occasions manquées se raréfient ; c’est potentiellement un nouveau modèle de société, une nouveau vecteur d’ex- pression, l’opportunité d’une consommation plus raisonnée. À l’heure où notre modèle social semble lar- gement menacé et où l’économie est en berne, c’est là l’occasion pour notre nation de se re- construire, de se réinventer d’une manière qui va largement au-delà de ce que nous pouvons concevoir. L’éducation, la santé, la production de richesse, l’utilisation des ressources… tout cela sera affecté par ce que l’on appelle désor- mais « l’or du XXIe siècle ». Mark Zuckerberg, premier actionnaire de Facebook et 21e fortune mondiale, estimée à 26,7 milliards de dollars. Gilles Babinet Depuis 1989, Gilles Babinet a fondé neuf sociétés dans des domaines d’activité variés : travaux élec- triques en hauteur, design, téléchargement de musique, recherche publicitaire et marketing, big data… En 2011 il est élu premier pré- sident du Conseil national du numé- rique. Nommé « Digital Champion » par la ministre déléguée au Numérique en 2012, il publie en janvier 2014 L’Ère numérique, un nouvel âge de l’huma- nité dans lequel il met en avant l’impact de la sphère numérique sur la société moderne. ©Facebook
  • 4. Dossier 20 Centraliens no 634 [juin 2014] L ’objectif principal de la business intelligence (BI) est de transformer les données en connaissances afin d’améliorer le processus décisionnel. Or, certains facteurs comme la croissance constante du volume de données et d’infor- mations ont conduit à la nécessité de mettre en œuvre de nouveaux moyens d’interac- tion. Les utilisateurs manipulent de plus en plus de données non structurées (docu- ments, courriels, réseaux sociaux, contacts) en plus des données structurées (CRM, bases de données, etc.). Ces utilisateurs souhaitent plus d’interactivité, de flexibi- lité et de dynamicité. De plus, les processus de décisions sont de plus en plus rapides et nécessitent d’être plus automatisés. Toutes ces évolutions ont induit un changement de paradigme important pour la BI, avec notamment la prise en compte des données non structurées extraites à l’aide des techno- logies sémantiques. Extraire de la valeur à partir de ces don- nées est devenu un enjeu crucial dans un marché mondial hyper compétitif. La BI est également impactée par les big data, avec le besoin croissant d’extraire de la valeur en temps réel à partir d’importants volumes de données. Les technologies sémantiques regroupent un ensemble de méthodes, pro- cessus et algorithmes destinés à extraire du sens à partir des données. Les technologies du web sémantique incluent un ensemble de standards comme le modèle RDF (Re- source Description Framework), un lan- gage de description d’ontologies (OWL) et un langage d’interrogation (SPARQL). Les technologies sémantiques et celles du web sémantique peuvent adresser la variété dans les big data. Évolution de la BI pour prendre en compte les « big data » La business intelligence est un ensemble d’ou- tils et de méthodes destinés à collecter, repré- senter et analyser les données pour assister le processus d’aide à la décision dans les entre- prises. Elle est définie comme la capacité pour une organisation à prendre toutes les données en entrée et à les convertir en connaissances, délivrant ainsi une information pertinente au moment opportun et via un canal de diffusion adapté. Durant ces vingt dernières années, de nombreux outils ont été conçus pour rendre disponibles de grands volumes de données d’entreprise à des utilisateurs non experts. La BI est une technologie mature, largement acceptée mais qui fait face à de nouveaux défis tels que l’intégration de données non structurées dans le processus d’analyse. Ces défis sont induits par les volumes de don- nées disponibles en constante augmentation, dont les systèmes doivent comprendre le sens et être capables d’y réagir en temps réel. Les technologies sémantiques et les mécanismes de raisonnement associés peuvent faciliter ce processus d’analyse. La BI traditionnelle peut donc être étendue aux technologies sémantiques pour intégrer le sens des données. La vision du projet CUBIST (www.cubist-project.eu) est d’étendre le pro- cessus classique d’ETL (extraction, transfor- mation et chargement) aux données structu- rées et non structurées et à leur stockage sous forme de triplets RDF. La figure 1a représente l’architecture clas- sique d’un outil de BI dans lequel les données sont structurées et chargées dans un entrepôt de données. Les utilisateurs peuvent interagir avec des requêtes restreintes produisant un tableau de bord statique. Destinée à analyser les données brutes pour en extraire du sens, la business intelligence est également impactée par les problématiques de big data. De la business intelligence aux big data : apport des technologies sémantiques
  • 5. www.centraliens.net 21 big data, so what ? La figure 1b correspond à la vision du projet CUBIST, dans laquelle les sources de don- nées sont hétérogènes (structurées ou non) et stockées sémantiquement dans un triple store (entreposage de triplets RDF). Les utilisateurs peuvent interagir avec des requêtes flexibles (requêtes SPARQL) et utiliser dynamique- ment des outils de visualisation analytique. La figure 1c représente une évolution plus récente pour prendre en compte les flux de données et la sémantique. Avec la croissance exponentielle des capteurs, logs, réseaux sociaux et objets connectés, de larges collec- tions de données sont générées en temps réel. Elles sont appelées des « flux de données » : il n’y a pas de limite quant au volume géné- ré ni de contrôle sur l’ordre d’arrivée. Les méthodes d’analyse doivent donc s’adapter au traitement des données à la volée et dans l’ordre d’arrivée. Ces flux de données sont analysés en temps réel, mais également agré- gés et interprétés de manière à générer des alertes pour réagir à des événements. L’ana- lyse sémantique de ces flux, et plus particuliè- rement leur croisement avec d’autres sources d’information, est une vraie valeur ajoutée dans le processus de décision. Ces flux, et plus particulièrement leur croi- sement avec d’autres sources d’information, est une vraie valeur ajoutée dans le processus de décision. Dans une plate-forme BI temps réel, de multiples sources de données hétérogènes peuvent être connectées, et ces données peuvent être statiques ou dynamiques. Les données statiques peuvent provenir de bases de données ou de données ouvertes (open data), et ne changent pas ou peu. Les don- nées dynamiques proviennent de capteurs et peuvent éventuellement être dans un format sémantique comme RDF. Ces données, sta- tiques et dynamiques, sont exploitées pour répondre à des processus spécifiques. Des requêtes continues et persistantes permettent de gérer ces flux en temps réel et aux utilisa- teurs de recevoir des nouveaux résultats dès qu’ils sont disponibles. Les technologies sémantiques De nombreuses techniques permettent d’ex- traire du sens ou de la connaissance à partir des données. Parmi celles-ci, nous pouvons citer le traitement automatique des langues, la fouille de données, l’apprentissage ainsi que l’ingénierie des ontologies. Ces tech- niques permettent d’extraire des modèles et des patrons, de structurer les données non structurées et ainsi de transformer n’im- porte quelle donnée en information ou en connaissance actionnable. Les technologies du web sémantique per- mettent de lier, publier et rechercher des données sur le web, mais aussi de structurer Figure 1. BI classique (a), BI sémantique (b) et BI en temps réel (c).
  • 6. Dossier 22 Centraliens no 634 [juin 2014] et d’enrichir sémantiquement des données au format RDF, et ceci à très grande échelle. Les approches guidées par la sémantique peuvent simplifier le processus d’intégra- tion de sources de données hétérogènes par le biais d’ontologies, fournir ainsi une couche unifiée de métadonnées, découvrir et enrichir l’information et, enfin, fournir un mécanisme unifié d’accès aux données. La sémantique peut donc adresser la variété dans les big data, en permettant la transfor- mation des données non structurées dans un format structuré en vue de leur analyse. De plus, la valeur des données augmente quand celles-ci peuvent être liées à d’autres données (linked data). Les technologies sémantiques sont donc une opportunité pour réduire le coût et la complexité de l’in- tégration de données. En conclusion, comme le montre la figure  2, les « linked data » évoluent vers des masses de plus en plus importantes qu’il est pos- sible de qualifier de « big linked data », mais les big data peuvent aussi tirer profit d’une évolution vers les « linked big data ». Figure 2. Big data et linked data. Marie-Aude Aufaure est professeur à l’École Centrale Paris (Laboratoire MAS). Elle dirige depuis 2008 la chaire business intelligence. Elle participe aux tra- vaux de l’Inria Paris-Rocquencourt, où elle a réalisé sa thèse. Elle est impliquée dans plusieurs projets européens et nationaux. Docteur en informatique, elle a été enseignante à l’université de Lyon et à Supélec. Ses domaines de compétence couvrent les bases de données, la fouille de données, l’ingénierie des connais- sances et, plus récemment, les big data. Printemps 2015 : executive certificate big data Un programme de formation continue préparé par Marie-Aude Aufaure À l’ère du numérique, le déluge de données crée de nouvelles opportunités économiques pour les entreprises. Toute la chaîne du décisionnel est impactée par les big data : collecte des données hétérogènes, analyse, visualisation, marketing, stratégie d’entreprise... De nouveaux métiers apparaissent, tels que « data scientist ». Centrale Paris Executive Education, la formation continue de l’École Centrale Paris, propose en 2015 un nouveau cursus de vingt jours. Cette formation est composée de six modules qui pourront être choisis à la carte. L’objectif est de dresser un état des lieux et un panorama des technologies. Les entreprises ont besoin de maîtriser leurs données et la valeur qu’elles peuvent générer. L’organisation centrée des données permet ainsi de placer les données au centre de la gestion opérationnelle et déci- sionnelle et de réduire le temps de prise de décision. La formation comprend : 3 modules non techniques : enjeux, perspectives et applications des big data, retours d’ex- périence, aspects juridiques et protection des données ; 3 modules techniques : acquisition et stockage des données, traitement distribué, analyse et visualisation de données. Les technologies de l’information et de la communication seront largement utilisées, en com- binant enseignement en ligne et présentiel. Des webinars seront également proposés. Des in- tervenants industriels, chercheurs, institutionnels (acteurs majeurs du domaine des big data) prendront part à cette formation. Il existe déjà depuis deux ans un « executive certificate » cloud computing. Cette formation de vingt-sept jours permet de former des professionnels maîtrisant la gouvernance et l’architecture de solutions cloud. www.ecp.fr/home/Formations/Formation_continue
  • 8. Dossier 24 Centraliens no 634 [juin 2014] Figure 1. Les trois propriétés du théorème CAP de Brewer. L a montée en puissance du big data actuelle est le fruit de trois tendances concomitantes : la disponibilité des données, la disponibilité des algo- rithmes de traitement, la disponibilité de la puissance machine permettant de stocker et de traiter ces données. D’un point de vue tech- nique, on parle de big data lorsque la quantité ou le débit des données pose un défi qui ne peut être relevé avec des technologies « stan- dard»(typiquementlesbasesdedonnéesrela- tionnelles). Pour avoir une idée des ordres de grandeur, on peut considérer qu’aujourd’hui une base de données relationnelle commence à montrer ses limites dans deux cas : pour des quantités de données stockées supérieures à 10 To, ou pour des débits de « transactions » (l’écriture ou la lectured’unedonnée)quidépassent1000tran- sactions par seconde. Ces limites sont évidem- ment indicatives et, par ailleurs, évoluent dans le temps selon la fameuse loi de Moore : « toute ressource informatique double de capacité à prix constant tous les 18 mois. » Deux points méritent cependant l’attention. D’une part, la quantité des données disponibles croissent bien plus rapidement que la loi de Moore1 . D’autre part, il existe une ressource informatique qui échappe à la loi de Moore : la vitesse d’écriture des données sur les supports physiques. Certes quand on passe du disque dur tournant (HDD) au disque dur fixe (SDD), le débit d’écriture progresse, mais bien moins rapidement que les autres ressources que sont le volume de stockage et la puissance de traite- ment. Les systèmes d’informations modernes doivent donc manipuler une quantité de don- nées qui croît beaucoup plus vite que la loi de Moore avec une « tuyauterie » qui croît beau- coup moins vite. Ce ciseau est structurant dans la mesure où il a déterminé les choix d’archi- tecture des solutions dites de big data. Rete- nons donc ce point : l’une des actions les plus coûteuses en temps dans les systèmes d’infor- mations modernes devient le déplacement de la donnée d’un espace de stockage à un autre. Distribuer la donnée sur un grand nombre de machines D’où viennent les limitations des bases de données relationnelles ? Essentiellement d’une conception monomachine. Cette affirmation est en réalité simplificatrice car les architec- tures de ces bases ont évolué, mais elles portent malgré tout cette caractéristique dans leur code génétique. Aussi, pour augmenter le débit de transactions et la capacité de stockage, une idée naturelle est apparue : distribuer la donnée sur un grand nombre de machines. On dispose ainsi non seulement d’un espace de stockage mais aussi d’un débit de transaction proportionnelsaunombredemachinespuisque, d’une certaine façon, on multiplie le nombre de tuyauxparlesquelstransiteladonnée. Ce principe est au cœur de la conception des solutions dites big data. La réalité est cependant moinssimplequ’iln’yparaît.Voicivenulemo- ment d’introduire le théorème de Brewer, du nom de la personne qui l’a conjecturé en 2000, la preuve ayant été publiée en 2002. Car oui, il s’agit d’un vrai théorème ! LethéorèmedeBrewer,aussiappeléthéorème CAP, du nom des sommets du triangle de la fi- gure 1, stipule que dans tout système distribué, on ne peut garantir simultanément que deux des trois propriétés suivantes ; consistency (cohérence) : la capacité d’un système à garantir que tous ceux qui accèdent àunedonnéeontlamêmevisiondeladonnée; availability (disponibilité) : le fait que la donnée est accessible à tout moment ; partition tolerance (tolérance à la parti- tion) : le fait que le système dans son ensemble fonctionnecorrectement,mêmeencasdeperte d’une machine, induisant donc une « sépara- tion » (partition) entre les machines. Les deux premières propriétés, assez classiques, sont celles que garantissent les bases de don- nées relationnelles : on veut pouvoir lire et écrire des données tout le temps (availability) engarantissantquetoutlemondevoielamême donnée (consistency). Assurer la tolérance à la partition Pendant longtemps, ces propriétés ont suffi à notre bonheur. Mais quand il a été nécessaire de répartir la donnée sur plu- sieurs machines pour augmenter le volume de stockage, la tolérance à la partition est devenue essentielle. En effet, le coût pour garantir que tous les nœuds d’un cluster fonctionnent correctement à tout moment devient très rapidement exorbitant. On a ainsi cherché des compromis sur les autres axes. Et en premier lieu, sur la cohé- rence. De prime abord, cela paraît très ris- qué : comment travailler de façon fiable avec des données qui ne le sont pas ? Pour pallier ce problème, la stratégie a consisté à dupli- Des architectures pour le big data La distribution des données sur un grand nombre de machines est au cœur des solutions big data. Or si le principe semble simple, il soulève des enjeux de conception qui ont suscité l’innovation.
  • 9. www.centraliens.net 25 big data, so what ? quer plusieurs versions d’une même don- née sur différentes machines. Il suffit alors de disposer de plusieurs copies absolument identiques d’une donnée pour être certain de cette donnée, même si une autre copie est corrompue ou dans un état instable. On parle ainsi de cohérence in fine, car le système ne garantit pas à tout moment la cohérence de la donnée, mais garantit qu’au bout d’un certain temps la donnée le sera. Ce mode de fonctionnement est au cœur de plusieurs familles de solutions big data, notamment Hadoop et Cassandra. Hadoop, plate-forme de plus en plus utili- sée dans le domaine du big data, présente une autre caractéristique intéressante. Elle propose une distribution des traitements au plus proche des données, selon un algo- rithme appelé MapReduce. Souvenez-vous : avec le big data, l’opération la plus longue est le déplacement de la donnée. Avec MapReduce, Hadoop s’efforce de déplacer l’exécution des traitements sur les machines qui détiennent les données nécessaires à ces traitements (figure 2). Chaque rectangle bleu correspond à une opé- ration qui peut être exécutée sur un serveur différent (typiquement, le serveur le moins chargé détenant une copie de la donnée qui intervient dans le traitement). On « mappe » des sous-tâches indépendantes sur des ser- veurs différents et quand chaque serveur a accompli sa sous-tâche, on recolle les mor- ceaux entre eux pour obtenir le résultat final. Des changements plus profonds qu’il n’y paraît Ce rapide survol des architectures des solu- tions big data donne un aperçu des nouveaux principes mis en œuvre pour traiter de très gros volumes de données. Ces changements, plus profonds qu’il n’y paraît, induisent quelques corollaires importants : quitte à devoir utiliser plusieurs ma- chines, autant utiliser des machines de grande série (commodity hardware) plutôt que de gros serveurs très coûteux. Il s’agit d’une tendance forte dans les infrastructures actuelles ; à partir du moment où on utilise un grand nombre de machines, l’automatisa- tion de la configuration des machines et du déploiement des traitements doit être très poussée. Ceci a suscité l’émergence d’outils et de pratiques qui, poussées à l’extrême, ont favorisé l’émergence du cloud ; tous les traitements ne sont pas distri- buables sur plusieurs machines. Il y a par conséquent une recherche particulièrement active pour identifier des algorithmes qui se prêtent à ce type de parallélisation. Les solutions big data s’inscrivent éga- lement dans un mouvement plus vaste, l’accessibilité de ces technologies (certains parlent de consumérisation). Hadoop, par exemple, est open source. La plupart des algorithmes d’apprentissage automatique sont également disponibles gratuitement. Il est possible de louer pour quelques cen- taines d’euros (et une durée limitée) plu- 1. Voir à ce sujet l'article de Stacey Higginbotham sur le site Gigaom.com, « Question everything : a new processor for big data ». sieurs machines sur un cloud tel que celui d’Amazon. Ainsi, aujourd’hui, les techno- logies big data sont accessibles à quasiment tout le monde alors qu’il y a peu, leurs équi- valents étaient réservés à des entreprises dis- posant de solides capacités d’investissement informatique. Le potentiel d’innovation lié à l’ouverture et à la puissance de ces outils est considérable. Ludovic Cinquin (95) Directeur général France d'Octo, cabinet de conseil en technologies et management de système d'information. Co-auteur de plusieurs ouvrages, dont Les Géants du web : culture pratique architecture. En parallèle à ses activités de manage- ment, il accompagne les grands comptes dans le cadre de missions de conseil stratégiques. Il intervient régulièrement en tant que speaker, notamment à la conférence USI (www.usievents.com). Figure 2. L’algorithme MapReduce permet de déplacer l’exécution des traitements sur les machines qui détiennent les données nécessaires à ces traitements.
  • 10. Dossier 26 Centraliens no 634 [juin 2014] S i l’on considère l’assurance auto, le développement des premières offres de tarification au kilomètre ne date que de quelques années, bénéficiant des progrès en matière de télématique per- mettant d’embarquer dans le véhicule des so- lutions de géolocalisation fiables, discrètes et économiques. Cette géolocalisation permet à l’assureur d’intégrer dans sa tarification le nombre de kilomètres réellement parcourus, qui constitue une dimension jusqu’à présent estimée et pourtant d’ordre un dans l’évalua- tion du risque, et d’offrir ainsi à l’assuré un tarif plus « juste ». Ce principe du « pay as you drive » n’est que la première étape d’une ouverture beaucoup plus large des possibi- lités de personnalisation des tarifs. On peut imaginer le « pay where you drive », le « pay how you drive »… Le fait de collecter cette masse d’informations sur la conduite permet de converger vers le « segment of one », c’est- à-dire la possibilité de proposer des prix per- sonnalisés par conducteur et donc plus bas pour les bons conducteurs. Le big data pourra également permettre d’enrichir le contenu des services qu’offre l’assureur à ses assurés : le flots des données capturées (par les boîtiers de télématique em- barqués ou par toute autre source de données publique ou privée) permet en effet d’infor- mer en temps réel le conducteur sur les zones à risque, les obstacles susceptibles de ralentir sa route, les conditions météo, ainsi que sur son propre comportement (freinage, accélé- ration…) dans une optique de prévention. Il permet en outre de géolocaliser le véhicule, notamment en cas de vol. Seulement 2 % des assureurs automobile américains offrent aujourd’hui des produits fondés sur le moni- toring du comportement des assurés. Cette proportion devrait atteindre 10 à 15 % en 2017. Sur le plan concurrentiel, l’usage de la télématique constitue une innovation de rupture susceptible de modifier le paysage concurrentiel, selon le rythme de déploie- ment par les acteurs installés ou de nouveaux entrants. En matière de santé, on peut de la même ma- nière imaginer la possibilité pour l’assureur de prendre en compte les habitudes de vie de ses assurés (le « pay how you live ») en s’ap- puyant sur un flot de données générées par les individus dans leur vie quotidienne. Ce champ d’application est certainement moins mûr que ne l’est la télématique automobile, mais la technologie évolue vite. Commencent ainsi à apparaître des outils connectés desti- nés à mieux gérer notre santé : bracelet lisant la qualité du sommeil, balances connectées au Smartphone, outils de monitoring des habitudes alimentaires… Intégration des données génétiques Le progrès ne s’arrêtera pas là : la génération dedatasantéreflétantleshabitudesdeviesera progressivement complétée par la génération de données génétiques. En 2013, le génome d’un million d’individus a été séquencé. La carte génétique d’un individu peut désormais être établie pour une somme de 100 euros, et la connaissance précise du patrimoine géné- tique va permettre d’entrer dans le domaine de la médecine prédictive. Cette révolution médicale risque de fortement déstabiliser les fondamentaux de l’assurance santé. La quantité de données est l’élément majeur de la fiabilité des statistiques, fondement de l’assurance. L’abondance et la qualité des données sont par conséquent des facteurs essentiels de différenciation compétitive pour les assureurs. Dans un monde « big data », la disponibilité de données nouvelles et la capacité de les exploiter va profondément modifier la relation qu’entretiennent les assureurs avec leurs clients, en transformant la manière d’entrer en contact avec eux et de les servir. À l’aube d’une révolution dans l’assurance
  • 11. www.centraliens.net 27 big data, so what ? Sur un plan fondamental, un risque n’est en effet assurable qu’à la condition d’être quantifiable et mutualisable, et que les distorsions occasionnées par l’asymétrie d’information (source d’antisélection) et l’aléa moral soient limitées. Dans le cas de l’assurance automobile, la connaissance du risque va évoluer et le tarif sera de plus en plus individualisé. Pour autant le risque ne disparaîtra pas, l’asymétrie d’informa- tion est même abaissée (l’assureur connaît mieux le comportement de son assuré) et il reste indispensable de s’assurer. Le mar- ché de l’assurance santé sera en revanche fortement impacté, avec différents états de marché possibles selon la manière dont les données personnelles de santé seront gérées. Un marché autorisant la tarification repo- sant sur des données génétiques ira dans le sens d’une hypersegmentation tarifaire, avec pour conséquence de rendre les po- lices d’assurance plus coûteuses pour un nombre croissant de « risques aggravés », tandis que la taille et la qualité des mutua- lités diminuera. Il est vraisemblable que les préoccupations éthiques fassent obstacle à ce type de marché, en limitant les possibi- lités d’utilisation des données personnelles dans le domaine de la santé. La consé- quence est dans ce cas l’apparition d’une asymétrie d’information amplifiée entre les assurés et les assureurs, avec le risque pour les assureurs de voir les bons risques leur échapper ou de devoir les tarifer à des prix très bas. Cette question sur l’équilibre du marché est le reflet d’un débat de société entre d’une part le besoin de personnalisation souhaité par chaque consommateur d’un service et d’autre part la volonté des pouvoirs publics de lutter contre les discriminations. À ce titre, il est utile de rappeler qu’un avis de la Cour de justice européenne de 2011 in- terdit la possibilité offerte aux assureurs au- tomobile d’utiliser le genre en tarification. Limitation des risques de fraude Actuellement, les méthodes traditionnelles de détection des fraudes à l’assurance ex- ploitent des rapports d’expertise, les histo- riques de fraudes antérieures… sans pour autant exploiter toutes les sources de don- nées comme l’activité des assurés sur les réseaux sociaux. Le big data va permettre de détecter et d’utiliser toutes sortes de « si- gnaux faibles » et pouvant être corrélés à des tentatives de fraude ou des fraudes avérées. De manière moins spécifique à l’assurance, mais tout aussi impactant pour les opéra- teurs en place, les technologies du big data vont offrir de nouvelles possibilités sur le plan commercial. Les capacités des outils de CRM vont être démultipliées, enrichies d’une infinité de données client mêlant sources internes et externes, de manière à cibler toujours plus précisément les besoins de chaque prospect ou client. La connais- sance des clients en temps quasi réel per- mettant de les gérer de manière totalement individualisée, et de leur proposer le service adapté au bon moment par le bon canal commercial. La révolution du big data est bien en route pour les assureurs installés, dans un envi- ronnement qui individualisera de plus en plus le risque et la relation client, avec in fine la possibilité de modifier profondément le paysage concurrentiel du secteur. Une autre famille d’acteurs cherchera inévitablement à tirer son épingle du jeu et à s’approprier une part significative de la valeur : il s’agit des fournisseurs de données, détenteurs du nouvel or noir, et maîtres de la segmenta- tion des risques. Christophe Mugnier (95) Directeur de la stra- tégie, du contrôle de gestion et des achats d’Axa France. Avant de rejoindre le groupe Axa il y a 18 ans, Christophe Mugnier a dirigé l’actuariat Vie individuelle et assuré la Direction technique des assurances collectives et l’activité épargne et retraite entreprises. Il est membre de l’Institut des actuaires. Le séquençage des génomes risque de déstabiliser les fondamentaux de l'assurance santé. La connaissance des clients en temps quasi réel permet de les gérer de manière totalement individualisée.
  • 12. Dossier 28 Centraliens no 634 [juin 2014] S ur Internet, le marché de la publi- cité se décompose en deux grandes catégories : Le search, c’est-à-dire l’achat de mots-clés auprès des moteurs de recherche. Si vous travaillez pour un site de vente en ligne de chaussures, vous pouvez par exemple choisir d’acheter le mot-clé « chaus- sure sport », ce qui vous permettra d’appa- raître dans la partie liens sponsorisés des résultats de votre moteur de recherche. Pour cela vous rémunérez ce dernier au CPC (cost per click), c’est-à-dire uniquement si l’utili- sateur clique sur votre lien. Plus votre CPC est élevé, plus vous aurez de chance d’arriver en tête des liens sponsorisés. Les utilisateurs de ce type de campagnes ont en général un objectif de performance. Autrement dit, ils calculent le retour sur investissement de leur campagne. Le display, l’affichage de bannières publici- taires chez tous les sites dits « éditeurs », qui souhaitent générer des revenus publicitaires. Si l’on reprend le même exemple, vous pou- vez décider de promouvoir votre site en affi- chant des bannières contenant votre logo et des photos de vos chaussures les plus popu- laires. Vous rémunérez alors la plupart du temps le site éditeur au CPM (cost per mille), c’est-à-dire pour chaque affichage, essen- tiellement parce que les performances de ce type de campagnes étaient beaucoup moins bonnes que celles du search. Leader mondial de la publicité display à la performance, Criteo diffuse des campagnes pour le compte de ses clients (la plupart des grands sites marchands). Son objectif : affi- cher « la bonne publicité, au bon utilisateur, au bon moment ». Les niveaux de perfor- mance sont mesurés aux taux de clics et aux taux de conversion. Ce dernier représente la proportion d’utilisateurs qui « conver- tissent », c’est-à-dire qui achètent un article sur le site après un clic. Criteo a choisi le même modèle de rému- nération que le search. L’entreprise achète au CPM sur des sites éditeur mais est rému- nérée au CPC. Les intérêts de Criteo et des clients se rejoignent puisque le client ne paie pas pour des affichages qui ne génèrent pas de revenu incrémental pour lui. L’achat de ces affichages se fait via des plates- formes de RTB (real time bidding), des places de marché où les acheteurs (sociétés de publicité en ligne) et les vendeurs (sites éditeurs qui souhaitent générer des revenus publicitaires) se retrouvent pour effectuer des transactions. Aspect essentiel des modèles économiques du net actuel, la publicité se décompose en deux grandes catégories : la mise en avant lors de la recherche (search) et l’affichage classique sous forme de bannières (display). Société de diffusion publicitaire en ligne, Criteo emploie des technologies big data pour affiner ses campagnes. La science de prédiction des clics Le CPC (cost per click) est calculé en fonction du nombre de fois où l’utilisateur a cliqué sur un lien proposé par le moteur de recherche. Search : achat de mots clés. Display : affichage de bannières publicitaires.
  • 13. www.centraliens.net 29 big data, so what ? Chacun des acheteurs potentiels connectés à ces plates-formes reçoit une requête pour chaque opportunité d’affichage envoyée par les sites éditeurs et doit répondre par une enchère. L’acheteur ayant émis l’enchère la plus élevée gagne le droit de faire l’affichage et doit générer une bannière de publicité. Tout ceci se fait en temps réel et en quelques millisecondes au moment du chargement de la page par l’utilisateur. Comment prévoir le taux de clics ? La capacité à prédire précisément le taux de clics a un impact direct sur la performance : idéalement Criteo devrait acheter tous les affichages qui conduisent à un clic et seu- lement ceux-là. Son modèle de prédiction du taux de clics prend en compte plusieurs dizaines de variables collectées de différentes sources : l’engagement de l’utilisateur, évalué grâce aux données collectées directement sur les sites marchands : a-t-il vu un grand nombre de pages produits ? Est-il un ache- teur régulier sur ce site ? etc. ; la qualité de l’affichage, estimée grâce aux données transmises par les plates-formes RTB au moment de la requête : l’affichage se trouve-t-il vers le haut ou le bas de la page ? Les utilisateurs passent-ils beau- coup de temps sur la page sur laquelle il apparaîtra ? etc. ; l’aspect de la bannière, choisi dynamique- ment de manière à maximiser la perfor- mance. La capacité de Criteo à recommander les bons produits est également primordiale. Pour cela la société utilise les événements collectés sur les sites de ses clients pour cal- culer des similarités entre produits : si les utilisateurs qui ont vu le produit A ont aussi souvent vu le produit B, on peut vraisembla- blement supposer qu’un utilisateur qui n’au- rait vu que le produit A serait aussi intéressé par le produit B. Des données très volumineuses La volumétrie des données utilisées pour générer ces modèles de prédiction et de re- commandation est considérable : 20 téraoc- tets par jour. Elle nécessite la mise en œuvre de technologies spécifiques comme Hadoop (voir l’article « Des architectures pour le big data » dans ce même dossier). Par ailleurs, ces modèles de prédictions sont appelés plus de 15 millions de fois par seconde et mis à jour quotidiennement. Ces modèles sont optimisés en permanence par une équipe R&D composée à la fois de développeurs et d’experts en machine learning. On retrouve donc bien les fameux « 3 V » qui définissent le big data selon les défini- tions d’Internet : • volume : 20 To/j ; • variété : les données utilisées proviennent à la fois des sites marchands, des sites des éditeurs sur lesquels les bannières sont affi- chées et des campagnes de publicité à pro- prement parler ; • vitesse : 15 millions d’appels aux modèles de prédiction par seconde. Au-delà des 3 V, un aspect remarquable chez Criteo est que le big data est au cœur de la valeur ajoutée offerte aux clients : il est la clé du succès actuel de la société. Bastien Albizzati (02) Titulaire d’un master de recherche opéra- tionnelle de l’universi- té de Berkeley, Bastien Albizzati est respon- sable des améliorations des modèles de prédiction et de recommandation au sein de l’équipe produit de Criteo. Autre expérience : la recherche opé- rationnelle chez Saint-Gobain Re- cherche, avec un projet de simulation des risques inondations pour la Caisse centrale de réassurance. Les événements collectés sur les sites de clients permettent de cibler une publicité personnalisée.
  • 14. Dossier 30 Centraliens no 634 [juin 2014] Vers la médecine 3.0 ? Le suivi de la grippe saisonnière dans 18 pays, dont les États-Unis. « Google Flu Trend » est apparu en 2008. . La quantité de données issue de la prise en charge d’individus dans un cadre sanitaire ne cesse d’augmenter, de même que le nombre de sources de données disponibles. Si l’on associe ce constat aux évolutions techno- logiques, chaque individu peut ainsi espérer bénéficier d’une médecine prédictive, préventive, personnalisée et participative. L a gestion de ces données massives est un important levier pour une meil- leure compréhension des maladies, du développement de médicaments et du traitement des patients. Les applica- tions du big data pourraient ainsi contri- buer à réduire de 300 milliards de dollars (environ 217 milliards d’euros) les coûts liés au système de santé américain grâce à la prévention et à la médecine personnalisée. Lasurveillanceépidémiologiquefigureparmi les pistes prometteuses, avec certains avan- tages par rapport aux systèmes traditionnels de veille en termes de réactivité. C’est ainsi que Google Flu Trends est apparu en 2008 pour le suivi de la grippe saisonnière à travers 18 pays, puis que les hashtags de Twitter ont été utilisés par la Food Standards Agency bri- tannique pour surveiller les pics épidémiques de gastro-entérite durant l’hiver 2012-2013. En France, l’entreprise Celtipharm publie depuis peu sur openhealth.fr des cartes épi- démiques réactualisées chaque jour, à partir des achats réalisés dans un réseau de plus de 4 000 pharmacies. Un peu de prudence est néanmoins de mise dans l’exploitation et l’analyse qui sont faites de certaines données. Selon une étude pu- bliée dans la revue Science et relayée par The Register, les prédictions de pics d’épidémie réalisées par Google seraient erronées pour 100 des 108 semaines écoulées depuis 2011. La pharmacovigilance représente un autre enjeu critique en termes de veille sanitaire, particulièrement mis en évidence lors de l’affaire du Mediator. Ici encore, l’accès à certaines sources de données et leur exploi- tation pourraient apporter une surveillance plus réactive en générant des alertes et en permettant des prises de décisions adaptées au contexte de la part des pouvoirs publics. Big data n’est pas synonyme d’open data La veille sanitaire pourrait donc s’inscrire dans une politique de plus grande transpa- rence publique, mais toutes les données de santé ne sont pas accessibles, et la rançon de leur confidentialité se matérialise très logi- quement par des difficultés à pouvoir les ex- ploiter. En France, après la circulation d’une pétition en 2013 pour « libérer les données de santé » et la remise au ministère d’un rapport de l’Inspection générale des affaires sociales, une démarche est désormais enga- gée afin d’intégrer l’ouverture des données publiques de santé dans la future loi de san- té, de façon très encadrée. Une commission associant les différents acteurs concernés remettra ses conclusions en avril 2014 sous la forme d’un rapport et d’une doctrine qui guideront les décisions publiques. Les données du Système national d’infor- mation inter-régimes de l’assurance-mala- die (Sniiram) sont bien entendu concernées, puisqu’il s’agirait du plus vaste entrepôt de données de santé au monde, consolidant chaque année 500 millions d’actes médi- caux et 11 millions de séjours hospitaliers. L’accès aux données devra ainsi garantir le respect de la vie privée et de l’anonymat, et leur « ouverture » sera limitée en raison des risques de ré-identification indirecte. Un dispositif juridique, technique et organisa- tionnel en sécurisera donc l’accès et l’utili- sation, à travers la mise en place d’une gou- vernance adaptée. Une médecine bijective et réflexive à la fois Le « crowd sourcing médical » n’est pas seulement exploitable à travers les com- mentaires échangés entre les internautes sur les réseaux sociaux, sans qu’ils soient conscients que ces données vont servir à dépister une épidémie. Les individus pour- raient souhaiter, un peu à la manière dont des patients sont enrôlés dans des essais cli- niques, devenir des contributeurs de masse de données anonymes permettant de déve- lopper un véritable big data de santé inter- national au service de la recherche, dans le cadre d’une médecine plus participative. En marge des médias sociaux, le grand public commence également à partager des données personnelles de santé ou de « bien-être » à travers des dispositifs tels que des montres intelligentes et des bracelets connectés qui surveillent le sommeil, l’exercice physique et la consommation de calories, la fréquence
  • 15. www.centraliens.net 31 big data, so what ? cardiaque, etc. Parallèlement à l’arrivée de smartphones disposant de fonctions permet- tant à chacun de surveiller son état de santé par l’intermédiaire de capteurs, des construc- teurs tels Apple et Samsung travaillent sur des dispositifs et des technologies leur per- mettant de pénétrer le marché du « quanti- fied self » et de la santé connectée. L’alimentation du big data à travers l’Internet des objets passera également par le domicile, la domotique et des solutions permettant d’assurer le maintien à domicile de personnes en situation de dépendance, âgées et/ou at- teintes de pathologies chroniques. Différents services peuvent ainsi se décliner à travers un « habitat intelligent et connecté », de la télé- consultation à la télésurveillance, en passant par des systèmes assurant la coordination de soins et d’aides à domicile, la livraison de repas, des services de coaching nutritionnel ou thérapeutique. Les supermarchés peuvent désormais aussi connaître les habitudes ali- mentaires des consommateurs, et même un réfrigérateur peut être connecté à Internet afin de suivre ce qui est consommé et ce qui doit être réapprovisionné. De la santé publique à la médecine individualisée ou personnalisée Dans un autre domaine, l’étude du génome et des relations entre les maladies et leurs facteurs de risque génétiques et environ- nementaux permet d’explorer le champ de la médecine personnalisée en optimisant le traitement d’un individu donné. Cepen- dant, les technologies de l’information ne peuvent pas encore suivre le rythme de l’explosion des données, en particulier pour assurer un « suivi génétique global » des cancers qui nécessiterait le recoupement des caractéristiques de millions de tumeurs. Les jeux de données recueillis par les clini- ciens sont tout simplement bien trop volu- mineux pour être partagés ou échangés sur les réseaux en place. À titre d’illustration aux États-Unis, en estimant un volume de 100 Go par tumeur appliqué à 16 millions de personnes atteintes d’un cancer, on tota- liserait des centaines de pétaoctets (un mil- lion de gigaoctets) de données par an. Le sujet est d’actualité, l’Opecst (Office par- lementaire d’évaluation des choix scienti- fiques et technologiques) ayant remis en janvier dernier à la Commission des affaires sociales de l’Assemblée nationale un rapport sur les enjeux scientifiques, technologiques, éthiques et juridiques de la médecine per- sonnalisée. De la causalité à la corrélation La sécurité représente un enjeu majeur en raison de la capacité à identifier un individu à travers des caractéristiques pourtant décla- rées anonymisées ou leur recoupement avec d’autres bases de données publiques. Dans l’État américain de l’Illinois, des données anonymisées de sorties d’hospitalisation, de recensement et de listes électorales ont ainsi pu être recoupées avec des données géné- tiques également anonymisées, permettant de ré-identifier 50 % des patients atteints de la maladie de Huntington. Certains scien- tifiques vont même jusqu’à affirmer que « l’anonymat est devenu algorithmiquement impossible ». Il existe donc un véritable cadre éthique et sécuritaire à définir au niveau interna- tional afin de garantir le bon usage de ces En France, une démarche est engagée pour intégrer l’ouverture des données publiques de santé de façon très encadrée dans la future loi de santé. Docteur Laurent Guigue Médecin de santé pu- blique, spécialiste de l’informatique médi- cale. Il est directeur médical au sein de la société Santéos, filiale de Worldline. Son expertise concerne notamment le partage de données de santé à caractère personnel. Docteur Christophe Richard Il dirige le groupe de travail « open data/ big data en santé » du Syntec numérique. Il est également secré- taire général du Collège national des médecins des hébergeurs (CNMH). données sans risque pour la vie privée, et il convient de se prémunir contre toute dicta- ture des données qui nous conduirait à lais- ser prendre des décisions par des machines, à l’image des dérives du trading haute fré- quence dans le milieu boursier. Les données de santé n’ont pas qu’une valeur économique, elles sont une opportunité et un enjeu majeur en santé et constituent une ressource pour les outils de big data. Chacun devra s’attacher à construire une économie du système qui ne sera pas fondée sur la vente des données, mais sur les enseignements qui découleront des traitements effectués.
  • 16. Dossier 32 Centraliens no 634 [juin 2014] M étadonnées, littéralement « don- nées à propos des données  ». Bien que le terme ne soit pas nouveau – il est utilisé dans les systèmes de classification des bibliothèques – l’avènement du numérique lui donne un nouveau sens et surtout une nouvelle por- tée. Les métadonnées modernes sont les traces numériques que nous laissons tous derrière nous, en permanence. Lorsque nous téléphonons, lorsque nous naviguons sur Internet, lorsque nous payons avec notre carte bancaire. Les métadonnées de nos télé- phones portables ressemblent à une facture très détaillée : appels ou textos reçus, dates et heures, antennes GSM auxquelles nous nous sommes connectés. Ces métadonnées comportementales sont, avec les données textuelles, un des deux grands types de « big data  », ces très grands ensembles de don- nées dont la collecte et l’utilisation à grande échelle sont récemment devenues non seule- ment possibles mais (très) bon marché. Est-ce parce que le grand public a appris leur existence par les agences de renseigne- ment aux États-Unis ou en France ? Parce qu’elles sont collectées de manière passive ? Ou encore parce qu'elles sont plus difficiles à appréhender que leurs équivalents textuels ? Il est en tout cas certain que ces métadonnées inquiètent. Du positif… Mais d’abord, revenons sur le côté positif de ces métadonnées. Elles facilitent notre vie quotidienne  : quel est le meilleur chemin pour éviter les bouchons  ? Quel sera mon film préféré ? Quelle page web répond exac- tement à ma question ? Les métadonnées sont également cruciales pour l’ingénieur : gérer et améliorer le réseau téléphonique, lutter contre la fraude ban- caire, optimiser un réseau de distribution. Enfin, pour la recherche scientifique, ces métadonnées sont une révolution. Un récent article dans la revue Science compare leur impact scientifique à l’invention du micros- cope. En épidémiologie, les données de mobilité sont utilisées pour étudier la pro- pagation d’un virus comme la malaria. En économie du développement, les chercheurs travaillent à l’utilisation des données télépho- niques pour comprendre et mieux combattre la pauvreté. Autre exemple : les métadonnées font avancer la recherche en management et en sciences sociales. Comment la produc- tivité d’un employé est-elle influencée par ses liens sociaux les plus forts, quel décou- page rationnel pour un territoire comme la France, comment la diversité de notre réseau social est-elle liée à notre pouvoir d’achat, ou encore comment nos connaissances et amis influent-ils sur nos opinions ? Que du positif ? Même si nous sommes bien loin des références orwelliennes ou kaf- kaïennes, l’utilisation commerciale et gou- vernementale à grande échelle de métadon- nées comportementales soulève trois grandes questions. Des interrogations/questions Tout d’abord, celle de l’anonymat  : nos traces numériques contiennent beaucoup d’informations et sont fondamentalement personnelles et privées. C’est pourquoi les chercheurs comme les entreprises n’utilisent que des bases de données anonymisées, Le 6 juin 2013, un nouveau mot est (ré)apparu dans la langue française : métadonnées ! Pas de nouvelle édition du Petit Robert à l’horizon, mais bien les révélations inédites d’un ancien consultant de la NSA, l’agence américaine de renseignement. En quelques jours, le mot a fait la une de tous les grands quotidiens. Métadonnées, « pour ou contre » ? La collecte et l’utilisation à grande échelle des métadonnées sont devenues non seulement possibles mais très bon marché.
  • 17. www.centraliens.net 33 big data, so what ? desquelles on a retiré les identifiants d’un utilisateur  : son nom, son numéro de télé- phone, son adresse… Cependant, dans le cas des métadonnées, cela n’est absolument pas suffisant. Un récent article en collabora- tion avec l’université de Louvain montre par exemple que notre manière de nous déplacer est très régulière, unique, et comparable à des empreintes digitales. Il suffit en effet de connaître quatre points, quatre endroits et temps approximatifs, où un utilisateur était pour le retrouver dans une base de données pourtant apparemment anonyme de 1,5 mil- lion de personnes. Les métadonnées sont riches, leurs usages multiples et il est très peu probable qu’il soit jamais possible de les ano- nymiser. Il est donc temps d’oublier, légale- ment et techniquement, la notion d’anony- mat au profit d’une quantification du risque de ré-identification. Deuxième interrogation  : les révélations indirectes sur l’individu. Les métadonnées téléphoniques contiennent beaucoup plus d’informations qu’il n’y paraît. Une étude en collaboration avec des chercheurs de l’ENS de Lyon a montré qu’il est possible de prédire la personnalité d’une personne en observant la manière dont celle-ci utilise son téléphone. En calculant un certain nombre d’indicateurs à partir des métadonnées téléphoniques, la durée moyenne qu’un utilisateur prend pour répondre à un texto, la distance moyenne qu’il parcourt par jour ou encore la diversité de ses contacts, des algorithmes de machine learning peuvent prédire le score d’un utilisa- teur dans chacun des cinq grands facteurs de personnalité : l’extraversion, le neuroticisme, l’ouverture à l’expérience, la conscienciosité ou encore l’agréabilité. La vraie question à se poser pour les métadonnées n’est donc pas ce qu’elles révèlent directement mais bien ce qu’un algorithme pourrait, raisonnablement, révéler sur une personne en les utilisant. Enfin, troisième question, la propriété et l’accès aux métadonnées. Bien qu’utilisées à bon escient, leur collecte et leur utilisation sont malheureusement souvent faites de manière peu transparente. Ce manque de transparence nourrit les fantasmes. L’uti- lisateur, celui qui génère les données, doit au minimum y avoir accès. Seul l’accès aux métadonnées brutes permet de comprendre ce qu’elles contiennent et l’usage qui peut en être fait, directement ou indirectement. De même seul cet accès aux données brutes per- met à l’utilisateur de les utiliser pleinement. Il ne s’agit donc pas d’être « pour ou contre » les métadonnées mais de les expliquer, de se poser les bonnes questions et de choisir les réponses que nous voulons y apporter, en tant qu’ingénieurs ou que simples citoyens. Yves-Alexandre de Montjoye (08) @yvesalexandre est chercheur en mathé- matiques appliquées au MIT Media Lab. Il développe des mé- thodes stochastiques pour l’analyse de métadonnées comportementales  : données de mobilité, transactions financières, communications dans les réseaux sociaux. Ses recherches ont reçu une couverture médiatique dans BBC News, CNN, The New York Times, Wall Street Journal, Foreign Policy, Le Monde, Der Spiegel, dans les rap- ports du World Economic Forum et des Nations unies. Avant de rejoindre le MIT, Yves- Alexandre était chercheur au Santa Fe Institute (Nouveau-Mexique). Il est titulaire d’un master en mathéma- tiques appliquées de l’université de Lou- vain et d’un master en ingénierie mathé- matique de la KU Leuven (Belgique). Notre manière de nous déplacer est régulière, unique et comparable à des empreintes digitales. Il est possible de prédire la personnalité d’une personne en observant la manière dont celle-ci utilise son téléphone.