[livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata (Avril 2015)

Date doc
© 2015 CXP Page 1/30 Livre Blanc – Avril 2015
LIVRE BLANC
Les Big Data pour les services publics :
enjeux, technologies, usages
En partenariat avec

Date doc
Les Big Data pour les services publics
LES AUTEURS
Emmanuel Lartigue
Analyste Senior / Consultant BI, le CXP
Mathieu Poujol
Principal Consultant, Cyber Security, Infrastructures and Middleware, CXP-PAC
Nikolai Janoschek
Research Analyst, CXP-BARC

Les Big Data dans les services publics
SOMMAIRE
1. Les ambitions du Secteur Public
2. Les Big Data : apports et enjeux
3. La maîtrise des dispositions juridiques
4. Les technologies liées aux Big Data
5. Applications et usages
INTRODUCTION
Les systèmes d'information des services publics brassent un nombre important de flux de données concernant
tant le fonctionnement de la ville et que les déclarations des citoyens. La croissance exponentielle du volume de
données disponible et les corrélations entre ces données présente un véritable enjeu pour le secteur public.
Les initiatives autour du Big Data y sont nombreuses et les attentes importantes : un meilleur service rendu aux
usagers par une optimisation opérationnelle ou par une offre de services plus large, une réorganisation de la
prestation de service grâce aux nouvelles technologies, un meilleur partage des connaissances, ou encore un
renforcement du lien social par une meilleure prise en compte des applications digitales : web, blogs, réseaux
sociaux, etc. Tout cela avec un enjeu sécuritaire fort : si les Français sont inquiets sur l’exploitation de leurs
données personnelles, ils accordent leur confiance à l’Etat pour les héberger et en garantir la sécurité d’accès.
De nombreuses initiatives ont été engagées et plusieurs projets lancés par les organismes intéressés. Le secteur
privé témoigne régulièrement de cas d’usages métiers liés aux Big Data, des applications qui pourraient être
reprises dans le secteur public. Nous présenterons dans ce document deux projets Big Data dans le secteur
public : un lié à la recherche, un autre lié aux bibliothèques, ainsi qu’un éclairage sur la coordination nationale
des initiatives sur les données.
Toutefois, les responsables projets butent sur l’absence de ligne directrice et sur le choix des socles
technologiques. Trop d’incertitudes demeurent encore quant aux autres choix techniques à mettre en œuvre et
sur l’effort de conduite du changement à mener. La prise en compte de ces nouveaux canaux de communication
exigent une nouvelle architecture technique que nous allons décrire dans les derniers chapitres.

1 - LES ATTENTES DU SECTEUR PUBLIC
Le CXP a interrogé les acteurs du Secteur Public dans le but de mieux comprendre les nouvelles attentes et les
futurs défis à relever dans la prise en compte des Big Data et d’améliorer la performance des services publics.
UN MEILLEUR SERVICE FOURNI AUX USAGERS
Le service public, dans le cadre de ses missions et pour rendre un meilleur service aux usagers,
doit veiller au bon usage de la réutilisation des données.
La gouvernance de ces données, et les questions liées à l’intégrité, à la neutralité et à la qualité
des données, sont un des enjeux de la modernité et de la transparence du service public.
Les projets Big Data ont déjà montré leur efficacité dans la relation avec les citoyens en proposant
à la population de coparticiper à la gestion de la cité, tout en recherchant de nouvelles économies
et une meilleure efficacité. Les données des villes numériques, une fois analysées, permettront
d’imaginer des services novateurs, qui influeront sur l’organisation des villes et le quotidien des
individus.
DES SOLUTIONS INTÉGRÉES POUR TOUT TYPE DE DONNEES
Dans un contexte économique difficile où les services publics sont confrontés aux défis de la
rationalisation des coûts et de la maîtrise des dépenses, les solutions informatiques recherchées
doivent être optimisées et si possible centralisées.
Seules les données structurées sont bien maitrisées aujourd’hui (soit 20% des données). Les
nouveaux systèmes d’informations doivent prendre en compte des formats de données très variés,
documents, vidéos, images, et proposer si possible une gestion transparente de ces nouveaux
formats.
Afin de pouvoir capitaliser sur les compétences déjà maîtrisées, les nouveaux outils doivent si
possible être graphiques, ou générer automatiquement les scripts d’exécution en SQL, C ou encore
‘R’.
UN MEILLEUR PARTAGE DE L’INFORMATION
Les données sont aujourd’hui hébergées dans des silos de données. Pour tirer pleinement partie
des Big Data, il sera nécessaire de bâtir des ensembles transverses et cohérents de données.
Des mécanismes d’habilitation et de partage des informations devront être mis en place afin de
permettre au plus grand nombre d’accéder à l’information sans dupliquer cette information.
Ces systèmes devront se conformer au cadre fixé par La loi Informatique et Libertés, dans le cas
où de nombreuses informations sont susceptibles de porter atteinte aux droits et libertés des
personnes, ou à leur vie privée.

Figure 1 - Quels problèmes souhaitez-vous adresser avec les technologies Big Data ? (n=431, choix multiple)
Source le CXP 2015, n=431
2 – LES BIG DATA : APPORTS ET ENJEUX POUR LE SECTEUR PUBLIC
GENESE
Face à l’accroissement exponentiel des volumes de données liées à de nouveaux usages (réseaux sociaux,
mobiles, forums, Web, blogs, e-mails...), les architectures et outils classiques pour les traiter ne sont plus
adaptés. Cet « infodéluge » a ainsi fait naître de nouvelles approches décisionnelles destinées à traiter, analyser
et valoriser ces énormes volumes de données de toutes natures, semi-structurées ou non structurées, que l'on
peut trouver aujourd'hui dans bon nombre d'organisations, quelle que soit leur taille : c'est cet ensemble de
nouvelles technologies que l'on appelle les Big Data.
Les premiers utilisateurs à s'intéresser au phénomène ont été les entreprises privées orientées consommateur
final, telles que la grande distribution, les télécommunications, le tourisme, le loisir, les médias ou encore le
secteur financier. Ces entreprises ont vu dans les Big Data une opportunité économique et un axe de
développement pour l’entreprise (conquête de marchés, captation de nouveaux client…). Des Big Data, elles
attendent la possibilité de mieux connaitre leurs clients, de mieux cibler leurs attentes et, de plus en plus,
d’anticiper leurs demandes. Le graphique ci-dessous reprend les principales motivations qui ont poussé les
entreprises à s’équiper de solutions Big Data.
Si ces technologies ont eu un véritable impact sur le marketing et la relation client, qui représentent les
principaux revenus des grands acteurs du Web, elles se déclinent maintenant dans d'autres secteurs sur lesquels
elles ont désormais un réel impact sur la productivité et l’efficacité : les sciences de la vie, les transports,
l’énergie, les services financiers et la sécurité.

Figure 3 – Quels vont être vos prochains investissements pour les Big Data ?
Source: CXP Big Data Analytics Survey 2015, n = 222
Les objets vont devenir de plus en plus communicants et à terme les cartes SIM machines to machines, seront
plus nombreuses que les cartes SIM des milliards d’individus détenteurs de téléphones mobiles. L’exploitation
des données remontées par ces machines (sensors, web logs, smartmeters …) pour mieux comprendre leurs
conditions d’utilisation, avoir des métriques fiables, faire de la maintenance prédictive pour baisser les coûts de
maintenance, améliorer le maintien en conditions opérationnelles et donc la satisfaction des clients, sont autant
de domaines qui intéressent de près les services publics. Par exemple, dans le domaine des transports, Maersk a
placé des capteurs sur ses conteneurs, permettant de connaitre en temps réel leur emplacement et de surveiller
leur température lorsqu’ils contiennent des denrées périssables. Ces solutions intéressent aussi les acteurs les
acteurs du monde des transports comme la SNCF ou la RATP.
Ces nouvelles technologies Big Data sont disruptives pour le système d'information : les précédents systèmes
n’avaient pas été prévus pour prendre en compte d’aussi grands volumes de données dans une aussi grande
variété : désormais les vidéos, les documents scannés, les flux temps réel peuvent être stockés et analysés. Afin
de valider l’architecture ainsi que le bien-fondé de l’usage de ces technologies, les entreprises se sont lancées
dans une phase d’expérimentation (Proof Of Concept), puis elles ont franchi le pas pour s'équiper de solutions Big
Data.

Les projets Big Data ont un coût technologique, mais aussi organisationnel et stratégique. Les nouvelles
possibilités d’analyse et de prédiction peuvent avoir une incidence sur la manière dont l’entreprise sert ses clients
ou réalise son activité.
L’analyse des grands volumes de données exige par ailleurs de nouvelles compétences à la fois en algorithmique
et en statistique. Ces nouveaux profils, les Data Scientists, sont encore rares sur le marché, ce qui complique la
mise en place de projets novateurs sur les Big Data.
DE LA COLLECTE A LA RESTITUTION
Un projet Big Data commence par une collecte des données, de formats et d'origines très variés :
données issues de capteurs (compteurs de visites dans un magasin, machine-outil sous surveillance
constante, sondes réseaux placés sur un réseau informatique...), données issues de vidéos numériques de
surveillance ou encore de documents scannés qu’il faudra interpréter, logs de sites web, contenu des
mails reçus d’un client...
Après la collecte vient l’analyse des données. Cette opération nécessite de préparer la donnée
nécessaire, entre autres extraire les informations importantes des données les moins structurées. Pour
des documents scannés, le video-codage ou OCR (Optical Character Recognition), couplé à des outils de
sémantiques, permet par exemple de catégoriser les informations des documents. Pour l’analyse des voix
enregistrées, des outils de type Speach to Text existent sur le marché. Pour l’analyse des fichiers binaires,
des parseurs (ou analyseurs syntaxiques) se chargent de décomposer les enregistrements en entités
manipulables.
Les données sont ensuite stockées, organisées voire indexées pour pouvoir être exploitées. Elles doivent
généralement aussi être sécurisées : des droits et des habilitations sont posés sur ces données afin d’en
autoriser l’accès uniquement aux personnes habilitées.
Enfin, des outils de Data Visualisation permettent de restituer les résultats de l’analyse dans un format
interprétable et compréhensible par tous et d’explorer la donnée, afin de mieux comprendre les
comportements.
Figure 2 - Votre entreprise a-t-elle initié une démarche Big Data ? Si oui, où en êtes-vous ?
Source: CXP Big Data Analytics Survey 2015, n = 526

Figure 4 - Les différentes étapes du traitement des Big Data
Source le CXP 2015
Extraire
Stocker
Restituer
Analyser
Partager
Odata, ETL, WebCrawler
Data Cleaning, Data Quality
Reporting Requêtes Ad-Hoc,
Tableaux de bord,
Data Visualization
Portails, Search,
Collaboration
Self-Service
Datamining, ‘R’, Analytics, Data
Discovery, Machine Learning
Hadoop, SGBDR, Cloud
Suite
intégrée

ENJEUX POUR LE SECTEUR PUBLIC
La collecte des données provient régulièrement des statistiques nationales, celles de l’Insee, Institut
National de la Statistique et des Études Économiques, par exemple. Ces données sont issues de
recensements, d’enquêtes et de toutes les sources administratives numériques disponibles.
L’analyse des données concerne la quasi-totalité des ministères, de nombreux organismes publics, voire
des institutions de droit privé chargées de missions de service public. Les statisticiens du secteur public
sont surtout présents dans les services statistiques ministériels : celui de l’Agriculture, le plus important,
de l’Éducation, du Développement Durable, des Douanes, de la Justice, du « Travail, emploi et formation
professionnelle » et de la « Santé et solidarités ». La Dares (travail et emploi) et la Drees (santé et
protection sociale) sont des organismes qui produisent régulièrement des statistiques sur les
établissements publics et leur personnel.
La gouvernance des données est certainement l’un des sujets les plus difficiles à traiter pour le secteur
public. La pluralité des missions et la diversité des données rendent très compliquées l’harmonisation et
la compatibilité des données. Les données peuvent en effet provenir à la fois de l’Administration
Centrale, des établissements publics, des collectivités territoriales, des Conseils Généraux et des services
déconcentrés. L’homogénéisation des données et le partage de référentiels qui faciliteraient la
consolidation des données ne sont pas toujours systématisés.
La mutualisation des données doit être encouragée pour réduire le nombre de silos de données afin de
réduire les coûts et favoriser les analyses croisées. La mise en place de référentiels communs à
différentes administrations, avec des classes de services en fonction de chaque contributeur et de chaque
partie prenante, permettrait de fiabiliser les données et de générer de la valeur à partir de ces données.
Les systèmes décisionnels complètent sans remplacer les systèmes transactionnels dont les méthodes de
fonctionnement au quotidien ne changent pas. Par contre ils peuvent en améliorer les processus, en leur
faisant bénéficier d’une information fiable car unique (stockée une seule fois au bon endroit) mais aussi
potentiellement enrichie par d’autres sources de données et par le fruit de potentielles analyses croisées
et avancées.
Enfin, une autre difficulté est le partage des informations publiques. L’échange peut être réalisé soit
entre les administrations, soit entre l’administration et le secteur privé et enfin entre l’administration et
les usagers. Il peut être intéressant de valoriser auprès de tiers les traitements Big Data qui produisent
des analyses de tendances, des analyses d’écarts ou encore de la prospective.
Quant à la restitution de ces données aux usagers, l’ouverture des données publiques (Open Data),
entreprise depuis maintenant quelques années, a déjà apporté de nouveaux services aux citoyens : la
diffusion des horaires de trains, la liste des vélos ou des voitures disponibles en partage, la liste des codes
postaux si utiles pour valider la saisie des adresses et sécuriser les livraisons et des éléments plus
spécifiques comme par exemple la liste des médicaments commercialisés en France ou encore la liste
des établissements d'enseignement supérieur.
Autre point crucial pour le secteur public : la sécurisation des données et la maîtrise des risques liés au
respect de la vie privée (données à caractère privé ou administratif) et à la protection des libertés
individuelles. L’utilisation de ces données doit être scrupuleusement contrôlée car elle doit respecter les
contraintes juridiques liées à l’utilisation ou à la divulgation de données personnelles.
Enfin, il existe une contrainte particulière associée au traitement des Big Data dans le secteur public : la
maitrise des dispositions juridiques liées aux données. Un point essentiel qui mérite d'être développé.

3 – LA MAITRISE DES DISPOSITIONS JURIDIQUES
Les technologies Big Data sont nées avec le Web et avec la mondialisation des échanges informatiques. Aussi, le
défi juridique soulevé par les Big data est à la fois de portée nationale et internationale.
Les usagers français connaissent déjà l’existence des outils de reconnaissance faciale ou de lecture de plaques
minéralogiques (comme cela se pratique à l’entrée de parkings). De plus en plus sollicités par des actions de
marketing direct, ils réclament de faire valoir leur droit à l’oubli. Aussi attendent-ils du Service Public une
exemplarité sur la protection de leurs données personnelles : ils souhaitent que leur droit soit préservé en
France comme à l’étranger. Ce chapitre présente les principales législations en vigueur aujourd’hui ainsi que les
dispositions prises dans les pays Européens.
DES ORGANISMES ET DES REGLEMENTS FACE A LA MONDIALISATION
La France n’est pas le seul pays à subir la loi des grands acteurs du Web qui constituent des bases de plus en
plus riches sur les internautes du monde entier. En avril 2015, on estime qu’un internaute est déjà caractérisé
en moyenne par 3 000 attributs (pays, adresse IP, type de navigateur utilisé, adresse e-mail, nom, prénom, etc.).
Afin que les États n’encouragent pas cette inflation, une coordination européenne a été mise en place, dont le
but est de juguler la diffusion de données confidentielles. Régulièrement, des commissions et des organismes
tentent de s’organiser et de légiférer pour préserver la confidentialité des citoyens. Les différents pays
européens ont demandé aux entreprises du privé comme et au secteur public de nommer des responsables à la
protection des données. La carte ci-dessous précise la date à laquelle cette décision a été prise, l’intitulé de la
fonction et le caractère obligatoire ou facultatif de la mesure.
Les Etats ont intérêt à protéger leurs données. De même que les banques, au travers de mesures internationales
comme Bâle 3 ou l'obligation de stress tests, doivent justifier leur robustesse, les Etats devront prouver leur
capacité à protéger leurs données.
Figure 7 – Les pays Européens qui ont légiféré la fonction de Délégué à la Protection des Données
Source = La CNIL, mars 2015

LA REGLEMENTATION FRANÇAISE : LE LABEL CNIL
Un projet de loi numérique français est attendu pour 2015. Afin de sensibiliser les organismes
publics et privés et de leur permettre de se préparer à leurs nouvelles obligations, la CNIL a créé
un nouveau label portant sur la gouvernance informatique et libertés par une délibération.
Publié le 15 janvier 2015 au Journal Officiel, ce label de la CNIL permet aux entreprises de se
distinguer par la qualité de leurs services. C'est un indicateur de confiance pour les utilisateurs
de produits ou de services, car il leur offre la possibilité d’identifier et de privilégier ceux qui
garantissent un haut niveau de protection de leurs données personnelles. C’est enfin la
reconnaissance par la CNIL qu’un produit ou une procédure est conforme aux dispositions de la
loi "Informatique & libertés".
Chaque label est délivré pour une durée de trois ans et se décline selon quatre référentiels :
"Audit de traitements" : l’objectif de ce label est de faire contrôler et de valider les projets en cours ou
les solutions mises en œuvre pour anticiper tout risque de plainte. Il peut s'agir de traitements
informatiques mais aussi de systèmes de vidéosurveillance et de vidéo protection devant respecter le
cadre juridique encadrant leur usage ;
"Coffre-fort numérique" : ce label valide la bonne mise en œuvre de l’accès aux données, de la
conservation des données, de l’information des personnes, de la gestion des risques et des mécanismes
cryptographiques ;
"Gouvernance Informatique et Libertés" : ce label validation des exigences relatives à l'organisation liée
à la protection des données, à la méthode de vérification de la conformité des traitements et à la
gestion des réclamations et incidents (EG) ;
"Formations Informatique et Libertés " : ce label certifie que le contenu pédagogique et le programme
ont été validés par la CNIL.
Le candidat au label CNIL doit obligatoirement disposer d’un correspondant Informatique et libertés (CIL). Il peut
en désigner un en interne ou faire appel à un prestataire externe qui pourra l’accompagner dans ses démarches
d’obtention du label. Il doit aussi justifier que son CIL bénéficie d’un budget annuel dédié et de moyens lui
permettant d’assurer ses missions.
Ce label donne aux entreprises l’opportunité de communiquer leur engagement sur la protection des données
personnelles et de la vie privée et d’en faire un avantage concurrentiel, y compris sur un plan européen, alors
que se prépare l’harmonisation de la réglementation sur la protection des données personnelles.
Un prochain règlement européen va promouvoir le principe d’ «accountability ». Il désigne et rend obligatoire la
documentation de l’ensemble des mesures internes définies et prises par un responsable de traitement ou ses
sous-traitants afin d'attester de son niveau de conformité.
Afin de se préparer à cette labellisation et de se conformer à ce principe européen, les entreprises et les services
publics doivent dès à présent nommer un responsable de leurs données et répertorier et documenter leurs
mesures de sécurité pour que celles-ci puissent être facilement auditées.

4 – LES TECHNOLOGIES LIEES AUX BIG DATA
LA CONSOLIDATION DES DONNEES
Le volume de données grandissant, il devient de plus en plus contraignant de répliquer les données. Les
nouveaux systèmes, s’ils doivent consolider les données réparties dans plusieurs silos d’information, devront
limiter la réplication de l’information et éviter la prolifération des Datamarts. L’objectif d’une solution
centralisée est de conserver dans un réservoir de données unique une seule version de la donnée, servant de
multiples usages, dans le but de simplifier les architectures, limiter les désynchronisations de données et gagner
en performance.
En factorisant les systèmes, les coûts d’infrastructures, les coûts logiciels et les coûts de supervision sont réduits
d’autant. L’administration centralisée des règles de sécurité et des règles d’accès aux données permet de
réduire les coûts d’administration de la plateforme. La centralisation des informations facilite aussi la mise en
place des règles de confidentialité ainsi que des procédures d’anonymisation des données conformes aux
préconisations des législateurs.
Cette concentration des fonctions d’administration et des données concoure aussi à la performance globale des
systèmes concernés.
LA RECHERCHE DE PERFORMANCE
L’immense volume des Big Data a une incidence sur les performances des solutions. Plusieurs approches ont été
tentées ces dernières années pour exploiter au mieux ces grands volumes de données. Voici les principes qui
peuvent être retenus aujourd’hui au regard des principaux retours d’expérience des projets.
Le premier constat, concernant l’organisation des larges entrepôts de données structurées, est de privilégier les
modèles logiques normalisés, comme peuvent le faire les progiciels de gestion. Plutôt que de chercher à
modifier les modèles de données en schémas en étoile ou en flocons afin d’accélérer les restitutions, il est
préférable d’utiliser, sur une plateforme SQL performante, des modèles de données conçus pour faciliter la mise
à jour de la donnée, éviter toute duplication source d’erreur et être capable d’évoluer simplement pour
accueillir de nouvelles informations.
La non-duplication des données devient désormais la nouvelle règle et seules des contraintes très fortes,
comme par exemple l’éloignement géographique ou des besoins de site de secours, peuvent justifier la recopie
d’une donnée d’un Datacenter Européen sur un Datacenter Australien par exemple.
Lors du transport de données massif entre un système opérationnel et un système décisionnel de type Big Data,
le principe de base à privilégier sera un fonctionnement de type E L T (Extraction, Loading, Transformation)
plutôt qu’E T L (la phase de transformation réalisée pendant le transport). Les transformations de données -
mises en forme, lookups, règles de gestion - seront en priorité réalisées sur la base de données cible plutôt que
sur le serveur applicatif de l’outil de transfert, même si cela ne permet pas de tirer parti de toutes les
fonctionnalités proposées par l’ETL.
Le traitement parallèle est désormais incontournable. Les traitements longs s’exécutent en parallèle sur des
sous-ensembles de données distribués, puis restituent un résultat consolidé. Ce traitement parallèle est
aujourd’hui la seule réponse trouvée pour garantir des temps de réponses acceptables face à l’inflation des
données. Le parallélisme doit pouvoir être réalisé de bout en bout, sur toutes les étapes d’un traitement

(lectures, croisements, calculs, tris …) afin d’éviter tout point de contention qui pénaliserait toute la chaîne de
traitement. Ce parallélisme ne doit pas être le fait de l’expertise de l’utilisateur mais réalisé de manière
automatique et transparente par la plateforme.
La stratégie d'allocation des ressources d’un système Big Data est primordiale pour assurer la performance. Les
outils de gestion de charge, connus sous le nom de Workload Manager ou encore de Kernel Resource
Management, sont à la fois des planificateurs de la charge de travail, des gestionnaires des ressources et des
moteurs de workflow. Leur rôle est d’optimiser l’allocation des ressources machine et de faire cohabiter des
usages très différents sur la même plateforme, permettant à chaque tâche de pouvoir s’exécuter dans les
meilleures conditions, selon son niveau de priorité et ses caractéristiques :
Des utilisateurs avancés, comme les statisticiens, les Data Scientists, les Data Miners, qui souhaitent
réaliser des requêtes complexes avec beaucoup de croissements de données,
Des centaines d’utilisateurs concurrents qui lancent leurs éditions et génèrent leur reporting,
Des traitements batchs ou temps réel qui alimentent le système en nouvelles informations.
Pour gagner en réactivité, les traitements parallèles en base de données (in-database) peuvent être complétés
par des traitements en mémoire (in-memory). Sans aller jusque monter en mémoire l’intégralité des données, il
est intéressant d’y placer les données les plus importantes, les plus récentes ou les plus accédées (données dites
très chaudes). L’accès et le traitement de ces données est alors fortement accéléré. Les autres données
pourront rester sur des supports de stockage moins couteux, le système se chargeant de monter
automatiquement en mémoire les données nécessaires. Pour les outils de restitutions et d’analyses il faudra
aussi privilégier le traitement en mémoire (In-Memory).
LE ROLE DE L'OPEN SOURCE
Avant l’avènement des Big Data, le coût des bases de données augmentait en fonction du volume de données à
gérer. Plus le serveur de données était puissant, plus la base de données coûtait cher. Gérer les Big Data au sein
d’une base de données payante était alors prohibitif.
Le Framework Hadoop est une réponse au problème. Il s'agit d’un ensemble
de programmes Java qui permettent de paralléliser un très grand nombre
d’opérations informatiques sur de larges clusters de serveurs accueillant des
données. La distribution gratuite d’Hadoop et son fonctionnement sur des
serveurs d'entrée de gamme ont permis de faire baisser les coûts, permettant la gestion d’un grand volume de
données à des prix attractifs. Un très grand nombre d’entreprises a pu se lancer dans le stockage des données
Big Data et inventer de nouveaux modèles économiques. Parmi les sociétés les plus connues qui utilisent le
framework Hadoop, on trouve Amazon Web Services, AOL, Facebook (un cluster de 2 000 serveurs), Linkedln
pour alimenter la rubrique « Les connaissez-vous ? » ou encore Twitter pour le stockage des tweets et des
fichiers logs.
Les limites d’une solution entièrement Open source : le Framework Hadoop est distribué gratuitement par la
fondation Apache. Hadoop est un système complexe à utiliser et est constitué d’un ensemble de modules qui
évoluent rapidement : Sqoop, Flume, Hive, Oozie, Pig, Mahout, Spark … Une entreprise qui réaliserait elle-même
l’intégration de ces modules devrait constituer un centre de compétences dédié afin de rester à un bon niveau
de performance, ce qui ne fait pas forcement partie la stratégie de l’entreprise. Aussi, de nombreux acteurs
proposent des installations pré-assemblées et pré-testées d’Hadoop, avec des modules d’administration et des
fonctionnalités additionnels. Ces distributions d’Hadoop - Map’R, Hortonworks, Cloudera, etc … ainsi que la

souscription payante au support sont à privilégier car les équipes de ces éditeurs, basées dans la Silicon Valley,
participent au développement des nouvelles versions des composants du Framework Hadoop.
De même, Hadoop ne remplace pas un système décisionnel existant basé une base de données relationnelle
mais vient le compléter. De nombreuses solutions unifiées proposent un écosystème simplifié (base de données
relationnelle et stockage de données polystructurées) afin de simplifier et de rationaliser les plateformes.
La meilleure approche de l’Open Source : afin de bénéficier pleinement des apports de la solution Hadoop, qui
est incontestablement un constituant important de la stratégie Big Data, il convient de chercher à intégrer la
solution Hadoop au mieux au système d’information existant. Du point de vue opérationnel, il est nécessaire de
rechercher des solutions intégrées avec une administration graphique du cluster Hadoop et une console
commune avec le système information existant. Il faut aussi pouvoir utiliser le langage SQL, connu des équipes
et des logiciels actuels et rechercher des outils qui génèrent automatiquement des scripts MapReduce ou ‘R’
pour pouvoir exploiter les données contenues dans Hadoop sans trop investir dans le conseil ou la formation.
Comme tout outil informatique qui est choisi en fonction de besoins métiers, il est très important, avant de
commencer un projet Big Data, de s’assurer de l’existence d’un véritable cas d’usage métier, de vérifier qu’une
solution en mode Cloud locatif (par exemple : suivi des campagnes marketing, analyse de la fraude, analyse e-
réputation, etc…) n’existe pas sur le marché pour ce besoin et que l’investissement sur la plateforme et les
formations donneront bien lieu à un retour sur investissement assez rapide.
L’AGILITE
Les systèmes décisionnels historiques ont montré leur capacité à produire un reporting automatisé, désormais
indispensable aux entreprises, mais leur manque d’agilité leur est souvent reproché. L’agilité d’une solution Big
Data doit être envisagée avant sa mise en œuvre. Elle s’appuie sur les principes suivants : une simplification de
l’administration et une mise à disposition de fonctions Self-Service pour les utilisateurs.
La simplification de l’administration s’appuie sur une plateforme commune entre l’opérationnel et l’analytique
permettant de simplifier l’infrastructure, réduire le nombre de matériels, d’applications et de logiciels
d’administration et de supervision. Certaines solutions, disponibles sous forme d’Appliance, proposent des
matériels et des logiciels optimisés et préinstallés pour la gestion des Big Data. Dans ce cas, le client bénéficie
d’un seul interlocuteur pour l’ensemble de la solution, avec lequel il peut contracter un engagement de service
pour l’ensemble de la solution (SLA, Service Level Agrement). L’efficacité opérationnelle ainsi dégagée vient
contrebalancer l’achat d’une plateforme intégrée.
Des fonctions simplifiées pour l’utilisateur. La Business Intelligence a beaucoup fait pour simplifier l’accès des
utilisateurs à l’information structurée de l’entreprise. Les utilisateurs souhaitent désormais pouvoir exploiter les
données poly-structurées, des algorithmes de la théorie des graphes, de la recherche des chemins, des
fonctions de classification (clustering) ou encore de Data Discovery.
Une plateforme agile permettra de mettre à disposition de l’utilisateur un espace de travail (du stockage, de la
puissance de calcul) le temps de son travail. Ces capacités d'autoprovisionning (allocation automatique de
ressources) autorisées et supervisées par l’administrateur du système, offrent une grande souplesse
d’administration et permettent des scénarios d’expérimentation et de Fail-Fast
Découverte de tendances, d’Insight
Recherche de tentatives de fraude, hypothèses de défaillance client, recherche de corrélation
Expérimentation de concepts avant remise en main aux équipes informatiques pour industrialisation.

Une plateforme intégrée, proposant des fonctions Plug & Play et une administration simplifiée, permettra de
couvrir économiquement les nombreux usages attendus d’une plateforme moderne de Big Data.

5 – APPLICATIONS ET USAGES
UN ENORME CAPITAL INFORMATIONNEL
L’État possède incontestablement un immense capital informationnel. Sans compter les ministères, de
nombreux organismes disposent de bases d’informations très riches : citons, entre autres, la Coface, la
Bibliothèque publique d’information (BPI), l’Agence Française pour le développement international des
entreprises (UBIFRANCE), ou encore l’Institut National de la Propriété Industrielle (INPI).
Les usagers souhaitent pouvoir accéder à toutes ces informations et pouvoir interroger des annuaires de
données qui recensent, ordonnent, aident à comprendre les données, qu’elles soient traitées et mises à
disposition du public par l’Etat (data.gouv.fr), par les collectivités locales (data.nantes.fr) ou par le privé (data-
publica.fr). Ces données publiques représentent une opportunité pour les individus (simples citoyens, militants
et journalistes), les entreprises (grandes et petites) et l’Etat.
DE NOMBREUSES INITIATIVES
L’état français a pris la mesure du sujet et a lancé un vaste programme d’investissement dans le domaine du
numérique. Plus de 150 millions d’€ d’aides à la recherche et au développement ont été alloués dans les
domaines suivants :
Le logiciel embarqué et objets connectés (l’internet des objets, les capteurs),
Le calcul intensif et la simulation numérique,
Le cloud computing et technologies d'exploitation massive des données ("Big Data"),
La sécurité des systèmes d'information.
L’École Polytechnique vient de créer une chaire « Data Scientist » et plusieurs écoles et Universités ont lancé
leur cursus « Big Data ». Enfin des formations en ligne sur ce sujet, disponibles sur le Web, des MOOC, Massive
Online Open Courses, sont diffusés depuis les Etats Unis.
Parmi les dernières initiatives en date, le programme VITAM (Valeurs immatérielles transmises aux archives
pour mémoire), lancé le 10 mars 2015, est chargé de collecter, conserver et communiquer au public les
documents numériques produits par les ministères et administrations centrales de l’Etat.
CAS D’USAGE
Le Cloud et la mobilité sont entrés dans le quotidien du citoyen. Un citoyen qui souhaite pouvoir accéder
partout à des informations toujours plus nombreuses pour améliorer ses conditions de circulation, identifier le
meilleur trajet, obtenir des informations sur la société. Tout en souhaitant préserver son identité, échapper aux
caméras de surveillance et bénéficier d'une vraie transparence sur l’accès aux informations et sur l’usage qui est
fait de ses données.
Nous avons recueillis des témoignages dans plusieurs domaines différents : la recherche et les biblothèques
nationales. Des projets Big Data qui illustrent bien les différents engagements de l’État dans les projets Big Data.
Enfin nous terminerons sur la coordination des différents projets et la sur la gouvernance des données.

Applications et usages
>>>>>

INTERVIEW - Jean-Michel ALIMI, Directeur de Recherche au LUT
« Les limites des simulations numériques repoussées grâce aux
Big Data »
Jean-Michel Alimi, Directeur de Recherche au CNRS, nous
présente une partie des travaux réalisés par son équipe sur la
simulation numérique en cosmologie au Laboratoire Univers et
Théories, Observatoire de Meudon, des calculs qui ont
nécessité plus de 150 pétaoctets de données.
A l’Observatoire de Paris, avec votre équipe, vous avez entrepris de modéliser l'univers du Big Bang.
Pouvez-vous nous présenter les grandes étapes de ce projet ?
Jean-Michel Alimi. Le projet DEUS, Dark Energy Universe Simulation, dont j’ai la responsabilité a débuté il y a dix
ans, son objectif est de comprendre l’origine de la structuration et la nature du contenu de notre univers et
spécialement la nature de l’énergie noire. Plus récemment, en 2012 nos efforts ont permis de réaliser la première
simulation mondiale de structuration de TOUT l’Univers observable du Big Bang jusqu’à aujourd’hui. C’est la taille
gigantesque des volumes manipulés qui en fait un projet Big Data remarquable, voire hors norme : alors que 150
Po de données sont générés durant les calculs, 2 Po de données ont été finalement conservés après un processus
de sélection très optimisé. Pour ce faire, l’équipe scientifique s’est appuyée sur le supercalculateur Curie qui
après 30 millions d’heures sur 76 032 cœurs de calcul, plus de 300 To de mémoire et un débit disque de plus de
50Go/sec aura permis d’expulser vers un système de fichiers parallèle les données produites par le calcul.
Quelles sont les précautions à prendre lorsque l’on se lance dans un projet Big Data de cette nature ?
J-M.A. Malgré la puissance de calcul et la capacité de stockage dont nous disposions, nous avons dû optimiser de
façon extrême l’ensemble des opérations. Toutes les facettes de la simulation haute performance ont été
sollicitées : le temps de calcul, l’usage de la mémoire, les schémas de communication, la gestion des
entrées/sorties. Tout devait être optimisé au même instant en exploitant toutes les ressources disponibles.
La sélection des données et leur analyse sont deux phases critiques qu’il faut savoir préparer. Il est indispensable
de retenir les données essentielles au calcul, mais aussi garder à disposition des informations qui pourraient
intervenir dans la modélisation ou être corrélées avec d’autres résultats. Si la plupart des données concerne le
projet Dark Energy qui vise à étudier la dynamique de l'expansion de l'univers et la croissance de structure à
grande échelle, de très nombreuses données sont conservées à des fins exploratoires pour de nombreuses autres
questions de cosmologie. Chaque année de nouveaux calculs, de nouvelles analyses nous conduisent encore à
générer près de 200 téraoctets de nouvelles données et la gestion de ce volume de données est un souci
quotidien.
Comme nous partageons le résultat de nos recherches avec d’autres laboratoires répartis sur l’ensemble de la
planète, nous sommes régulièrement confrontés à la latence des réseaux transcontinentaux, qui nous limite dans
la recopie et la mise à disposition de données.

Comment sont partagés ces résultats ? Y-a-t-il une exploitation commerciale des analyses réalisées ?
J-M.A. Du fait de leur complexité, les calculs scientifiques ne sont directement utilisés que par des chercheurs
très spécialisés dans le monde. Aussi, pour rendre les résultats accessibles à une plus large population, nous
avons réalisé par exemple des animations vidéo permettant de retracer toute l'histoire de l'Univers du Big Bang
jusqu'à aujourd'hui. La fabrication de ces animations n’est possible que grâce aux technologies Big Data. Ces
vidéos ont été par exemple diffusées aux journaux du 20h00, gracieusement offertes. Ces travaux sont rarement
commercialisés car la connaissance de notre l’univers n’a pas de prix ! Vous le savez, comme le disait Albert
Einstein, « tout ce qui compte ne se compte pas et tout ce qui se compte ne compte pas ! »
Dans ce domaine, la philosophie qui prédomine chez les chercheurs du monde entier est un état d’esprit ouvert
et une tradition de partage. Nous travaillons en partenariat avec de très nombreux centres de calculs, de
nombreuses équipes avec qui nous échangeons beaucoup de données : des données issues de simulations
numériques mais également des données réelles issues d’observation que nous confrontons à nos prévisions.
Nous interagissons également avec de nombreuses équipes de recherches spécialisées dans les simulations
numériques au-delà de notre discipline scientifique : avec des équipes de sismologie, de physique des particules,
ou encore de mécanique des fluides.
Ces données ont donc une vocation publique. La question de la sécurité porte donc plus sur la
préservation des données ?
J-M.A. En effet, les difficultés de la gouvernance de ces données concernent davantage la mise à disposition des
données et leur sauvegarde que la sécurisation de l’accès. Les énormes volumes de données limitent les
possibilités de recopies et exigent une grande rigueur quant à leur diffusion afin de ne pas risquer une
multiplication des volumes. Nous sommes hébergés par de grands centres de données qui prennent en compte le
risque d’incendie et de perte des données, mais nous devons sans cesse arbitrer sur les volumes et sur les
conditions de mise à disposition de ces données.

INTERVIEW – Emmanuelle Bermes, BnF
« Le volume d’informations numériques a largement dépassé la
production littéraire.»
Emmanuelle Bermes est adjointe pour les questions
scientifiques et techniques auprès du Directeur des
services et des réseaux Bibliothèque nationale de
France. Elle dresse un panorama du rôle des données
dans la gestion des Bibliothèques et de l’apport des
nouvelles technologies dans la gestion des Big Data.
La gestion des grands volumes de données dans les bibliothèques nationales a-t-elle évoluée ces
dernières années depuis l’apparition du phénomène Big Data ?
Emmanuelle Bernes. Les bibliothèques nationales sont confrontées aux grands volumes de données depuis les
années 90, lorsque les premiers chantiers de numérisation des ouvrages ont commencé. Nous disposons
actuellement de plus de 3 millions de documents numérisés, nous avons appris à les gérer. Les bibliothécaires ont
une grande tradition de normalisation, de création de métadonnées et d’échange de données structurées. Un
format international d’échange de données documentaire existe depuis les années 1960 – MARC pour MAchine-
Readable Cataloging – avec sa déclinaison INTERMARC pour la Bibliothèque nationale de France. Nous utilisons
de nombreux référentiels internationaux pour coder nos métadonnées (code langues ISO, code pays ISO,
identifiants comme l’ISBN pour les livres ou l’ISNI pour les auteurs, etc..) : ce formalisme nous permet d’échanger
des données à la fois entre bibliothèques mais aussi entre pays.
Après cette première phase d’acquisition et de numérisation, l’avènement de Google en 2005 et de ses capacités
de recherche plein texte, le travail d’interprétation des documents numérisés s'est accéléré. Nous avons de plus
en plus utilisé l’OCR (Optical Character Recognition) pour transformer les documents numérisés en éléments
interrogeables et nous nous sommes mis à l'usage d'algorithmes de recherche.
Le troisième phénomène a été la production massive de documents numériques. Avec la généralisation des
ordinateurs individuels et des caméras numériques, les documents, les blogs, les vidéos ont proliféré sur le Web.
Les documents étaient désormais au format numérique natif, et il fallait les prendre ainsi en compte dans nos
bases documentaires.
Quelles ont été les conséquences de cette prolifération d’informations disponibles sur le Web ?
E.B. Depuis 2006, le dépôt légal a été étendu aux sites internet : toute information publiée en ligne doit être
conservée. C’est un travail que nous partageons avec l’INA, l’Institut national de l'Audiovisuel, qui est en charge
des sites internet de la radio et de la télévision. De notre côté nous collectons chaque année 4 millions de sites
internet français, dont 23 titres de presse quotidienne nationale et régionale (Ouest France, Le Républicain
Lorrain, Médiapart…) qui entrent chaque jour dans nos collections de manière automatique. Le volume
d’information est gigantesque : plus de 567 To de données, et ce volume croît chaque jour.

Existent-ils des progiciels pour gérer ces informations ?
E.B. Du fait du caractère exceptionnel du volume de données, la plupart des systèmes que nous utilisons sont
spécifiques. Il existe bien des solutions de gestion intégrées de bibliothèque et de gestion électronique de
documents commercialisées par des sociétés comme Archimed, BiblioMondo ou Ex Libris, mais elles ne
répondent pas aux spécificités d’une bibliothèque nationale (gestion du dépôt légal et des fonds patrimoniaux, en
particulier). La plupart de ces logiciels offrent toutefois la possibilité, pour les bibliothèques qui les utilisent, de
récupérer les informations que nous produisons sur les ouvrages, à partir du catalogue de la BNF
http://catalogue.BnF.fr/. Souvent, ils sont également capables de traiter d’autres sources de données comme
decitre.fr ou electre.com.
Pour gérer l’accès à de très grands volumes d’informations, nous utilisons des moteurs de recherche comme
CloudView d’Exalead (pour la bibliothèque numérique Gallica.bnf.fr) ou le moteur open source Lucene (pour le
catalogue général). Nous avons aussi créé des sélections basées sur des corpus numérisés – le sport, les
manuscrits – des corpus d’albums photographiques ou encore des corpus plus originaux comme celui des
partitions du fonds musical de la Bibliothèque Royale. Ces corpus réunis par des spécialistes des collections sont
consultables dans la bibliothèque numérique gallica.BnF.fr.
De plus, nous avons signé des partenariats avec d’autres fonds documentaires – bibliothèques, e-distributeurs –
qui nous permettent aussi de référencer des ouvrages, des documents ou des vidéos que nous ne détenons pas
en propre.
Les attentes des lecteurs et usagers de la BnF ont-ils changé avec la révolution numérique ?
E.B. Oui, bien sûr, la généralisation des moteurs de recherche des géants du Web a eu un fort impact sur les
différentes manières d’accéder à l’information. Les utilisateurs souhaitent de plus en plus interroger les systèmes
en langage naturel, plutôt qu’en suivant des menus. On peut aussi exploiter les « traces » laissées par les lecteurs
dans le cadre de leur consultation : un exemple concret est le portail tactiques.org/prevu des prêts de la
bibliothèque universitaire Paris 8 qui propose des statistiques sur les emprunts : le nombre de prêts de l’ouvrage,
l’âge moyen des emprunteurs, etc. Le système compile toute l’activité des prêts et en quelques clics vous accédez
à l’ensemble des prêts ventilés par secteur (psychologie, droit administratif, cinéma, sociologie), par langue
(français, anglais...), par répartition géographique, et à des classements comme le Top 10 des livres empruntés
parmi les 324401 prêts des deux dernières années.
Nous travaillons aussi beaucoup autour des outils de datamining et de recherche sémantique, nous suivons de
près les progrès du Web sémantique. Nous menons avec l’école Télécom ParisTech des recherches sur les usages
du patrimoine numérique des bibliothèques et sur l’exploitation des statistiques d’usage de Gallica.
De nombreux acteurs du Web souhaitent monétiser leurs données et se positionnent comme des
DaaS, Data As A Service. Cela a-t-il du sens dans de le cadre de la BnF ?
E.B. Nous ne cherchons pas à monétiser les informations, mais au contraire à diffuser le plus largement possible
le contenu que nous gérons, tout en prenant soin de veiller aux contraintes juridiques et aux différents droits sur
les œuvres. C’est la raison pour laquelle nous avons adopté, pour la diffusion de nos données publiques, la licence
publique de l’Etat élaborée par la mission Etalab. Par ailleurs, la BNF publie régulièrement les catalogues de ses
collections, les catalogues d'expositions et des documents inédits.

INTERVIEW - Henri Verdier
Administrateur général des données de l’État
« La transformation numérique de l'action publique
passe par une bonne gouvernance des données »
Henri Verdier, Administrateur général des données de l’Etat - en anglais
Chief Data Officer - présente le phénomène des Big Data non plus sous
l’angle de l’entreprise privée qu’il connait bien, mais sous celui des
politiques des données de l’Administration française. Il évoque ici sa
vision du potentiel des données possédées par l’État face aux
champions de l’économie numérique.
Henri Verdier, dans le cadre de votre nouvelle mission d'administrateur des
données publiques, comment définissez-vous l'économie numérique ?
Henri Verdier. L’économie numérique est la rencontre entre deux écosystèmes : le
monde de la recherche technologique et de l’algorithmique avec celui de l’activité
réelle, deux écosystèmes qui ne se rencontrent que très rarement, ou du moins pas
assez souvent dans un monde en perpétuelle évolution. En tant qu'administrateur des
données publiques, notre rôle consiste à faciliter ces échanges, à insuffler les avancées
technologiques et surtout les nouvelles méthodes de gestion des données dans les
rouages existants. Le but est bien sûr de permettre à l’action publique de bénéficier
des mêmes moyens que les entreprises privées. Nous souhaitons mettre à disposition
d’une équipe de datascientists des données en très grand nombre afin que leurs
analyses puissent orienter les politiques à venir. Avec, toujours en ligne directrice, la
baisse des coûts des processus, un meilleur service public rendu et la modernisation du
système d’information de l’État. Toutes les organisations sont concernées : les services
publics, les administrations, les services déconcentrés comme les collectivités locales.
Votre service est rattaché au DISIC, la direction interministérielle des systèmes d’information et de
communication, qui vise à améliorer le service rendu à l’usager et à l’agent et à accroître la valeur
ajoutée des systèmes d’information. Comment votre expérience du numérique et des Big Data peut-
elle contribuer à l’atteinte de ces objectifs ?
H.V. Nous intervenons comme force de proposition et comme influenceur. Nous veillons d’abord à l’usage des
données, en privilégiant l’ouverture des données publiques, un meilleur partage, plus de modernité et de
transparence, et une centralisation accrue pour une exploitation facilitée. Et surtout nous cherchons à insuffler
une nouvelle approche sur les données, proches des pratiques réalisées sur les Big Data, mêlant données
Henri Verdier a dirigé l’Etalab, un
service rattaché au Secrétariat
général pour la modernisation de
l’action publique, dont la mission
était de faciliter la réutilisation la
plus large possible des
informations publiques. Le
portail unique interministériel
Etalab, data.gouv.fr, rassemble et
à met à disposition du public
l’ensemble des informations
publiques de l’Etat.
Henri Verdier est également le
membre fondateur du pôle de
compétitivité Cap Digital et, à
cette occasion, a rencontré la
plupart des start-up françaises
qui se lançaient dans les
nouvelles technologies.
En septembre 2014, il a été
nommé par le gouvernement
Administrateur des données de
l’État.

polystructurées, Data Science et techniques d’apprentissage automatiques. Systématiquement impliqué dans les
projets structurants et manipulant de grands volumes de données, notre service essaie d’imposer une visibilité
sur le stockage des données nécessaire à l’automatisation du processus, pour rechercher une corrélation, une
synergie avec d’autres silos de données existants dans l’administration, afin que le rapprochement des données
vienne enrichir le capital informationnel de l’État. Ce travail est complexe et doit être réalisé en amont pour
pouvoir influer sur l’architecture de la solution, en proposant par exemple des Web API, des ouvertures pour lire
la donnée qui demain aura autant de valeur que le processus optimisé lui-même. C’est une démarche disruptive :
elle présente la donnée comme un bien commun, utile au pilotage des activités et aussi à l’évaluation des
politiques menées.
La fonction d’Administrateur général des données de l’État est nouvelle en France, quelles sont vos
sources d’inspirations et les modèles sur lesquels vous pouvez vous appuyer ?
H.V. La fonction de Chef Data Officer est de plus en plus présente dans les grandes entreprises internationales
ainsi que dans les grandes villes américaines, telles que New York ou San Francisco. De très nombreuses
initiatives y sont menées. Par exemple, New York compte une million d’immeubles dont 3 000 environ prennent
feu chaque année. En croisant les données de plusieurs systèmes d’information – la pauvreté du quartier, l’âge de
l’immeuble, la date des derniers travaux réalisés, le nombre de loyers impayés, la présence ou non de squatters,
la présence ou non d’un gardien – plus de 60 critères en tout, un algorithme a permis de déterminer où les 341
unités de pompiers de la ville doivent concentrer leurs visites de contrôle. Ce système a permis de rendre ces
contrôles pertinents dans 73% des cas au lieu de 13% auparavant. Voilà le type d’optimisation et d’amélioration
du service public que peuvent procurer une bonne gestion des données et l’apport des nouvelles technologies.
Personne ne gagnera seul le défi des Big Data. La collaboration des services est un élément clé de la stratégie
pour pouvoir offrir des services qui soient proches de la qualité que les usagers peuvent rencontrer par ailleurs.
Par exemple, nous menons actuellement une expérimentation associant l’IGN, La Poste et Open Street Map pour
créer un référentiel ouvert de la géolocalisation de toutes les adresses qui pourra être utilisé par tous les services.
Nous souhaitons aussi apporter de la modernité dans le pilotage des projets informatiques, en proposant des
cycles plus courts, favorisant la réutilisation des données ou des services déjà en place, et en traitant très en
amont les problématiques législatives, d’éthique et de confidentialité, incontournables dans tous les projets liés
aux données, toujours en concertation avec les organismes comme la CNIL, la CADA ou encore l'AFNIC. La prise
en compte d’une bonne gouvernance des données et de son exploitation a posteriori sera un véritable levier de la
transformation numérique de l’action publique.

A propos de
>>>>>

A propos de Teradata
Teradata France
Antony Parc 1
2/6 Place du général de Gaulle
92184 Antony cedex
Tél : +33 1 81 89 15 00
Site Internet : http://fr.teradata.com/government/
Teradata (NYSE : TDC) est le spécialiste des plates-formes analytiques de données et des applications et services
marketing. Les produits et services novateurs de Teradata offrent aux entreprises des solutions d'intégration de
données et une approche métier qui leur permettent de prendre les meilleures décisions possibles et de se
doter de véritables avantages concurrentiels. Bureaux à Dayton, Ohio ; San Diego, Atlanta et Indianapolis ;
Bureaux en Amérique du Nord et Amérique du Sud, en Europe, au Moyen-Orient, en Afrique (EMEA), ainsi que
dans la zone Asie et Japon. Teradata compte 11 500 salariés dans plus 40 pays
Industries ciblées : Services financiers et assurance, gouvernement et services publics, santé, Sciences de la
vie ,eCommerce, media numériques, divertissement, commerce de détail, industrie,
pétrole et gaz, hôtellerie, télécommunications, voyage et transport, service public.
Leadership : Teradata collabore avec plus de 2600 clients dont 1800 utilisent les applications
Teradata parmi lesquels :
 15 des 20 premières banques mondiales
 18 des 20 premières entreprises mondiales de télécommunications
 Les 6 premières compagnies aériennes mondiales
 14 des 20 premières agences de transport et de voyage
 15 des 20 premiers détaillants mondiaux
 11 des 20 premières sociétés de l’industrie de la santé
 11 des 20 premières sociétés du monde de l’industrie
Chaque jour, plus de 3 millions d'utilisateurs dans le monde entier accèdent à un
environnement Teradata analytics ou applications marketing dans le cadre de leur
travail dans quasiment tous les secteurs.
Une sélection de
partenaires
Accenture, Adam Software, Alteryx, Attensity, Brierly, Capgemini, Celebrus, Cloudera,
Cognizant Technology Solutions, Deloitte Consulting, ESRI, Fuzzy Logix, Harte Hanks,
HortonWorks, IBM: Global Business Services, IBM Cognos, Guardium, InfoSphere,
Optim, and SPSS; Informatica, LiveRamp, MapR, Microgen, Microsoft, MicroStrategy,
Oracle, Protegrity, Qlik Technologies, Inc., Revolution Analytics, SAP, SAS, Tableau,
Tibco, Urban Airship, Webtrends, Wipro & Wherescape.

Une sélection de clients
français
SFR, Bouygues, Orange, BNP PARIBAS, Air France, SNCF, Geopost, ERDF,
Carrefour, Auchan, Intermarché, Monoprix, ADEO Canal+, Banque Accord., Société
Générale, LCL, iBP, CA, Française des jeux…..
Direction : Mike Koehler, Président-Directeur Général
Hermann Wimmer, Co - President, Teradata Data & Analytics
Bob Fair, Co-président Teradata Marketing Applications
Dan Harrington, Executive Vice President, Global Consulting and Support Services
Stephen Brobst, Chief Technology Officer
Eric Joulié, Président Teradata France et Vice Président Western Europe, Southern
et Middle East Africa
Thierry Teisseire, Directeur Teradata Applications France et Europe de l’ouest
Les biographies sont disponibles sur le site : www.teradata.com
Prix et récompenses
Teradata est reconnue par les analystes, la presse et les groupes de réflexion pour son leadership dans le
domaine des solutions d'entrepôts de données, des solutions analytiques d'entreprise, du marketing intégré,
ainsi que dans le domaine du Big Data.
La liste complète des prix remportés par Teradata et ses dirigeants, disponible sur le site Teradata
Teradata® Unified Data Architecture™
Teradata Unified Data Architecture™ est au cœur des solutions orientées données de Teradata. Cette
architecture permet aux organisations et entreprises d’analyser tous types de données hébergées par différents
systèmes Teradata. L’architecture UDA tire avantage des technologies évoluées de Teradata, de la plateforme
Teradata Aster Discovery, de l’environnement open-source Apache™ Hadoop® et de nos partenaires
technologiques : les utilisateurs métier peuvent exécuter, à la demande, les requêtes de leur choix sur toutes les
données à disposition, quelle que soit la fonction analytique choisie. Cette architecture associe des modules
logiciels - Teradata Viewpoint, Teradata Connectors et Teradata Vital Infrastructure – et matériels – une suite
complète d’appliances Teradata dédiées aux entrepôts de données, ainsi que les produits Teradata Aster
Discovery et les solutions dédiées à Hadoop. Avec l’architecture UDA, les organisations accèdent, utilisent et
gèrent toutes leurs données structurées ou non.
Teradata QueryGrid™, dévoilé en 2014, constitue une innovation majeure qui propulse les utilisateurs d’UDA
aux avant-postes des technologies de base de données. Elle leur offre un accès transparent et en self-service aux
données et à des fonctions analytiques exécutables sur différents systèmes, à partir d’une seule instance de
Teradata Database ou requête Aster Database.
Teradata Database – notre plateforme logicielle phare est reconnue en tant que référence pour analyser et
traiter des données toujours plus volumineuses et complexes, proposer des requêtes pertinentes, offrir des
performances optimales et encourager la rentabilité d’un tel investissement.

Les plateformes Teradata spécifiques à la gestion des charges de travail sont des systèmes pouvant être
utilisés sur l’ensemble du périmètre d’entreprise: entrepôts de données actifs, entrepôts de donnés unifiés et
multi-métiers, appliance d’entrepôts d’entrée de gamme, référentiels de données spécifiques ou
environnements de type sandbox. Ces plateformes utilisent les technologies SMP (symmetrical multi-
processing) ou MPP (Massively Parallel Processing), et sont reconnues pour leurs hautes-performances, leurs
évolutivité et leur simplicité en matière de support.
Teradata Aster Discovery Platform. Cette gamme de produits offre des fonctionnalités telles que Teradata Aster
SQL-MapReduce®, Graph Analytics, Teradata Aster File Store ™, ainsi que le framework Teradata Aster SNAP
(Seamless Network Analytic Processing)™. Ces innovations permettent une visibilité détaillée et riche au cœur
de données aux structures différentes, issues de sources Web, de réseaux de capteurs, de réseaux sociaux, de
travaux de génomique ou autres. Associées aux fonctions de traitement analytique et aux entrepôts de données
de Teradata, ces solutions apportent à ses utilisateurs de nouveaux angles de visibilité qui font défaut aux outils
des autres éditeurs : niveaux de détail plus précis sur les données, génération accélérée de cette visibilité
détaillée, ainsi que de nouvelles fonctions de visualisation.
Teradata Aster Big Analytics Appliance optimise la génération de valeur à partir des données. Cette appliance
associe la plateforme open source Hadoop d’Apache et Teradata Aster Discovery Platform au sein d’une
appliance unique, parfaitement intégrée et optimisée.
Teradata Portfolio for Hadoop – Cette suite flexible de produits et de services permet d’intégrer Hadoop au sein
d’un environnement Teradata et de l’adosser à une architecture d’entreprise élargie, tout en bénéficiant de
services et d’un support de premier rang fournis par Teradata. Cette solution intègre des produits et services
adaptés à tous les budgets et niveaux de maturité vis-à-vis de Hadoop : versions de distribution Hadoop,
appliances intégrées, ainsi que des services de conseils et de support sur les matériels existants chez les clients.
Services Teradata
 Services de conseils professionnels Teradata - Nos centres d’expertises répartis dans le monde entier
emploient des professionnels formés et complètent les équipes locales de conseil en exploitant notre base
de connaissances accumulées et en fournissant des ressources de conseil à l'étranger le cas échéant.
 Les services d'assistance à la clientèle Teradata - Cette assistance revêt une importance croissante pour les
environnements d'entreposage de données stratégiques de nos clients, à savoir ceux qui fonctionnent 24
heures sur 24, 7 jours sur 7.

A propos du CXP
Le Groupe CXP est le premier cabinet européen indépendant d’analyse et de conseil dans le domaine des
logiciels, des services informatiques et de la transformation numérique.
Il offre à ses clients un service complet d’assistance pour l’évaluation, la sélection et l’optimisation de solutions
logicielles et les accompagne dans leur transformation numérique. Le CXP intervient dans plus d’une dizaine de
domaines (BI, gestion de contenu, ERP, finance, SIRH, CRM, BPM, IT management, sécurité du SI…).
Le Groupe CXP assiste également les DSI dans l'évaluation et la sélection des ESN et les accompagne dans
l’optimisation de leur stratégie de sourcing et dans leurs projets d'investissements.
Enfin, le Groupe CXP aide les éditeurs et les ESN à optimiser leur stratégie et leur go-to-market à travers des
analyses quantitatives et qualitatives ainsi que des prestations de conseil opérationnel et stratégique. Les
organisations et les institutions publiques se réfèrent également à nos études pour développer leurs politiques
informatiques.
Capitalisant plus de 40 ans d’expérience, implanté dans 8 pays (et 17 bureaux dans le monde), fort de 140
collaborateurs, le Groupe CXP apporte chaque année son expertise à plus de 1 500 DSI et directions
fonctionnelles de grands comptes et entreprises du mid-market et à ses fournisseurs. Le Groupe CXP est
composé de 3 filiales : le CXP, BARC (Business Application Research Center) et PAC (Pierre Audoin Consultants).
Le CXP et le Secteur Public c’est :
Des Dossiers de recherche et des Études :
- Portail citoyen
- Dématérialisation dans les collectivités
- Open Data
- Etat d’avancement de la directive européenne INSPIRE
- Réforme DIT & DICT versus SIG
- GBCP & SI financier
- SIRH pour le secteur public
Un Club Secteur Public CXP
Le CXP a créé en juin 2011 un Club Secteur Public destiné aux collectivités locales et territoriales,
ministères, organismes et entreprises publiques pour mieux répondre aux demandes d’évolution et aux
problématiques spécifiques en termes de progiciels (en mode licence, Cloud/SaaS, Open Source…).
Le Club réunit actuellement près de 120 membres et propose tout au long de l’année des ateliers et Web
Conférences sur des thématiques d’actualité (dématérialisation, portail citoyen, archivage, gestion de
contenus, Big Data, ville connectée, mutualisation des services,…). Une rencontre entre décideurs du
secteur public et éditeurs est également organisée chaque année, la prochaine Journée Secteur Public se
déroulera Jeudi 5 novembre 2015 à Paris.
Un vivier de répondants
La notoriété du CXP sur le marché français nous permet d’avoir des relations suivies avec un grand nombre
d’acteurs. Outre nos +1 500 clients utilisateurs (DSI et Directions fonctionnelles), notre lettre hebdomadaire est
envoyée à plus de 30 000 contacts et notre site Web fait l’objet de plus de 50 000 visites par mois.

De nombreuses études dans le domaine des Services Publics
Nous réalisons de nombreuses études dans ce domaine. Voici les dernières parutions du CXP qui évoluent avec
l’état de l’art du marché :
• La Performance dans les services publics, un livre blanc sur les enjeux et les pistes d’amélioration,
réalisé à partir d’une enquête menée auprès des professionnels du Secteur Public.
• Secteur Public – Le Portail Citoyen au service des usagers. Une étude complète sur les 8 principales
solutions logicielles de portail web présentes en France pour les mairies et collectivités territoriales
AUTRES PUBLICATIONS PROPOSÉES PAR LE CXP
DOSSIERS DE RECHERCHE
- ERP en open Source : une alternative crédible ?
- GBCP : Impacts sur le Système d’Information
- Pourquoi monter un projet MDM ?
- Améliorer son BFR : méthodes et outils
- Secteur public : les spécificités de la gestion des RH
- Big Data : mesurer la performance des activités publiques
AUTRES ETUDES ET BENCHMARKING DE SOLUTIONS
- Gestion des achats et relations fournisseurs
- Solutions de planification
- Plates-formes décisionnelles
Des prestations de conseil
Le Consulting CXP propose un ensemble de prestations spécifiquement conçues pour vous aider à réussir vos
projets :
• Audit de vos outils informatiques et organisation
• Etudes des objectifs, des besoins cibles et éléments d’opportunités de lancer le projet
• Réalisation de cahier des charges et formalisation d’appel d’offres publics
• Aide à la renégociation de contrats, dépouillement d’Appels d’Offres publics
• Assistance à maîtrise d’ouvrage.

Pour toute information :
Le Service Clients CXP
relation_client@lecxp.com
+33 (0)1 53 05 05 90
www.cxp.fr
Le CXP – 13 rue le Sueur – 75116 PARIS – 01 53 05 05 53 – www.cxp.fr

[livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata (Avril 2015)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie [livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata (Avril 2015)

Ähnlich wie [livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata (Avril 2015) (20)

Mehr von yann le gigan

Mehr von yann le gigan (20)

[livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata (Avril 2015)