SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
Date doc
© 2015 CXP Page 1/30 Livre Blanc – Avril 2015
LIVRE BLANC
Les Big Data pour les services publics :
enjeux, technologies, usages
En partenariat avec
Date doc
© 2015 CXP Page 2/30 Livre Blanc – Avril 2015
Les Big Data pour les services publics
LES AUTEURS
Emmanuel Lartigue
Analyste Senior / Consultant BI, le CXP
Mathieu Poujol
Principal Consultant, Cyber Security, Infrastructures and Middleware, CXP-PAC
Nikolai Janoschek
Research Analyst, CXP-BARC
© 2015 CXP Page 3/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
SOMMAIRE
1. Les ambitions du Secteur Public
2. Les Big Data : apports et enjeux
3. La maîtrise des dispositions juridiques
4. Les technologies liées aux Big Data
5. Applications et usages
INTRODUCTION
Les systèmes d'information des services publics brassent un nombre important de flux de données concernant
tant le fonctionnement de la ville et que les déclarations des citoyens. La croissance exponentielle du volume de
données disponible et les corrélations entre ces données présente un véritable enjeu pour le secteur public.
Les initiatives autour du Big Data y sont nombreuses et les attentes importantes : un meilleur service rendu aux
usagers par une optimisation opérationnelle ou par une offre de services plus large, une réorganisation de la
prestation de service grâce aux nouvelles technologies, un meilleur partage des connaissances, ou encore un
renforcement du lien social par une meilleure prise en compte des applications digitales : web, blogs, réseaux
sociaux, etc. Tout cela avec un enjeu sécuritaire fort : si les Français sont inquiets sur l’exploitation de leurs
données personnelles, ils accordent leur confiance à l’Etat pour les héberger et en garantir la sécurité d’accès.
De nombreuses initiatives ont été engagées et plusieurs projets lancés par les organismes intéressés. Le secteur
privé témoigne régulièrement de cas d’usages métiers liés aux Big Data, des applications qui pourraient être
reprises dans le secteur public. Nous présenterons dans ce document deux projets Big Data dans le secteur
public : un lié à la recherche, un autre lié aux bibliothèques, ainsi qu’un éclairage sur la coordination nationale
des initiatives sur les données.
Toutefois, les responsables projets butent sur l’absence de ligne directrice et sur le choix des socles
technologiques. Trop d’incertitudes demeurent encore quant aux autres choix techniques à mettre en œuvre et
sur l’effort de conduite du changement à mener. La prise en compte de ces nouveaux canaux de communication
exigent une nouvelle architecture technique que nous allons décrire dans les derniers chapitres.
© 2015 CXP Page 4/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
1 - LES ATTENTES DU SECTEUR PUBLIC
Le CXP a interrogé les acteurs du Secteur Public dans le but de mieux comprendre les nouvelles attentes et les
futurs défis à relever dans la prise en compte des Big Data et d’améliorer la performance des services publics.
UN MEILLEUR SERVICE FOURNI AUX USAGERS
Le service public, dans le cadre de ses missions et pour rendre un meilleur service aux usagers,
doit veiller au bon usage de la réutilisation des données.
La gouvernance de ces données, et les questions liées à l’intégrité, à la neutralité et à la qualité
des données, sont un des enjeux de la modernité et de la transparence du service public.
Les projets Big Data ont déjà montré leur efficacité dans la relation avec les citoyens en proposant
à la population de coparticiper à la gestion de la cité, tout en recherchant de nouvelles économies
et une meilleure efficacité. Les données des villes numériques, une fois analysées, permettront
d’imaginer des services novateurs, qui influeront sur l’organisation des villes et le quotidien des
individus.
DES SOLUTIONS INTÉGRÉES POUR TOUT TYPE DE DONNEES
Dans un contexte économique difficile où les services publics sont confrontés aux défis de la
rationalisation des coûts et de la maîtrise des dépenses, les solutions informatiques recherchées
doivent être optimisées et si possible centralisées.
Seules les données structurées sont bien maitrisées aujourd’hui (soit 20% des données). Les
nouveaux systèmes d’informations doivent prendre en compte des formats de données très variés,
documents, vidéos, images, et proposer si possible une gestion transparente de ces nouveaux
formats.
Afin de pouvoir capitaliser sur les compétences déjà maîtrisées, les nouveaux outils doivent si
possible être graphiques, ou générer automatiquement les scripts d’exécution en SQL, C ou encore
‘R’.
UN MEILLEUR PARTAGE DE L’INFORMATION
Les données sont aujourd’hui hébergées dans des silos de données. Pour tirer pleinement partie
des Big Data, il sera nécessaire de bâtir des ensembles transverses et cohérents de données.
Des mécanismes d’habilitation et de partage des informations devront être mis en place afin de
permettre au plus grand nombre d’accéder à l’information sans dupliquer cette information.
Ces systèmes devront se conformer au cadre fixé par La loi Informatique et Libertés, dans le cas
où de nombreuses informations sont susceptibles de porter atteinte aux droits et libertés des
personnes, ou à leur vie privée.
© 2015 CXP Page 5/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Figure 1 - Quels problèmes souhaitez-vous adresser avec les technologies Big Data ? (n=431, choix multiple)
Source le CXP 2015, n=431
2 – LES BIG DATA : APPORTS ET ENJEUX POUR LE SECTEUR PUBLIC
GENESE
Face à l’accroissement exponentiel des volumes de données liées à de nouveaux usages (réseaux sociaux,
mobiles, forums, Web, blogs, e-mails...), les architectures et outils classiques pour les traiter ne sont plus
adaptés. Cet « infodéluge » a ainsi fait naître de nouvelles approches décisionnelles destinées à traiter, analyser
et valoriser ces énormes volumes de données de toutes natures, semi-structurées ou non structurées, que l'on
peut trouver aujourd'hui dans bon nombre d'organisations, quelle que soit leur taille : c'est cet ensemble de
nouvelles technologies que l'on appelle les Big Data.
Les premiers utilisateurs à s'intéresser au phénomène ont été les entreprises privées orientées consommateur
final, telles que la grande distribution, les télécommunications, le tourisme, le loisir, les médias ou encore le
secteur financier. Ces entreprises ont vu dans les Big Data une opportunité économique et un axe de
développement pour l’entreprise (conquête de marchés, captation de nouveaux client…). Des Big Data, elles
attendent la possibilité de mieux connaitre leurs clients, de mieux cibler leurs attentes et, de plus en plus,
d’anticiper leurs demandes. Le graphique ci-dessous reprend les principales motivations qui ont poussé les
entreprises à s’équiper de solutions Big Data.
Si ces technologies ont eu un véritable impact sur le marketing et la relation client, qui représentent les
principaux revenus des grands acteurs du Web, elles se déclinent maintenant dans d'autres secteurs sur lesquels
elles ont désormais un réel impact sur la productivité et l’efficacité : les sciences de la vie, les transports,
l’énergie, les services financiers et la sécurité.
© 2015 CXP Page 6/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Figure 3 – Quels vont être vos prochains investissements pour les Big Data ?
Source: CXP Big Data Analytics Survey 2015, n = 222
Les objets vont devenir de plus en plus communicants et à terme les cartes SIM machines to machines, seront
plus nombreuses que les cartes SIM des milliards d’individus détenteurs de téléphones mobiles. L’exploitation
des données remontées par ces machines (sensors, web logs, smartmeters …) pour mieux comprendre leurs
conditions d’utilisation, avoir des métriques fiables, faire de la maintenance prédictive pour baisser les coûts de
maintenance, améliorer le maintien en conditions opérationnelles et donc la satisfaction des clients, sont autant
de domaines qui intéressent de près les services publics. Par exemple, dans le domaine des transports, Maersk a
placé des capteurs sur ses conteneurs, permettant de connaitre en temps réel leur emplacement et de surveiller
leur température lorsqu’ils contiennent des denrées périssables. Ces solutions intéressent aussi les acteurs les
acteurs du monde des transports comme la SNCF ou la RATP.
Ces nouvelles technologies Big Data sont disruptives pour le système d'information : les précédents systèmes
n’avaient pas été prévus pour prendre en compte d’aussi grands volumes de données dans une aussi grande
variété : désormais les vidéos, les documents scannés, les flux temps réel peuvent être stockés et analysés. Afin
de valider l’architecture ainsi que le bien-fondé de l’usage de ces technologies, les entreprises se sont lancées
dans une phase d’expérimentation (Proof Of Concept), puis elles ont franchi le pas pour s'équiper de solutions Big
Data.
© 2015 CXP Page 7/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Les projets Big Data ont un coût technologique, mais aussi organisationnel et stratégique. Les nouvelles
possibilités d’analyse et de prédiction peuvent avoir une incidence sur la manière dont l’entreprise sert ses clients
ou réalise son activité.
L’analyse des grands volumes de données exige par ailleurs de nouvelles compétences à la fois en algorithmique
et en statistique. Ces nouveaux profils, les Data Scientists, sont encore rares sur le marché, ce qui complique la
mise en place de projets novateurs sur les Big Data.
DE LA COLLECTE A LA RESTITUTION
Un projet Big Data commence par une collecte des données, de formats et d'origines très variés :
données issues de capteurs (compteurs de visites dans un magasin, machine-outil sous surveillance
constante, sondes réseaux placés sur un réseau informatique...), données issues de vidéos numériques de
surveillance ou encore de documents scannés qu’il faudra interpréter, logs de sites web, contenu des
mails reçus d’un client...
Après la collecte vient l’analyse des données. Cette opération nécessite de préparer la donnée
nécessaire, entre autres extraire les informations importantes des données les moins structurées. Pour
des documents scannés, le video-codage ou OCR (Optical Character Recognition), couplé à des outils de
sémantiques, permet par exemple de catégoriser les informations des documents. Pour l’analyse des voix
enregistrées, des outils de type Speach to Text existent sur le marché. Pour l’analyse des fichiers binaires,
des parseurs (ou analyseurs syntaxiques) se chargent de décomposer les enregistrements en entités
manipulables.
Les données sont ensuite stockées, organisées voire indexées pour pouvoir être exploitées. Elles doivent
généralement aussi être sécurisées : des droits et des habilitations sont posés sur ces données afin d’en
autoriser l’accès uniquement aux personnes habilitées.
Enfin, des outils de Data Visualisation permettent de restituer les résultats de l’analyse dans un format
interprétable et compréhensible par tous et d’explorer la donnée, afin de mieux comprendre les
comportements.
Figure 2 - Votre entreprise a-t-elle initié une démarche Big Data ? Si oui, où en êtes-vous ?
Source: CXP Big Data Analytics Survey 2015, n = 526
© 2015 CXP Page 8/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Figure 4 - Les différentes étapes du traitement des Big Data
Source le CXP 2015
Extraire
Stocker
Restituer
Analyser
Partager
Odata, ETL, WebCrawler
Data Cleaning, Data Quality
Reporting Requêtes Ad-Hoc,
Tableaux de bord,
Data Visualization
Portails, Search,
Collaboration
Self-Service
Datamining, ‘R’, Analytics, Data
Discovery, Machine Learning
Hadoop, SGBDR, Cloud
Suite
intégrée
© 2015 CXP Page 9/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
ENJEUX POUR LE SECTEUR PUBLIC
La collecte des données provient régulièrement des statistiques nationales, celles de l’Insee, Institut
National de la Statistique et des Études Économiques, par exemple. Ces données sont issues de
recensements, d’enquêtes et de toutes les sources administratives numériques disponibles.
L’analyse des données concerne la quasi-totalité des ministères, de nombreux organismes publics, voire
des institutions de droit privé chargées de missions de service public. Les statisticiens du secteur public
sont surtout présents dans les services statistiques ministériels : celui de l’Agriculture, le plus important,
de l’Éducation, du Développement Durable, des Douanes, de la Justice, du « Travail, emploi et formation
professionnelle » et de la « Santé et solidarités ». La Dares (travail et emploi) et la Drees (santé et
protection sociale) sont des organismes qui produisent régulièrement des statistiques sur les
établissements publics et leur personnel.
La gouvernance des données est certainement l’un des sujets les plus difficiles à traiter pour le secteur
public. La pluralité des missions et la diversité des données rendent très compliquées l’harmonisation et
la compatibilité des données. Les données peuvent en effet provenir à la fois de l’Administration
Centrale, des établissements publics, des collectivités territoriales, des Conseils Généraux et des services
déconcentrés. L’homogénéisation des données et le partage de référentiels qui faciliteraient la
consolidation des données ne sont pas toujours systématisés.
La mutualisation des données doit être encouragée pour réduire le nombre de silos de données afin de
réduire les coûts et favoriser les analyses croisées. La mise en place de référentiels communs à
différentes administrations, avec des classes de services en fonction de chaque contributeur et de chaque
partie prenante, permettrait de fiabiliser les données et de générer de la valeur à partir de ces données.
Les systèmes décisionnels complètent sans remplacer les systèmes transactionnels dont les méthodes de
fonctionnement au quotidien ne changent pas. Par contre ils peuvent en améliorer les processus, en leur
faisant bénéficier d’une information fiable car unique (stockée une seule fois au bon endroit) mais aussi
potentiellement enrichie par d’autres sources de données et par le fruit de potentielles analyses croisées
et avancées.
Enfin, une autre difficulté est le partage des informations publiques. L’échange peut être réalisé soit
entre les administrations, soit entre l’administration et le secteur privé et enfin entre l’administration et
les usagers. Il peut être intéressant de valoriser auprès de tiers les traitements Big Data qui produisent
des analyses de tendances, des analyses d’écarts ou encore de la prospective.
Quant à la restitution de ces données aux usagers, l’ouverture des données publiques (Open Data),
entreprise depuis maintenant quelques années, a déjà apporté de nouveaux services aux citoyens : la
diffusion des horaires de trains, la liste des vélos ou des voitures disponibles en partage, la liste des codes
postaux si utiles pour valider la saisie des adresses et sécuriser les livraisons et des éléments plus
spécifiques comme par exemple la liste des médicaments commercialisés en France ou encore la liste
des établissements d'enseignement supérieur.
Autre point crucial pour le secteur public : la sécurisation des données et la maîtrise des risques liés au
respect de la vie privée (données à caractère privé ou administratif) et à la protection des libertés
individuelles. L’utilisation de ces données doit être scrupuleusement contrôlée car elle doit respecter les
contraintes juridiques liées à l’utilisation ou à la divulgation de données personnelles.
Enfin, il existe une contrainte particulière associée au traitement des Big Data dans le secteur public : la
maitrise des dispositions juridiques liées aux données. Un point essentiel qui mérite d'être développé.
© 2015 CXP Page 10/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
3 – LA MAITRISE DES DISPOSITIONS JURIDIQUES
Les technologies Big Data sont nées avec le Web et avec la mondialisation des échanges informatiques. Aussi, le
défi juridique soulevé par les Big data est à la fois de portée nationale et internationale.
Les usagers français connaissent déjà l’existence des outils de reconnaissance faciale ou de lecture de plaques
minéralogiques (comme cela se pratique à l’entrée de parkings). De plus en plus sollicités par des actions de
marketing direct, ils réclament de faire valoir leur droit à l’oubli. Aussi attendent-ils du Service Public une
exemplarité sur la protection de leurs données personnelles : ils souhaitent que leur droit soit préservé en
France comme à l’étranger. Ce chapitre présente les principales législations en vigueur aujourd’hui ainsi que les
dispositions prises dans les pays Européens.
DES ORGANISMES ET DES REGLEMENTS FACE A LA MONDIALISATION
La France n’est pas le seul pays à subir la loi des grands acteurs du Web qui constituent des bases de plus en
plus riches sur les internautes du monde entier. En avril 2015, on estime qu’un internaute est déjà caractérisé
en moyenne par 3 000 attributs (pays, adresse IP, type de navigateur utilisé, adresse e-mail, nom, prénom, etc.).
Afin que les États n’encouragent pas cette inflation, une coordination européenne a été mise en place, dont le
but est de juguler la diffusion de données confidentielles. Régulièrement, des commissions et des organismes
tentent de s’organiser et de légiférer pour préserver la confidentialité des citoyens. Les différents pays
européens ont demandé aux entreprises du privé comme et au secteur public de nommer des responsables à la
protection des données. La carte ci-dessous précise la date à laquelle cette décision a été prise, l’intitulé de la
fonction et le caractère obligatoire ou facultatif de la mesure.
Les Etats ont intérêt à protéger leurs données. De même que les banques, au travers de mesures internationales
comme Bâle 3 ou l'obligation de stress tests, doivent justifier leur robustesse, les Etats devront prouver leur
capacité à protéger leurs données.
Figure 7 – Les pays Européens qui ont légiféré la fonction de Délégué à la Protection des Données
Source = La CNIL, mars 2015
© 2015 CXP Page 11/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
LA REGLEMENTATION FRANÇAISE : LE LABEL CNIL
Un projet de loi numérique français est attendu pour 2015. Afin de sensibiliser les organismes
publics et privés et de leur permettre de se préparer à leurs nouvelles obligations, la CNIL a créé
un nouveau label portant sur la gouvernance informatique et libertés par une délibération.
Publié le 15 janvier 2015 au Journal Officiel, ce label de la CNIL permet aux entreprises de se
distinguer par la qualité de leurs services. C'est un indicateur de confiance pour les utilisateurs
de produits ou de services, car il leur offre la possibilité d’identifier et de privilégier ceux qui
garantissent un haut niveau de protection de leurs données personnelles. C’est enfin la
reconnaissance par la CNIL qu’un produit ou une procédure est conforme aux dispositions de la
loi "Informatique & libertés".
Chaque label est délivré pour une durée de trois ans et se décline selon quatre référentiels :
"Audit de traitements" : l’objectif de ce label est de faire contrôler et de valider les projets en cours ou
les solutions mises en œuvre pour anticiper tout risque de plainte. Il peut s'agir de traitements
informatiques mais aussi de systèmes de vidéosurveillance et de vidéo protection devant respecter le
cadre juridique encadrant leur usage ;
"Coffre-fort numérique" : ce label valide la bonne mise en œuvre de l’accès aux données, de la
conservation des données, de l’information des personnes, de la gestion des risques et des mécanismes
cryptographiques ;
"Gouvernance Informatique et Libertés" : ce label validation des exigences relatives à l'organisation liée
à la protection des données, à la méthode de vérification de la conformité des traitements et à la
gestion des réclamations et incidents (EG) ;
"Formations Informatique et Libertés " : ce label certifie que le contenu pédagogique et le programme
ont été validés par la CNIL.
Le candidat au label CNIL doit obligatoirement disposer d’un correspondant Informatique et libertés (CIL). Il peut
en désigner un en interne ou faire appel à un prestataire externe qui pourra l’accompagner dans ses démarches
d’obtention du label. Il doit aussi justifier que son CIL bénéficie d’un budget annuel dédié et de moyens lui
permettant d’assurer ses missions.
Ce label donne aux entreprises l’opportunité de communiquer leur engagement sur la protection des données
personnelles et de la vie privée et d’en faire un avantage concurrentiel, y compris sur un plan européen, alors
que se prépare l’harmonisation de la réglementation sur la protection des données personnelles.
Un prochain règlement européen va promouvoir le principe d’ «accountability ». Il désigne et rend obligatoire la
documentation de l’ensemble des mesures internes définies et prises par un responsable de traitement ou ses
sous-traitants afin d'attester de son niveau de conformité.
Afin de se préparer à cette labellisation et de se conformer à ce principe européen, les entreprises et les services
publics doivent dès à présent nommer un responsable de leurs données et répertorier et documenter leurs
mesures de sécurité pour que celles-ci puissent être facilement auditées.
© 2015 CXP Page 12/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
4 – LES TECHNOLOGIES LIEES AUX BIG DATA
LA CONSOLIDATION DES DONNEES
Le volume de données grandissant, il devient de plus en plus contraignant de répliquer les données. Les
nouveaux systèmes, s’ils doivent consolider les données réparties dans plusieurs silos d’information, devront
limiter la réplication de l’information et éviter la prolifération des Datamarts. L’objectif d’une solution
centralisée est de conserver dans un réservoir de données unique une seule version de la donnée, servant de
multiples usages, dans le but de simplifier les architectures, limiter les désynchronisations de données et gagner
en performance.
En factorisant les systèmes, les coûts d’infrastructures, les coûts logiciels et les coûts de supervision sont réduits
d’autant. L’administration centralisée des règles de sécurité et des règles d’accès aux données permet de
réduire les coûts d’administration de la plateforme. La centralisation des informations facilite aussi la mise en
place des règles de confidentialité ainsi que des procédures d’anonymisation des données conformes aux
préconisations des législateurs.
Cette concentration des fonctions d’administration et des données concoure aussi à la performance globale des
systèmes concernés.
LA RECHERCHE DE PERFORMANCE
L’immense volume des Big Data a une incidence sur les performances des solutions. Plusieurs approches ont été
tentées ces dernières années pour exploiter au mieux ces grands volumes de données. Voici les principes qui
peuvent être retenus aujourd’hui au regard des principaux retours d’expérience des projets.
Le premier constat, concernant l’organisation des larges entrepôts de données structurées, est de privilégier les
modèles logiques normalisés, comme peuvent le faire les progiciels de gestion. Plutôt que de chercher à
modifier les modèles de données en schémas en étoile ou en flocons afin d’accélérer les restitutions, il est
préférable d’utiliser, sur une plateforme SQL performante, des modèles de données conçus pour faciliter la mise
à jour de la donnée, éviter toute duplication source d’erreur et être capable d’évoluer simplement pour
accueillir de nouvelles informations.
La non-duplication des données devient désormais la nouvelle règle et seules des contraintes très fortes,
comme par exemple l’éloignement géographique ou des besoins de site de secours, peuvent justifier la recopie
d’une donnée d’un Datacenter Européen sur un Datacenter Australien par exemple.
Lors du transport de données massif entre un système opérationnel et un système décisionnel de type Big Data,
le principe de base à privilégier sera un fonctionnement de type E L T (Extraction, Loading, Transformation)
plutôt qu’E T L (la phase de transformation réalisée pendant le transport). Les transformations de données -
mises en forme, lookups, règles de gestion - seront en priorité réalisées sur la base de données cible plutôt que
sur le serveur applicatif de l’outil de transfert, même si cela ne permet pas de tirer parti de toutes les
fonctionnalités proposées par l’ETL.
Le traitement parallèle est désormais incontournable. Les traitements longs s’exécutent en parallèle sur des
sous-ensembles de données distribués, puis restituent un résultat consolidé. Ce traitement parallèle est
aujourd’hui la seule réponse trouvée pour garantir des temps de réponses acceptables face à l’inflation des
données. Le parallélisme doit pouvoir être réalisé de bout en bout, sur toutes les étapes d’un traitement
© 2015 CXP Page 13/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
(lectures, croisements, calculs, tris …) afin d’éviter tout point de contention qui pénaliserait toute la chaîne de
traitement. Ce parallélisme ne doit pas être le fait de l’expertise de l’utilisateur mais réalisé de manière
automatique et transparente par la plateforme.
La stratégie d'allocation des ressources d’un système Big Data est primordiale pour assurer la performance. Les
outils de gestion de charge, connus sous le nom de Workload Manager ou encore de Kernel Resource
Management, sont à la fois des planificateurs de la charge de travail, des gestionnaires des ressources et des
moteurs de workflow. Leur rôle est d’optimiser l’allocation des ressources machine et de faire cohabiter des
usages très différents sur la même plateforme, permettant à chaque tâche de pouvoir s’exécuter dans les
meilleures conditions, selon son niveau de priorité et ses caractéristiques :
Des utilisateurs avancés, comme les statisticiens, les Data Scientists, les Data Miners, qui souhaitent
réaliser des requêtes complexes avec beaucoup de croissements de données,
Des centaines d’utilisateurs concurrents qui lancent leurs éditions et génèrent leur reporting,
Des traitements batchs ou temps réel qui alimentent le système en nouvelles informations.
Pour gagner en réactivité, les traitements parallèles en base de données (in-database) peuvent être complétés
par des traitements en mémoire (in-memory). Sans aller jusque monter en mémoire l’intégralité des données, il
est intéressant d’y placer les données les plus importantes, les plus récentes ou les plus accédées (données dites
très chaudes). L’accès et le traitement de ces données est alors fortement accéléré. Les autres données
pourront rester sur des supports de stockage moins couteux, le système se chargeant de monter
automatiquement en mémoire les données nécessaires. Pour les outils de restitutions et d’analyses il faudra
aussi privilégier le traitement en mémoire (In-Memory).
LE ROLE DE L'OPEN SOURCE
Avant l’avènement des Big Data, le coût des bases de données augmentait en fonction du volume de données à
gérer. Plus le serveur de données était puissant, plus la base de données coûtait cher. Gérer les Big Data au sein
d’une base de données payante était alors prohibitif.
Le Framework Hadoop est une réponse au problème. Il s'agit d’un ensemble
de programmes Java qui permettent de paralléliser un très grand nombre
d’opérations informatiques sur de larges clusters de serveurs accueillant des
données. La distribution gratuite d’Hadoop et son fonctionnement sur des
serveurs d'entrée de gamme ont permis de faire baisser les coûts, permettant la gestion d’un grand volume de
données à des prix attractifs. Un très grand nombre d’entreprises a pu se lancer dans le stockage des données
Big Data et inventer de nouveaux modèles économiques. Parmi les sociétés les plus connues qui utilisent le
framework Hadoop, on trouve Amazon Web Services, AOL, Facebook (un cluster de 2 000 serveurs), Linkedln
pour alimenter la rubrique « Les connaissez-vous ? » ou encore Twitter pour le stockage des tweets et des
fichiers logs.
Les limites d’une solution entièrement Open source : le Framework Hadoop est distribué gratuitement par la
fondation Apache. Hadoop est un système complexe à utiliser et est constitué d’un ensemble de modules qui
évoluent rapidement : Sqoop, Flume, Hive, Oozie, Pig, Mahout, Spark … Une entreprise qui réaliserait elle-même
l’intégration de ces modules devrait constituer un centre de compétences dédié afin de rester à un bon niveau
de performance, ce qui ne fait pas forcement partie la stratégie de l’entreprise. Aussi, de nombreux acteurs
proposent des installations pré-assemblées et pré-testées d’Hadoop, avec des modules d’administration et des
fonctionnalités additionnels. Ces distributions d’Hadoop - Map’R, Hortonworks, Cloudera, etc … ainsi que la
© 2015 CXP Page 14/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
souscription payante au support sont à privilégier car les équipes de ces éditeurs, basées dans la Silicon Valley,
participent au développement des nouvelles versions des composants du Framework Hadoop.
De même, Hadoop ne remplace pas un système décisionnel existant basé une base de données relationnelle
mais vient le compléter. De nombreuses solutions unifiées proposent un écosystème simplifié (base de données
relationnelle et stockage de données polystructurées) afin de simplifier et de rationaliser les plateformes.
La meilleure approche de l’Open Source : afin de bénéficier pleinement des apports de la solution Hadoop, qui
est incontestablement un constituant important de la stratégie Big Data, il convient de chercher à intégrer la
solution Hadoop au mieux au système d’information existant. Du point de vue opérationnel, il est nécessaire de
rechercher des solutions intégrées avec une administration graphique du cluster Hadoop et une console
commune avec le système information existant. Il faut aussi pouvoir utiliser le langage SQL, connu des équipes
et des logiciels actuels et rechercher des outils qui génèrent automatiquement des scripts MapReduce ou ‘R’
pour pouvoir exploiter les données contenues dans Hadoop sans trop investir dans le conseil ou la formation.
Comme tout outil informatique qui est choisi en fonction de besoins métiers, il est très important, avant de
commencer un projet Big Data, de s’assurer de l’existence d’un véritable cas d’usage métier, de vérifier qu’une
solution en mode Cloud locatif (par exemple : suivi des campagnes marketing, analyse de la fraude, analyse e-
réputation, etc…) n’existe pas sur le marché pour ce besoin et que l’investissement sur la plateforme et les
formations donneront bien lieu à un retour sur investissement assez rapide.
L’AGILITE
Les systèmes décisionnels historiques ont montré leur capacité à produire un reporting automatisé, désormais
indispensable aux entreprises, mais leur manque d’agilité leur est souvent reproché. L’agilité d’une solution Big
Data doit être envisagée avant sa mise en œuvre. Elle s’appuie sur les principes suivants : une simplification de
l’administration et une mise à disposition de fonctions Self-Service pour les utilisateurs.
La simplification de l’administration s’appuie sur une plateforme commune entre l’opérationnel et l’analytique
permettant de simplifier l’infrastructure, réduire le nombre de matériels, d’applications et de logiciels
d’administration et de supervision. Certaines solutions, disponibles sous forme d’Appliance, proposent des
matériels et des logiciels optimisés et préinstallés pour la gestion des Big Data. Dans ce cas, le client bénéficie
d’un seul interlocuteur pour l’ensemble de la solution, avec lequel il peut contracter un engagement de service
pour l’ensemble de la solution (SLA, Service Level Agrement). L’efficacité opérationnelle ainsi dégagée vient
contrebalancer l’achat d’une plateforme intégrée.
Des fonctions simplifiées pour l’utilisateur. La Business Intelligence a beaucoup fait pour simplifier l’accès des
utilisateurs à l’information structurée de l’entreprise. Les utilisateurs souhaitent désormais pouvoir exploiter les
données poly-structurées, des algorithmes de la théorie des graphes, de la recherche des chemins, des
fonctions de classification (clustering) ou encore de Data Discovery.
Une plateforme agile permettra de mettre à disposition de l’utilisateur un espace de travail (du stockage, de la
puissance de calcul) le temps de son travail. Ces capacités d'autoprovisionning (allocation automatique de
ressources) autorisées et supervisées par l’administrateur du système, offrent une grande souplesse
d’administration et permettent des scénarios d’expérimentation et de Fail-Fast
Découverte de tendances, d’Insight
Recherche de tentatives de fraude, hypothèses de défaillance client, recherche de corrélation
Expérimentation de concepts avant remise en main aux équipes informatiques pour industrialisation.
© 2015 CXP Page 15/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Une plateforme intégrée, proposant des fonctions Plug & Play et une administration simplifiée, permettra de
couvrir économiquement les nombreux usages attendus d’une plateforme moderne de Big Data.
© 2015 CXP Page 16/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
5 – APPLICATIONS ET USAGES
UN ENORME CAPITAL INFORMATIONNEL
L’État possède incontestablement un immense capital informationnel. Sans compter les ministères, de
nombreux organismes disposent de bases d’informations très riches : citons, entre autres, la Coface, la
Bibliothèque publique d’information (BPI), l’Agence Française pour le développement international des
entreprises (UBIFRANCE), ou encore l’Institut National de la Propriété Industrielle (INPI).
Les usagers souhaitent pouvoir accéder à toutes ces informations et pouvoir interroger des annuaires de
données qui recensent, ordonnent, aident à comprendre les données, qu’elles soient traitées et mises à
disposition du public par l’Etat (data.gouv.fr), par les collectivités locales (data.nantes.fr) ou par le privé (data-
publica.fr). Ces données publiques représentent une opportunité pour les individus (simples citoyens, militants
et journalistes), les entreprises (grandes et petites) et l’Etat.
DE NOMBREUSES INITIATIVES
L’état français a pris la mesure du sujet et a lancé un vaste programme d’investissement dans le domaine du
numérique. Plus de 150 millions d’€ d’aides à la recherche et au développement ont été alloués dans les
domaines suivants :
Le logiciel embarqué et objets connectés (l’internet des objets, les capteurs),
Le calcul intensif et la simulation numérique,
Le cloud computing et technologies d'exploitation massive des données ("Big Data"),
La sécurité des systèmes d'information.
L’École Polytechnique vient de créer une chaire « Data Scientist » et plusieurs écoles et Universités ont lancé
leur cursus « Big Data ». Enfin des formations en ligne sur ce sujet, disponibles sur le Web, des MOOC, Massive
Online Open Courses, sont diffusés depuis les Etats Unis.
Parmi les dernières initiatives en date, le programme VITAM (Valeurs immatérielles transmises aux archives
pour mémoire), lancé le 10 mars 2015, est chargé de collecter, conserver et communiquer au public les
documents numériques produits par les ministères et administrations centrales de l’Etat.
CAS D’USAGE
Le Cloud et la mobilité sont entrés dans le quotidien du citoyen. Un citoyen qui souhaite pouvoir accéder
partout à des informations toujours plus nombreuses pour améliorer ses conditions de circulation, identifier le
meilleur trajet, obtenir des informations sur la société. Tout en souhaitant préserver son identité, échapper aux
caméras de surveillance et bénéficier d'une vraie transparence sur l’accès aux informations et sur l’usage qui est
fait de ses données.
Nous avons recueillis des témoignages dans plusieurs domaines différents : la recherche et les biblothèques
nationales. Des projets Big Data qui illustrent bien les différents engagements de l’État dans les projets Big Data.
Enfin nous terminerons sur la coordination des différents projets et la sur la gouvernance des données.
© 2015 CXP Page 17/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Applications et usages
>>>>>
© 2015 CXP Page 18/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
INTERVIEW - Jean-Michel ALIMI, Directeur de Recherche au LUT
« Les limites des simulations numériques repoussées grâce aux
Big Data »
Jean-Michel Alimi, Directeur de Recherche au CNRS, nous
présente une partie des travaux réalisés par son équipe sur la
simulation numérique en cosmologie au Laboratoire Univers et
Théories, Observatoire de Meudon, des calculs qui ont
nécessité plus de 150 pétaoctets de données.
A l’Observatoire de Paris, avec votre équipe, vous avez entrepris de modéliser l'univers du Big Bang.
Pouvez-vous nous présenter les grandes étapes de ce projet ?
Jean-Michel Alimi. Le projet DEUS, Dark Energy Universe Simulation, dont j’ai la responsabilité a débuté il y a dix
ans, son objectif est de comprendre l’origine de la structuration et la nature du contenu de notre univers et
spécialement la nature de l’énergie noire. Plus récemment, en 2012 nos efforts ont permis de réaliser la première
simulation mondiale de structuration de TOUT l’Univers observable du Big Bang jusqu’à aujourd’hui. C’est la taille
gigantesque des volumes manipulés qui en fait un projet Big Data remarquable, voire hors norme : alors que 150
Po de données sont générés durant les calculs, 2 Po de données ont été finalement conservés après un processus
de sélection très optimisé. Pour ce faire, l’équipe scientifique s’est appuyée sur le supercalculateur Curie qui
après 30 millions d’heures sur 76 032 cœurs de calcul, plus de 300 To de mémoire et un débit disque de plus de
50Go/sec aura permis d’expulser vers un système de fichiers parallèle les données produites par le calcul.
Quelles sont les précautions à prendre lorsque l’on se lance dans un projet Big Data de cette nature ?
J-M.A. Malgré la puissance de calcul et la capacité de stockage dont nous disposions, nous avons dû optimiser de
façon extrême l’ensemble des opérations. Toutes les facettes de la simulation haute performance ont été
sollicitées : le temps de calcul, l’usage de la mémoire, les schémas de communication, la gestion des
entrées/sorties. Tout devait être optimisé au même instant en exploitant toutes les ressources disponibles.
La sélection des données et leur analyse sont deux phases critiques qu’il faut savoir préparer. Il est indispensable
de retenir les données essentielles au calcul, mais aussi garder à disposition des informations qui pourraient
intervenir dans la modélisation ou être corrélées avec d’autres résultats. Si la plupart des données concerne le
projet Dark Energy qui vise à étudier la dynamique de l'expansion de l'univers et la croissance de structure à
grande échelle, de très nombreuses données sont conservées à des fins exploratoires pour de nombreuses autres
questions de cosmologie. Chaque année de nouveaux calculs, de nouvelles analyses nous conduisent encore à
générer près de 200 téraoctets de nouvelles données et la gestion de ce volume de données est un souci
quotidien.
Comme nous partageons le résultat de nos recherches avec d’autres laboratoires répartis sur l’ensemble de la
planète, nous sommes régulièrement confrontés à la latence des réseaux transcontinentaux, qui nous limite dans
la recopie et la mise à disposition de données.
© 2015 CXP Page 19/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Comment sont partagés ces résultats ? Y-a-t-il une exploitation commerciale des analyses réalisées ?
J-M.A. Du fait de leur complexité, les calculs scientifiques ne sont directement utilisés que par des chercheurs
très spécialisés dans le monde. Aussi, pour rendre les résultats accessibles à une plus large population, nous
avons réalisé par exemple des animations vidéo permettant de retracer toute l'histoire de l'Univers du Big Bang
jusqu'à aujourd'hui. La fabrication de ces animations n’est possible que grâce aux technologies Big Data. Ces
vidéos ont été par exemple diffusées aux journaux du 20h00, gracieusement offertes. Ces travaux sont rarement
commercialisés car la connaissance de notre l’univers n’a pas de prix ! Vous le savez, comme le disait Albert
Einstein, « tout ce qui compte ne se compte pas et tout ce qui se compte ne compte pas ! »
Dans ce domaine, la philosophie qui prédomine chez les chercheurs du monde entier est un état d’esprit ouvert
et une tradition de partage. Nous travaillons en partenariat avec de très nombreux centres de calculs, de
nombreuses équipes avec qui nous échangeons beaucoup de données : des données issues de simulations
numériques mais également des données réelles issues d’observation que nous confrontons à nos prévisions.
Nous interagissons également avec de nombreuses équipes de recherches spécialisées dans les simulations
numériques au-delà de notre discipline scientifique : avec des équipes de sismologie, de physique des particules,
ou encore de mécanique des fluides.
Ces données ont donc une vocation publique. La question de la sécurité porte donc plus sur la
préservation des données ?
J-M.A. En effet, les difficultés de la gouvernance de ces données concernent davantage la mise à disposition des
données et leur sauvegarde que la sécurisation de l’accès. Les énormes volumes de données limitent les
possibilités de recopies et exigent une grande rigueur quant à leur diffusion afin de ne pas risquer une
multiplication des volumes. Nous sommes hébergés par de grands centres de données qui prennent en compte le
risque d’incendie et de perte des données, mais nous devons sans cesse arbitrer sur les volumes et sur les
conditions de mise à disposition de ces données.
© 2015 CXP Page 20/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
INTERVIEW – Emmanuelle Bermes, BnF
« Le volume d’informations numériques a largement dépassé la
production littéraire.»
Emmanuelle Bermes est adjointe pour les questions
scientifiques et techniques auprès du Directeur des
services et des réseaux Bibliothèque nationale de
France. Elle dresse un panorama du rôle des données
dans la gestion des Bibliothèques et de l’apport des
nouvelles technologies dans la gestion des Big Data.
La gestion des grands volumes de données dans les bibliothèques nationales a-t-elle évoluée ces
dernières années depuis l’apparition du phénomène Big Data ?
Emmanuelle Bernes. Les bibliothèques nationales sont confrontées aux grands volumes de données depuis les
années 90, lorsque les premiers chantiers de numérisation des ouvrages ont commencé. Nous disposons
actuellement de plus de 3 millions de documents numérisés, nous avons appris à les gérer. Les bibliothécaires ont
une grande tradition de normalisation, de création de métadonnées et d’échange de données structurées. Un
format international d’échange de données documentaire existe depuis les années 1960 – MARC pour MAchine-
Readable Cataloging – avec sa déclinaison INTERMARC pour la Bibliothèque nationale de France. Nous utilisons
de nombreux référentiels internationaux pour coder nos métadonnées (code langues ISO, code pays ISO,
identifiants comme l’ISBN pour les livres ou l’ISNI pour les auteurs, etc..) : ce formalisme nous permet d’échanger
des données à la fois entre bibliothèques mais aussi entre pays.
Après cette première phase d’acquisition et de numérisation, l’avènement de Google en 2005 et de ses capacités
de recherche plein texte, le travail d’interprétation des documents numérisés s'est accéléré. Nous avons de plus
en plus utilisé l’OCR (Optical Character Recognition) pour transformer les documents numérisés en éléments
interrogeables et nous nous sommes mis à l'usage d'algorithmes de recherche.
Le troisième phénomène a été la production massive de documents numériques. Avec la généralisation des
ordinateurs individuels et des caméras numériques, les documents, les blogs, les vidéos ont proliféré sur le Web.
Les documents étaient désormais au format numérique natif, et il fallait les prendre ainsi en compte dans nos
bases documentaires.
Quelles ont été les conséquences de cette prolifération d’informations disponibles sur le Web ?
E.B. Depuis 2006, le dépôt légal a été étendu aux sites internet : toute information publiée en ligne doit être
conservée. C’est un travail que nous partageons avec l’INA, l’Institut national de l'Audiovisuel, qui est en charge
des sites internet de la radio et de la télévision. De notre côté nous collectons chaque année 4 millions de sites
internet français, dont 23 titres de presse quotidienne nationale et régionale (Ouest France, Le Républicain
Lorrain, Médiapart…) qui entrent chaque jour dans nos collections de manière automatique. Le volume
d’information est gigantesque : plus de 567 To de données, et ce volume croît chaque jour.
© 2015 CXP Page 21/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Existent-ils des progiciels pour gérer ces informations ?
E.B. Du fait du caractère exceptionnel du volume de données, la plupart des systèmes que nous utilisons sont
spécifiques. Il existe bien des solutions de gestion intégrées de bibliothèque et de gestion électronique de
documents commercialisées par des sociétés comme Archimed, BiblioMondo ou Ex Libris, mais elles ne
répondent pas aux spécificités d’une bibliothèque nationale (gestion du dépôt légal et des fonds patrimoniaux, en
particulier). La plupart de ces logiciels offrent toutefois la possibilité, pour les bibliothèques qui les utilisent, de
récupérer les informations que nous produisons sur les ouvrages, à partir du catalogue de la BNF
http://catalogue.BnF.fr/. Souvent, ils sont également capables de traiter d’autres sources de données comme
decitre.fr ou electre.com.
Pour gérer l’accès à de très grands volumes d’informations, nous utilisons des moteurs de recherche comme
CloudView d’Exalead (pour la bibliothèque numérique Gallica.bnf.fr) ou le moteur open source Lucene (pour le
catalogue général). Nous avons aussi créé des sélections basées sur des corpus numérisés – le sport, les
manuscrits – des corpus d’albums photographiques ou encore des corpus plus originaux comme celui des
partitions du fonds musical de la Bibliothèque Royale. Ces corpus réunis par des spécialistes des collections sont
consultables dans la bibliothèque numérique gallica.BnF.fr.
De plus, nous avons signé des partenariats avec d’autres fonds documentaires – bibliothèques, e-distributeurs –
qui nous permettent aussi de référencer des ouvrages, des documents ou des vidéos que nous ne détenons pas
en propre.
Les attentes des lecteurs et usagers de la BnF ont-ils changé avec la révolution numérique ?
E.B. Oui, bien sûr, la généralisation des moteurs de recherche des géants du Web a eu un fort impact sur les
différentes manières d’accéder à l’information. Les utilisateurs souhaitent de plus en plus interroger les systèmes
en langage naturel, plutôt qu’en suivant des menus. On peut aussi exploiter les « traces » laissées par les lecteurs
dans le cadre de leur consultation : un exemple concret est le portail tactiques.org/prevu des prêts de la
bibliothèque universitaire Paris 8 qui propose des statistiques sur les emprunts : le nombre de prêts de l’ouvrage,
l’âge moyen des emprunteurs, etc. Le système compile toute l’activité des prêts et en quelques clics vous accédez
à l’ensemble des prêts ventilés par secteur (psychologie, droit administratif, cinéma, sociologie), par langue
(français, anglais...), par répartition géographique, et à des classements comme le Top 10 des livres empruntés
parmi les 324401 prêts des deux dernières années.
Nous travaillons aussi beaucoup autour des outils de datamining et de recherche sémantique, nous suivons de
près les progrès du Web sémantique. Nous menons avec l’école Télécom ParisTech des recherches sur les usages
du patrimoine numérique des bibliothèques et sur l’exploitation des statistiques d’usage de Gallica.
De nombreux acteurs du Web souhaitent monétiser leurs données et se positionnent comme des
DaaS, Data As A Service. Cela a-t-il du sens dans de le cadre de la BnF ?
E.B. Nous ne cherchons pas à monétiser les informations, mais au contraire à diffuser le plus largement possible
le contenu que nous gérons, tout en prenant soin de veiller aux contraintes juridiques et aux différents droits sur
les œuvres. C’est la raison pour laquelle nous avons adopté, pour la diffusion de nos données publiques, la licence
publique de l’Etat élaborée par la mission Etalab. Par ailleurs, la BNF publie régulièrement les catalogues de ses
collections, les catalogues d'expositions et des documents inédits.
© 2015 CXP Page 22/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
INTERVIEW - Henri Verdier
Administrateur général des données de l’État
« La transformation numérique de l'action publique
passe par une bonne gouvernance des données »
Henri Verdier, Administrateur général des données de l’Etat - en anglais
Chief Data Officer - présente le phénomène des Big Data non plus sous
l’angle de l’entreprise privée qu’il connait bien, mais sous celui des
politiques des données de l’Administration française. Il évoque ici sa
vision du potentiel des données possédées par l’État face aux
champions de l’économie numérique.
Henri Verdier, dans le cadre de votre nouvelle mission d'administrateur des
données publiques, comment définissez-vous l'économie numérique ?
Henri Verdier. L’économie numérique est la rencontre entre deux écosystèmes : le
monde de la recherche technologique et de l’algorithmique avec celui de l’activité
réelle, deux écosystèmes qui ne se rencontrent que très rarement, ou du moins pas
assez souvent dans un monde en perpétuelle évolution. En tant qu'administrateur des
données publiques, notre rôle consiste à faciliter ces échanges, à insuffler les avancées
technologiques et surtout les nouvelles méthodes de gestion des données dans les
rouages existants. Le but est bien sûr de permettre à l’action publique de bénéficier
des mêmes moyens que les entreprises privées. Nous souhaitons mettre à disposition
d’une équipe de datascientists des données en très grand nombre afin que leurs
analyses puissent orienter les politiques à venir. Avec, toujours en ligne directrice, la
baisse des coûts des processus, un meilleur service public rendu et la modernisation du
système d’information de l’État. Toutes les organisations sont concernées : les services
publics, les administrations, les services déconcentrés comme les collectivités locales.
Votre service est rattaché au DISIC, la direction interministérielle des systèmes d’information et de
communication, qui vise à améliorer le service rendu à l’usager et à l’agent et à accroître la valeur
ajoutée des systèmes d’information. Comment votre expérience du numérique et des Big Data peut-
elle contribuer à l’atteinte de ces objectifs ?
H.V. Nous intervenons comme force de proposition et comme influenceur. Nous veillons d’abord à l’usage des
données, en privilégiant l’ouverture des données publiques, un meilleur partage, plus de modernité et de
transparence, et une centralisation accrue pour une exploitation facilitée. Et surtout nous cherchons à insuffler
une nouvelle approche sur les données, proches des pratiques réalisées sur les Big Data, mêlant données
Henri Verdier a dirigé l’Etalab, un
service rattaché au Secrétariat
général pour la modernisation de
l’action publique, dont la mission
était de faciliter la réutilisation la
plus large possible des
informations publiques. Le
portail unique interministériel
Etalab, data.gouv.fr, rassemble et
à met à disposition du public
l’ensemble des informations
publiques de l’Etat.
Henri Verdier est également le
membre fondateur du pôle de
compétitivité Cap Digital et, à
cette occasion, a rencontré la
plupart des start-up françaises
qui se lançaient dans les
nouvelles technologies.
En septembre 2014, il a été
nommé par le gouvernement
Administrateur des données de
l’État.
© 2015 CXP Page 23/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
polystructurées, Data Science et techniques d’apprentissage automatiques. Systématiquement impliqué dans les
projets structurants et manipulant de grands volumes de données, notre service essaie d’imposer une visibilité
sur le stockage des données nécessaire à l’automatisation du processus, pour rechercher une corrélation, une
synergie avec d’autres silos de données existants dans l’administration, afin que le rapprochement des données
vienne enrichir le capital informationnel de l’État. Ce travail est complexe et doit être réalisé en amont pour
pouvoir influer sur l’architecture de la solution, en proposant par exemple des Web API, des ouvertures pour lire
la donnée qui demain aura autant de valeur que le processus optimisé lui-même. C’est une démarche disruptive :
elle présente la donnée comme un bien commun, utile au pilotage des activités et aussi à l’évaluation des
politiques menées.
La fonction d’Administrateur général des données de l’État est nouvelle en France, quelles sont vos
sources d’inspirations et les modèles sur lesquels vous pouvez vous appuyer ?
H.V. La fonction de Chef Data Officer est de plus en plus présente dans les grandes entreprises internationales
ainsi que dans les grandes villes américaines, telles que New York ou San Francisco. De très nombreuses
initiatives y sont menées. Par exemple, New York compte une million d’immeubles dont 3 000 environ prennent
feu chaque année. En croisant les données de plusieurs systèmes d’information – la pauvreté du quartier, l’âge de
l’immeuble, la date des derniers travaux réalisés, le nombre de loyers impayés, la présence ou non de squatters,
la présence ou non d’un gardien – plus de 60 critères en tout, un algorithme a permis de déterminer où les 341
unités de pompiers de la ville doivent concentrer leurs visites de contrôle. Ce système a permis de rendre ces
contrôles pertinents dans 73% des cas au lieu de 13% auparavant. Voilà le type d’optimisation et d’amélioration
du service public que peuvent procurer une bonne gestion des données et l’apport des nouvelles technologies.
Personne ne gagnera seul le défi des Big Data. La collaboration des services est un élément clé de la stratégie
pour pouvoir offrir des services qui soient proches de la qualité que les usagers peuvent rencontrer par ailleurs.
Par exemple, nous menons actuellement une expérimentation associant l’IGN, La Poste et Open Street Map pour
créer un référentiel ouvert de la géolocalisation de toutes les adresses qui pourra être utilisé par tous les services.
Nous souhaitons aussi apporter de la modernité dans le pilotage des projets informatiques, en proposant des
cycles plus courts, favorisant la réutilisation des données ou des services déjà en place, et en traitant très en
amont les problématiques législatives, d’éthique et de confidentialité, incontournables dans tous les projets liés
aux données, toujours en concertation avec les organismes comme la CNIL, la CADA ou encore l'AFNIC. La prise
en compte d’une bonne gouvernance des données et de son exploitation a posteriori sera un véritable levier de la
transformation numérique de l’action publique.
© 2015 CXP Page 24/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
A propos de
>>>>>
© 2015 CXP Page 25/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
A propos de Teradata
Teradata France
Antony Parc 1
2/6 Place du général de Gaulle
92184 Antony cedex
Tél : +33 1 81 89 15 00
Site Internet : http://fr.teradata.com/government/
Teradata (NYSE : TDC) est le spécialiste des plates-formes analytiques de données et des applications et services
marketing. Les produits et services novateurs de Teradata offrent aux entreprises des solutions d'intégration de
données et une approche métier qui leur permettent de prendre les meilleures décisions possibles et de se
doter de véritables avantages concurrentiels. Bureaux à Dayton, Ohio ; San Diego, Atlanta et Indianapolis ;
Bureaux en Amérique du Nord et Amérique du Sud, en Europe, au Moyen-Orient, en Afrique (EMEA), ainsi que
dans la zone Asie et Japon. Teradata compte 11 500 salariés dans plus 40 pays
Industries ciblées : Services financiers et assurance, gouvernement et services publics, santé, Sciences de la
vie ,eCommerce, media numériques, divertissement, commerce de détail, industrie,
pétrole et gaz, hôtellerie, télécommunications, voyage et transport, service public.
Leadership : Teradata collabore avec plus de 2600 clients dont 1800 utilisent les applications
Teradata parmi lesquels :
 15 des 20 premières banques mondiales
 18 des 20 premières entreprises mondiales de télécommunications
 Les 6 premières compagnies aériennes mondiales
 14 des 20 premières agences de transport et de voyage
 15 des 20 premiers détaillants mondiaux
 11 des 20 premières sociétés de l’industrie de la santé
 11 des 20 premières sociétés du monde de l’industrie
Chaque jour, plus de 3 millions d'utilisateurs dans le monde entier accèdent à un
environnement Teradata analytics ou applications marketing dans le cadre de leur
travail dans quasiment tous les secteurs.
Une sélection de
partenaires
Accenture, Adam Software, Alteryx, Attensity, Brierly, Capgemini, Celebrus, Cloudera,
Cognizant Technology Solutions, Deloitte Consulting, ESRI, Fuzzy Logix, Harte Hanks,
HortonWorks, IBM: Global Business Services, IBM Cognos, Guardium, InfoSphere,
Optim, and SPSS; Informatica, LiveRamp, MapR, Microgen, Microsoft, MicroStrategy,
Oracle, Protegrity, Qlik Technologies, Inc., Revolution Analytics, SAP, SAS, Tableau,
Tibco, Urban Airship, Webtrends, Wipro & Wherescape.
© 2015 CXP Page 26/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Une sélection de clients
français
SFR, Bouygues, Orange, BNP PARIBAS, Air France, SNCF, Geopost, ERDF,
Carrefour, Auchan, Intermarché, Monoprix, ADEO Canal+, Banque Accord., Société
Générale, LCL, iBP, CA, Française des jeux…..
Direction : Mike Koehler, Président-Directeur Général
Hermann Wimmer, Co - President, Teradata Data & Analytics
Bob Fair, Co-président Teradata Marketing Applications
Dan Harrington, Executive Vice President, Global Consulting and Support Services
Stephen Brobst, Chief Technology Officer
Eric Joulié, Président Teradata France et Vice Président Western Europe, Southern
et Middle East Africa
Thierry Teisseire, Directeur Teradata Applications France et Europe de l’ouest
Les biographies sont disponibles sur le site : www.teradata.com
Prix et récompenses
Teradata est reconnue par les analystes, la presse et les groupes de réflexion pour son leadership dans le
domaine des solutions d'entrepôts de données, des solutions analytiques d'entreprise, du marketing intégré,
ainsi que dans le domaine du Big Data.
La liste complète des prix remportés par Teradata et ses dirigeants, disponible sur le site Teradata
Teradata® Unified Data Architecture™
Teradata Unified Data Architecture™ est au cœur des solutions orientées données de Teradata. Cette
architecture permet aux organisations et entreprises d’analyser tous types de données hébergées par différents
systèmes Teradata. L’architecture UDA tire avantage des technologies évoluées de Teradata, de la plateforme
Teradata Aster Discovery, de l’environnement open-source Apache™ Hadoop® et de nos partenaires
technologiques : les utilisateurs métier peuvent exécuter, à la demande, les requêtes de leur choix sur toutes les
données à disposition, quelle que soit la fonction analytique choisie. Cette architecture associe des modules
logiciels - Teradata Viewpoint, Teradata Connectors et Teradata Vital Infrastructure – et matériels – une suite
complète d’appliances Teradata dédiées aux entrepôts de données, ainsi que les produits Teradata Aster
Discovery et les solutions dédiées à Hadoop. Avec l’architecture UDA, les organisations accèdent, utilisent et
gèrent toutes leurs données structurées ou non.
Teradata QueryGrid™, dévoilé en 2014, constitue une innovation majeure qui propulse les utilisateurs d’UDA
aux avant-postes des technologies de base de données. Elle leur offre un accès transparent et en self-service aux
données et à des fonctions analytiques exécutables sur différents systèmes, à partir d’une seule instance de
Teradata Database ou requête Aster Database.
Teradata Database – notre plateforme logicielle phare est reconnue en tant que référence pour analyser et
traiter des données toujours plus volumineuses et complexes, proposer des requêtes pertinentes, offrir des
performances optimales et encourager la rentabilité d’un tel investissement.
© 2015 CXP Page 27/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Les plateformes Teradata spécifiques à la gestion des charges de travail sont des systèmes pouvant être
utilisés sur l’ensemble du périmètre d’entreprise: entrepôts de données actifs, entrepôts de donnés unifiés et
multi-métiers, appliance d’entrepôts d’entrée de gamme, référentiels de données spécifiques ou
environnements de type sandbox. Ces plateformes utilisent les technologies SMP (symmetrical multi-
processing) ou MPP (Massively Parallel Processing), et sont reconnues pour leurs hautes-performances, leurs
évolutivité et leur simplicité en matière de support.
Teradata Aster Discovery Platform. Cette gamme de produits offre des fonctionnalités telles que Teradata Aster
SQL-MapReduce®, Graph Analytics, Teradata Aster File Store ™, ainsi que le framework Teradata Aster SNAP
(Seamless Network Analytic Processing)™. Ces innovations permettent une visibilité détaillée et riche au cœur
de données aux structures différentes, issues de sources Web, de réseaux de capteurs, de réseaux sociaux, de
travaux de génomique ou autres. Associées aux fonctions de traitement analytique et aux entrepôts de données
de Teradata, ces solutions apportent à ses utilisateurs de nouveaux angles de visibilité qui font défaut aux outils
des autres éditeurs : niveaux de détail plus précis sur les données, génération accélérée de cette visibilité
détaillée, ainsi que de nouvelles fonctions de visualisation.
Teradata Aster Big Analytics Appliance optimise la génération de valeur à partir des données. Cette appliance
associe la plateforme open source Hadoop d’Apache et Teradata Aster Discovery Platform au sein d’une
appliance unique, parfaitement intégrée et optimisée.
Teradata Portfolio for Hadoop – Cette suite flexible de produits et de services permet d’intégrer Hadoop au sein
d’un environnement Teradata et de l’adosser à une architecture d’entreprise élargie, tout en bénéficiant de
services et d’un support de premier rang fournis par Teradata. Cette solution intègre des produits et services
adaptés à tous les budgets et niveaux de maturité vis-à-vis de Hadoop : versions de distribution Hadoop,
appliances intégrées, ainsi que des services de conseils et de support sur les matériels existants chez les clients.
Services Teradata
 Services de conseils professionnels Teradata - Nos centres d’expertises répartis dans le monde entier
emploient des professionnels formés et complètent les équipes locales de conseil en exploitant notre base
de connaissances accumulées et en fournissant des ressources de conseil à l'étranger le cas échéant.
 Les services d'assistance à la clientèle Teradata - Cette assistance revêt une importance croissante pour les
environnements d'entreposage de données stratégiques de nos clients, à savoir ceux qui fonctionnent 24
heures sur 24, 7 jours sur 7.
© 2015 CXP Page 28/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
A propos du CXP
Le Groupe CXP est le premier cabinet européen indépendant d’analyse et de conseil dans le domaine des
logiciels, des services informatiques et de la transformation numérique.
Il offre à ses clients un service complet d’assistance pour l’évaluation, la sélection et l’optimisation de solutions
logicielles et les accompagne dans leur transformation numérique. Le CXP intervient dans plus d’une dizaine de
domaines (BI, gestion de contenu, ERP, finance, SIRH, CRM, BPM, IT management, sécurité du SI…).
Le Groupe CXP assiste également les DSI dans l'évaluation et la sélection des ESN et les accompagne dans
l’optimisation de leur stratégie de sourcing et dans leurs projets d'investissements.
Enfin, le Groupe CXP aide les éditeurs et les ESN à optimiser leur stratégie et leur go-to-market à travers des
analyses quantitatives et qualitatives ainsi que des prestations de conseil opérationnel et stratégique. Les
organisations et les institutions publiques se réfèrent également à nos études pour développer leurs politiques
informatiques.
Capitalisant plus de 40 ans d’expérience, implanté dans 8 pays (et 17 bureaux dans le monde), fort de 140
collaborateurs, le Groupe CXP apporte chaque année son expertise à plus de 1 500 DSI et directions
fonctionnelles de grands comptes et entreprises du mid-market et à ses fournisseurs. Le Groupe CXP est
composé de 3 filiales : le CXP, BARC (Business Application Research Center) et PAC (Pierre Audoin Consultants).
Le CXP et le Secteur Public c’est :
Des Dossiers de recherche et des Études :
- Portail citoyen
- Dématérialisation dans les collectivités
- Open Data
- Etat d’avancement de la directive européenne INSPIRE
- Réforme DIT & DICT versus SIG
- GBCP & SI financier
- SIRH pour le secteur public
Un Club Secteur Public CXP
Le CXP a créé en juin 2011 un Club Secteur Public destiné aux collectivités locales et territoriales,
ministères, organismes et entreprises publiques pour mieux répondre aux demandes d’évolution et aux
problématiques spécifiques en termes de progiciels (en mode licence, Cloud/SaaS, Open Source…).
Le Club réunit actuellement près de 120 membres et propose tout au long de l’année des ateliers et Web
Conférences sur des thématiques d’actualité (dématérialisation, portail citoyen, archivage, gestion de
contenus, Big Data, ville connectée, mutualisation des services,…). Une rencontre entre décideurs du
secteur public et éditeurs est également organisée chaque année, la prochaine Journée Secteur Public se
déroulera Jeudi 5 novembre 2015 à Paris.
Un vivier de répondants
La notoriété du CXP sur le marché français nous permet d’avoir des relations suivies avec un grand nombre
d’acteurs. Outre nos +1 500 clients utilisateurs (DSI et Directions fonctionnelles), notre lettre hebdomadaire est
envoyée à plus de 30 000 contacts et notre site Web fait l’objet de plus de 50 000 visites par mois.
© 2015 CXP Page 29/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
De nombreuses études dans le domaine des Services Publics
Nous réalisons de nombreuses études dans ce domaine. Voici les dernières parutions du CXP qui évoluent avec
l’état de l’art du marché :
• La Performance dans les services publics, un livre blanc sur les enjeux et les pistes d’amélioration,
réalisé à partir d’une enquête menée auprès des professionnels du Secteur Public.
• Secteur Public – Le Portail Citoyen au service des usagers. Une étude complète sur les 8 principales
solutions logicielles de portail web présentes en France pour les mairies et collectivités territoriales
AUTRES PUBLICATIONS PROPOSÉES PAR LE CXP
DOSSIERS DE RECHERCHE
- ERP en open Source : une alternative crédible ?
- GBCP : Impacts sur le Système d’Information
- Pourquoi monter un projet MDM ?
- Améliorer son BFR : méthodes et outils
- Secteur public : les spécificités de la gestion des RH
- Big Data : mesurer la performance des activités publiques
AUTRES ETUDES ET BENCHMARKING DE SOLUTIONS
- Gestion des achats et relations fournisseurs
- Solutions de planification
- Plates-formes décisionnelles
Des prestations de conseil
Le Consulting CXP propose un ensemble de prestations spécifiquement conçues pour vous aider à réussir vos
projets :
• Audit de vos outils informatiques et organisation
• Etudes des objectifs, des besoins cibles et éléments d’opportunités de lancer le projet
• Réalisation de cahier des charges et formalisation d’appel d’offres publics
• Aide à la renégociation de contrats, dépouillement d’Appels d’Offres publics
• Assistance à maîtrise d’ouvrage.
Pour toute information :
Le Service Clients CXP
relation_client@lecxp.com
+33 (0)1 53 05 05 90
www.cxp.fr
Le CXP – 13 rue le Sueur – 75116 PARIS – 01 53 05 05 53 – www.cxp.fr

Weitere ähnliche Inhalte

Was ist angesagt?

Presentation pfe
Presentation pfePresentation pfe
Presentation pfezinebcher
 
Rapport PFE Ingénieurs - ULT-2016 - Hamza Mefteh fini
Rapport PFE Ingénieurs - ULT-2016 - Hamza Mefteh finiRapport PFE Ingénieurs - ULT-2016 - Hamza Mefteh fini
Rapport PFE Ingénieurs - ULT-2016 - Hamza Mefteh finiHamza Mefteh
 
Mémoire : Cloud iaas Slim Hannachi
Mémoire :  Cloud iaas Slim HannachiMémoire :  Cloud iaas Slim Hannachi
Mémoire : Cloud iaas Slim Hannachislim Hannachi
 
Projet de fin étude ( LFIG : Conception et Développement d'une application W...
Projet de fin étude  ( LFIG : Conception et Développement d'une application W...Projet de fin étude  ( LFIG : Conception et Développement d'une application W...
Projet de fin étude ( LFIG : Conception et Développement d'une application W...Ramzi Noumairi
 
Projet mahfoudh 20 06 2013
Projet mahfoudh 20 06 2013Projet mahfoudh 20 06 2013
Projet mahfoudh 20 06 2013MAHFOUDH CHEBIL
 
Gestion d'erreurs et accès à distance
Gestion d'erreurs et accès à distanceGestion d'erreurs et accès à distance
Gestion d'erreurs et accès à distanceahmed oumezzine
 
Rapport de stage maritime
  Rapport de stage maritime  Rapport de stage maritime
Rapport de stage maritimeRabah HELAL
 
L'émergence de nouveaux modèles de bibliothèques ?
L'émergence de nouveaux modèles de bibliothèques ?L'émergence de nouveaux modèles de bibliothèques ?
L'émergence de nouveaux modèles de bibliothèques ?Dujol Lionel
 
Présentation de mon PFE
Présentation de mon PFEPrésentation de mon PFE
Présentation de mon PFENadir Haouari
 
Eléments d'hydrologie de surface
Eléments d'hydrologie  de surfaceEléments d'hydrologie  de surface
Eléments d'hydrologie de surfaceSouhila Benkaci
 
Rapport du projet fin d'etudes
Rapport du projet fin d'etudesRapport du projet fin d'etudes
Rapport du projet fin d'etudesTahani RIAHI
 
Rapport projet de fin d'études: Elaboration d’un tableau de bord et politique...
Rapport projet de fin d'études: Elaboration d’un tableau de bord et politique...Rapport projet de fin d'études: Elaboration d’un tableau de bord et politique...
Rapport projet de fin d'études: Elaboration d’un tableau de bord et politique...Ayoub Minen
 
Rapport de stage coca cola (final)
Rapport de stage coca cola (final)Rapport de stage coca cola (final)
Rapport de stage coca cola (final)and1remixboy
 
Rapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiRapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiDonia Hammami
 
Rapport de Stage PFE - Développement d'un Projet ALTEN MAROC Concernant le Sy...
Rapport de Stage PFE - Développement d'un Projet ALTEN MAROC Concernant le Sy...Rapport de Stage PFE - Développement d'un Projet ALTEN MAROC Concernant le Sy...
Rapport de Stage PFE - Développement d'un Projet ALTEN MAROC Concernant le Sy...tayebbousfiha1
 
Rapport de stage boite à idées innovantes avec dashboard
Rapport de stage boite à idées innovantes avec dashboardRapport de stage boite à idées innovantes avec dashboard
Rapport de stage boite à idées innovantes avec dashboardSiwar GUEMRI
 
Deploiement solution_ha_de_stockage_ceph_sous_une_plateforme_virtualisee_vsph...
Deploiement solution_ha_de_stockage_ceph_sous_une_plateforme_virtualisee_vsph...Deploiement solution_ha_de_stockage_ceph_sous_une_plateforme_virtualisee_vsph...
Deploiement solution_ha_de_stockage_ceph_sous_une_plateforme_virtualisee_vsph...Abdelmadjid Djebbari
 

Was ist angesagt? (20)

Presentation pfe
Presentation pfePresentation pfe
Presentation pfe
 
Rapport PFE Ingénieurs - ULT-2016 - Hamza Mefteh fini
Rapport PFE Ingénieurs - ULT-2016 - Hamza Mefteh finiRapport PFE Ingénieurs - ULT-2016 - Hamza Mefteh fini
Rapport PFE Ingénieurs - ULT-2016 - Hamza Mefteh fini
 
Mémoire : Cloud iaas Slim Hannachi
Mémoire :  Cloud iaas Slim HannachiMémoire :  Cloud iaas Slim Hannachi
Mémoire : Cloud iaas Slim Hannachi
 
PFE-Semi.pdf
PFE-Semi.pdfPFE-Semi.pdf
PFE-Semi.pdf
 
Projet de fin étude ( LFIG : Conception et Développement d'une application W...
Projet de fin étude  ( LFIG : Conception et Développement d'une application W...Projet de fin étude  ( LFIG : Conception et Développement d'une application W...
Projet de fin étude ( LFIG : Conception et Développement d'une application W...
 
Projet mahfoudh 20 06 2013
Projet mahfoudh 20 06 2013Projet mahfoudh 20 06 2013
Projet mahfoudh 20 06 2013
 
Gestion d'erreurs et accès à distance
Gestion d'erreurs et accès à distanceGestion d'erreurs et accès à distance
Gestion d'erreurs et accès à distance
 
PFE en gestion du stock
PFE en gestion du stockPFE en gestion du stock
PFE en gestion du stock
 
Rapport de stage maritime
  Rapport de stage maritime  Rapport de stage maritime
Rapport de stage maritime
 
Présentation PFE
Présentation PFEPrésentation PFE
Présentation PFE
 
L'émergence de nouveaux modèles de bibliothèques ?
L'émergence de nouveaux modèles de bibliothèques ?L'émergence de nouveaux modèles de bibliothèques ?
L'émergence de nouveaux modèles de bibliothèques ?
 
Présentation de mon PFE
Présentation de mon PFEPrésentation de mon PFE
Présentation de mon PFE
 
Eléments d'hydrologie de surface
Eléments d'hydrologie  de surfaceEléments d'hydrologie  de surface
Eléments d'hydrologie de surface
 
Rapport du projet fin d'etudes
Rapport du projet fin d'etudesRapport du projet fin d'etudes
Rapport du projet fin d'etudes
 
Rapport projet de fin d'études: Elaboration d’un tableau de bord et politique...
Rapport projet de fin d'études: Elaboration d’un tableau de bord et politique...Rapport projet de fin d'études: Elaboration d’un tableau de bord et politique...
Rapport projet de fin d'études: Elaboration d’un tableau de bord et politique...
 
Rapport de stage coca cola (final)
Rapport de stage coca cola (final)Rapport de stage coca cola (final)
Rapport de stage coca cola (final)
 
Rapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiRapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammami
 
Rapport de Stage PFE - Développement d'un Projet ALTEN MAROC Concernant le Sy...
Rapport de Stage PFE - Développement d'un Projet ALTEN MAROC Concernant le Sy...Rapport de Stage PFE - Développement d'un Projet ALTEN MAROC Concernant le Sy...
Rapport de Stage PFE - Développement d'un Projet ALTEN MAROC Concernant le Sy...
 
Rapport de stage boite à idées innovantes avec dashboard
Rapport de stage boite à idées innovantes avec dashboardRapport de stage boite à idées innovantes avec dashboard
Rapport de stage boite à idées innovantes avec dashboard
 
Deploiement solution_ha_de_stockage_ceph_sous_une_plateforme_virtualisee_vsph...
Deploiement solution_ha_de_stockage_ceph_sous_une_plateforme_virtualisee_vsph...Deploiement solution_ha_de_stockage_ceph_sous_une_plateforme_virtualisee_vsph...
Deploiement solution_ha_de_stockage_ceph_sous_une_plateforme_virtualisee_vsph...
 

Andere mochten auch

Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...Cedric CARBONE
 
Cassandra spark connector
Cassandra spark connectorCassandra spark connector
Cassandra spark connectorDuyhai Doan
 
Perros muertos en Viedma
Perros muertos en ViedmaPerros muertos en Viedma
Perros muertos en ViedmaEzequielMI
 
Rugbypolitan - Edition spéciale poils
Rugbypolitan - Edition spéciale poils Rugbypolitan - Edition spéciale poils
Rugbypolitan - Edition spéciale poils BoucherieOvalie
 
La dette en débat
La dette en débatLa dette en débat
La dette en débatdarwin87
 
Texte definitif loi_ant-cmp
Texte definitif loi_ant-cmpTexte definitif loi_ant-cmp
Texte definitif loi_ant-cmpdarwin87
 
Brochure vin equitable
Brochure vin equitableBrochure vin equitable
Brochure vin equitableVin-Equitable
 
Verano 2014 con Vechart
Verano 2014 con VechartVerano 2014 con Vechart
Verano 2014 con VechartAngel Solano
 
GlobalPRO Portafolio App Minería Septiembre 2015
GlobalPRO Portafolio App Minería Septiembre 2015GlobalPRO Portafolio App Minería Septiembre 2015
GlobalPRO Portafolio App Minería Septiembre 2015Igor Castro
 
Opale Monaco Natural beauty
Opale Monaco Natural beautyOpale Monaco Natural beauty
Opale Monaco Natural beautyOPALE MONACO
 
Présentation qr code
Présentation qr codePrésentation qr code
Présentation qr codeMarie Buisson
 
Introduction à l'atelier - Osez la différence ! L'innovation markting pour b...
Introduction à l'atelier - Osez la différence !  L'innovation markting pour b...Introduction à l'atelier - Osez la différence !  L'innovation markting pour b...
Introduction à l'atelier - Osez la différence ! L'innovation markting pour b...Qualiméditerranée
 
Synthese mandat
Synthese mandatSynthese mandat
Synthese mandatperez2012
 
Buenas Prácticas de eTwinning en la Comunidad Valenciana
Buenas Prácticas de eTwinning en la Comunidad ValencianaBuenas Prácticas de eTwinning en la Comunidad Valenciana
Buenas Prácticas de eTwinning en la Comunidad ValencianaINTEF
 
L'europe a-t-elle à s'inspirer des modèles sportifs américains
L'europe a-t-elle à s'inspirer des modèles sportifs américainsL'europe a-t-elle à s'inspirer des modèles sportifs américains
L'europe a-t-elle à s'inspirer des modèles sportifs américainsBenjamin Vasselon
 

Andere mochten auch (20)

Rifseep - Doc pédagogique
Rifseep - Doc pédagogiqueRifseep - Doc pédagogique
Rifseep - Doc pédagogique
 
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
 
Cassandra spark connector
Cassandra spark connectorCassandra spark connector
Cassandra spark connector
 
Perros muertos en Viedma
Perros muertos en ViedmaPerros muertos en Viedma
Perros muertos en Viedma
 
Rugbypolitan - Edition spéciale poils
Rugbypolitan - Edition spéciale poils Rugbypolitan - Edition spéciale poils
Rugbypolitan - Edition spéciale poils
 
La dette en débat
La dette en débatLa dette en débat
La dette en débat
 
Texte definitif loi_ant-cmp
Texte definitif loi_ant-cmpTexte definitif loi_ant-cmp
Texte definitif loi_ant-cmp
 
Brochure vin equitable
Brochure vin equitableBrochure vin equitable
Brochure vin equitable
 
Une occasion d'affaires unique en France!
Une occasion d'affaires unique en France!Une occasion d'affaires unique en France!
Une occasion d'affaires unique en France!
 
Verano 2014 con Vechart
Verano 2014 con VechartVerano 2014 con Vechart
Verano 2014 con Vechart
 
GlobalPRO Portafolio App Minería Septiembre 2015
GlobalPRO Portafolio App Minería Septiembre 2015GlobalPRO Portafolio App Minería Septiembre 2015
GlobalPRO Portafolio App Minería Septiembre 2015
 
2009lyon010
2009lyon0102009lyon010
2009lyon010
 
Opale Monaco Natural beauty
Opale Monaco Natural beautyOpale Monaco Natural beauty
Opale Monaco Natural beauty
 
Présentation qr code
Présentation qr codePrésentation qr code
Présentation qr code
 
Introduction à l'atelier - Osez la différence ! L'innovation markting pour b...
Introduction à l'atelier - Osez la différence !  L'innovation markting pour b...Introduction à l'atelier - Osez la différence !  L'innovation markting pour b...
Introduction à l'atelier - Osez la différence ! L'innovation markting pour b...
 
Synthese mandat
Synthese mandatSynthese mandat
Synthese mandat
 
Buenas Prácticas de eTwinning en la Comunidad Valenciana
Buenas Prácticas de eTwinning en la Comunidad ValencianaBuenas Prácticas de eTwinning en la Comunidad Valenciana
Buenas Prácticas de eTwinning en la Comunidad Valenciana
 
L'europe a-t-elle à s'inspirer des modèles sportifs américains
L'europe a-t-elle à s'inspirer des modèles sportifs américainsL'europe a-t-elle à s'inspirer des modèles sportifs américains
L'europe a-t-elle à s'inspirer des modèles sportifs américains
 
Monastere portugais jeronimo
Monastere portugais jeronimoMonastere portugais jeronimo
Monastere portugais jeronimo
 
Instituto superior tecnologic1
Instituto superior tecnologic1Instituto superior tecnologic1
Instituto superior tecnologic1
 

Ähnlich wie [livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata (Avril 2015)

Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621Haifa Akermi
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital Hamza Sossey
 
Etude Apec - Le big data - tendances métiers dans l'industrie
Etude Apec - Le big data - tendances métiers dans l'industrieEtude Apec - Le big data - tendances métiers dans l'industrie
Etude Apec - Le big data - tendances métiers dans l'industrieApec
 
Big data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBig data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBruno Patin
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
 
Big Data ete learning Analytics
Big Data ete learning AnalyticsBig Data ete learning Analytics
Big Data ete learning AnalyticsMokhtar Ben Henda
 
La fusion Digital - Lean : un alliage précieux créateur de valeur
La fusion Digital - Lean : un alliage précieux créateur de valeurLa fusion Digital - Lean : un alliage précieux créateur de valeur
La fusion Digital - Lean : un alliage précieux créateur de valeurCognizant
 
BIG DATA : ÇA Y EST… ON SAIT À QUOI ÇA SERT !
BIG DATA : ÇA Y EST… ON SAIT À QUOI ÇA SERT !BIG DATA : ÇA Y EST… ON SAIT À QUOI ÇA SERT !
BIG DATA : ÇA Y EST… ON SAIT À QUOI ÇA SERT !Grégory Duval
 
Le Big Data dans la Banque et l'Assurance
Le Big Data dans la Banque et l'AssuranceLe Big Data dans la Banque et l'Assurance
Le Big Data dans la Banque et l'AssuranceAMNIS Consulting
 
Etude Apec - Les métiers de la data
Etude Apec - Les métiers de la dataEtude Apec - Les métiers de la data
Etude Apec - Les métiers de la dataApec
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Big data, l'accélération d'innovation
Big data, l'accélération d'innovationBig data, l'accélération d'innovation
Big data, l'accélération d'innovationLionel Martins
 
Open Data. (Re)Définir les services publics digitaux
Open Data. (Re)Définir les services publics digitauxOpen Data. (Re)Définir les services publics digitaux
Open Data. (Re)Définir les services publics digitauxAgence du Numérique (AdN)
 
Big Data RenaissanceNumerique
Big Data RenaissanceNumeriqueBig Data RenaissanceNumerique
Big Data RenaissanceNumeriqueFanny Despouys
 
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovationLivre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovationInstitut G9+
 

Ähnlich wie [livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata (Avril 2015) (20)

Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621
 
Big data
Big dataBig data
Big data
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital
 
Etude Apec - Le big data - tendances métiers dans l'industrie
Etude Apec - Le big data - tendances métiers dans l'industrieEtude Apec - Le big data - tendances métiers dans l'industrie
Etude Apec - Le big data - tendances métiers dans l'industrie
 
Big data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBig data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiers
 
Le Big Data
Le Big DataLe Big Data
Le Big Data
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Big Data ete learning Analytics
Big Data ete learning AnalyticsBig Data ete learning Analytics
Big Data ete learning Analytics
 
[Big] [Open] Data [As a Service]
[Big] [Open] Data [As a Service][Big] [Open] Data [As a Service]
[Big] [Open] Data [As a Service]
 
La fusion Digital - Lean : un alliage précieux créateur de valeur
La fusion Digital - Lean : un alliage précieux créateur de valeurLa fusion Digital - Lean : un alliage précieux créateur de valeur
La fusion Digital - Lean : un alliage précieux créateur de valeur
 
BIG DATA : ÇA Y EST… ON SAIT À QUOI ÇA SERT !
BIG DATA : ÇA Y EST… ON SAIT À QUOI ÇA SERT !BIG DATA : ÇA Y EST… ON SAIT À QUOI ÇA SERT !
BIG DATA : ÇA Y EST… ON SAIT À QUOI ÇA SERT !
 
Point de vue n°28
Point de vue n°28 Point de vue n°28
Point de vue n°28
 
Le Big Data dans la Banque et l'Assurance
Le Big Data dans la Banque et l'AssuranceLe Big Data dans la Banque et l'Assurance
Le Big Data dans la Banque et l'Assurance
 
Etude Apec - Les métiers de la data
Etude Apec - Les métiers de la dataEtude Apec - Les métiers de la data
Etude Apec - Les métiers de la data
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
2014-12-16-G9plus-LB-Big-Data
2014-12-16-G9plus-LB-Big-Data2014-12-16-G9plus-LB-Big-Data
2014-12-16-G9plus-LB-Big-Data
 
Big data, l'accélération d'innovation
Big data, l'accélération d'innovationBig data, l'accélération d'innovation
Big data, l'accélération d'innovation
 
Open Data. (Re)Définir les services publics digitaux
Open Data. (Re)Définir les services publics digitauxOpen Data. (Re)Définir les services publics digitaux
Open Data. (Re)Définir les services publics digitaux
 
Big Data RenaissanceNumerique
Big Data RenaissanceNumeriqueBig Data RenaissanceNumerique
Big Data RenaissanceNumerique
 
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovationLivre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
 

Mehr von yann le gigan

29e_Observatoire-E-Pub- .pdf
29e_Observatoire-E-Pub- .pdf29e_Observatoire-E-Pub- .pdf
29e_Observatoire-E-Pub- .pdfyann le gigan
 
28e Obs-ePub S1-2022
28e Obs-ePub S1-2022 28e Obs-ePub S1-2022
28e Obs-ePub S1-2022 yann le gigan
 
19ème observatoire de l’e-pub SRI (bilan 2017)
19ème observatoire de l’e-pub SRI (bilan 2017)19ème observatoire de l’e-pub SRI (bilan 2017)
19ème observatoire de l’e-pub SRI (bilan 2017)yann le gigan
 
13e Bilan ARPP " image et respect de la personne 2017 "
13e Bilan ARPP " image et respect de la personne 2017 "13e Bilan ARPP " image et respect de la personne 2017 "
13e Bilan ARPP " image et respect de la personne 2017 "yann le gigan
 
18ème observatoire de l’e-pub SRI (1er Semestre 2017)
18ème observatoire de l’e-pub SRI (1er Semestre 2017)18ème observatoire de l’e-pub SRI (1er Semestre 2017)
18ème observatoire de l’e-pub SRI (1er Semestre 2017)yann le gigan
 
AdAge Agency family trees 2016
AdAge Agency family trees 2016AdAge Agency family trees 2016
AdAge Agency family trees 2016yann le gigan
 
Parution au Journal Officiel du décret d’application de la loi Macron sur l’e...
Parution au Journal Officiel du décret d’application de la loi Macron sur l’e...Parution au Journal Officiel du décret d’application de la loi Macron sur l’e...
Parution au Journal Officiel du décret d’application de la loi Macron sur l’e...yann le gigan
 
17ème édition de l’Observatoire de l’e-pub SRI-PwC-UDECAM (Bilan 2016)
17ème édition de l’Observatoire de l’e-pub SRI-PwC-UDECAM (Bilan 2016)17ème édition de l’Observatoire de l’e-pub SRI-PwC-UDECAM (Bilan 2016)
17ème édition de l’Observatoire de l’e-pub SRI-PwC-UDECAM (Bilan 2016)yann le gigan
 
« Les usages du numérique en France en 2016 » Credoc / Agence du numérique, A...
« Les usages du numérique en France en 2016 » Credoc / Agence du numérique, A...« Les usages du numérique en France en 2016 » Credoc / Agence du numérique, A...
« Les usages du numérique en France en 2016 » Credoc / Agence du numérique, A...yann le gigan
 
[Livre Blanc] Repenser le temps : Rencontres de l’Udecam / 06 septembre 2015
[Livre Blanc] Repenser le temps : Rencontres de l’Udecam / 06 septembre 2015[Livre Blanc] Repenser le temps : Rencontres de l’Udecam / 06 septembre 2015
[Livre Blanc] Repenser le temps : Rencontres de l’Udecam / 06 septembre 2015yann le gigan
 
[Livre blanc] « Gouvernance de l’Intelligence Artificielle dans les entrepris...
[Livre blanc] « Gouvernance de l’Intelligence Artificielle dans les entrepris...[Livre blanc] « Gouvernance de l’Intelligence Artificielle dans les entrepris...
[Livre blanc] « Gouvernance de l’Intelligence Artificielle dans les entrepris...yann le gigan
 
Observatoire EY de l’information extra-financière des entreprises du SBF 120 ...
Observatoire EY de l’information extra-financière des entreprises du SBF 120 ...Observatoire EY de l’information extra-financière des entreprises du SBF 120 ...
Observatoire EY de l’information extra-financière des entreprises du SBF 120 ...yann le gigan
 
European SRI Study 2016 - Eurosif
European SRI Study 2016 - EurosifEuropean SRI Study 2016 - Eurosif
European SRI Study 2016 - Eurosifyann le gigan
 
2ème édition du Baromètre Annonceurs Mobile SRI-Harris Interactive - Nov 2016
2ème édition du Baromètre Annonceurs Mobile SRI-Harris Interactive - Nov 20162ème édition du Baromètre Annonceurs Mobile SRI-Harris Interactive - Nov 2016
2ème édition du Baromètre Annonceurs Mobile SRI-Harris Interactive - Nov 2016yann le gigan
 
Baromètre Adblock IPSOS - IAB 2016
Baromètre Adblock IPSOS - IAB 2016Baromètre Adblock IPSOS - IAB 2016
Baromètre Adblock IPSOS - IAB 2016yann le gigan
 
Livre blanc Arcep : Préparer la révolution de l’internet des objets
Livre blanc Arcep : Préparer la révolution de l’internet des objets Livre blanc Arcep : Préparer la révolution de l’internet des objets
Livre blanc Arcep : Préparer la révolution de l’internet des objets yann le gigan
 
Les résultats du marché publicitaire 1er semestre 2016 – Irep / France Pub
Les résultats du marché publicitaire 1er semestre 2016 – Irep / France Pub Les résultats du marché publicitaire 1er semestre 2016 – Irep / France Pub
Les résultats du marché publicitaire 1er semestre 2016 – Irep / France Pub yann le gigan
 
« Dirigeants vs Millenials » 5 recommandations pour supporter le choc numérique
« Dirigeants vs Millenials » 5 recommandations pour supporter le choc numérique « Dirigeants vs Millenials » 5 recommandations pour supporter le choc numérique
« Dirigeants vs Millenials » 5 recommandations pour supporter le choc numérique yann le gigan
 
Partage ! - cahiers IP innovation & prospective de la CNIL - Juin 2016
 Partage ! - cahiers IP innovation & prospective de la CNIL - Juin 2016 Partage ! - cahiers IP innovation & prospective de la CNIL - Juin 2016
Partage ! - cahiers IP innovation & prospective de la CNIL - Juin 2016yann le gigan
 
Marché du livre belge 2015 - ADEB (papier + numérique)
Marché du livre belge 2015 - ADEB (papier + numérique)Marché du livre belge 2015 - ADEB (papier + numérique)
Marché du livre belge 2015 - ADEB (papier + numérique)yann le gigan
 

Mehr von yann le gigan (20)

29e_Observatoire-E-Pub- .pdf
29e_Observatoire-E-Pub- .pdf29e_Observatoire-E-Pub- .pdf
29e_Observatoire-E-Pub- .pdf
 
28e Obs-ePub S1-2022
28e Obs-ePub S1-2022 28e Obs-ePub S1-2022
28e Obs-ePub S1-2022
 
19ème observatoire de l’e-pub SRI (bilan 2017)
19ème observatoire de l’e-pub SRI (bilan 2017)19ème observatoire de l’e-pub SRI (bilan 2017)
19ème observatoire de l’e-pub SRI (bilan 2017)
 
13e Bilan ARPP " image et respect de la personne 2017 "
13e Bilan ARPP " image et respect de la personne 2017 "13e Bilan ARPP " image et respect de la personne 2017 "
13e Bilan ARPP " image et respect de la personne 2017 "
 
18ème observatoire de l’e-pub SRI (1er Semestre 2017)
18ème observatoire de l’e-pub SRI (1er Semestre 2017)18ème observatoire de l’e-pub SRI (1er Semestre 2017)
18ème observatoire de l’e-pub SRI (1er Semestre 2017)
 
AdAge Agency family trees 2016
AdAge Agency family trees 2016AdAge Agency family trees 2016
AdAge Agency family trees 2016
 
Parution au Journal Officiel du décret d’application de la loi Macron sur l’e...
Parution au Journal Officiel du décret d’application de la loi Macron sur l’e...Parution au Journal Officiel du décret d’application de la loi Macron sur l’e...
Parution au Journal Officiel du décret d’application de la loi Macron sur l’e...
 
17ème édition de l’Observatoire de l’e-pub SRI-PwC-UDECAM (Bilan 2016)
17ème édition de l’Observatoire de l’e-pub SRI-PwC-UDECAM (Bilan 2016)17ème édition de l’Observatoire de l’e-pub SRI-PwC-UDECAM (Bilan 2016)
17ème édition de l’Observatoire de l’e-pub SRI-PwC-UDECAM (Bilan 2016)
 
« Les usages du numérique en France en 2016 » Credoc / Agence du numérique, A...
« Les usages du numérique en France en 2016 » Credoc / Agence du numérique, A...« Les usages du numérique en France en 2016 » Credoc / Agence du numérique, A...
« Les usages du numérique en France en 2016 » Credoc / Agence du numérique, A...
 
[Livre Blanc] Repenser le temps : Rencontres de l’Udecam / 06 septembre 2015
[Livre Blanc] Repenser le temps : Rencontres de l’Udecam / 06 septembre 2015[Livre Blanc] Repenser le temps : Rencontres de l’Udecam / 06 septembre 2015
[Livre Blanc] Repenser le temps : Rencontres de l’Udecam / 06 septembre 2015
 
[Livre blanc] « Gouvernance de l’Intelligence Artificielle dans les entrepris...
[Livre blanc] « Gouvernance de l’Intelligence Artificielle dans les entrepris...[Livre blanc] « Gouvernance de l’Intelligence Artificielle dans les entrepris...
[Livre blanc] « Gouvernance de l’Intelligence Artificielle dans les entrepris...
 
Observatoire EY de l’information extra-financière des entreprises du SBF 120 ...
Observatoire EY de l’information extra-financière des entreprises du SBF 120 ...Observatoire EY de l’information extra-financière des entreprises du SBF 120 ...
Observatoire EY de l’information extra-financière des entreprises du SBF 120 ...
 
European SRI Study 2016 - Eurosif
European SRI Study 2016 - EurosifEuropean SRI Study 2016 - Eurosif
European SRI Study 2016 - Eurosif
 
2ème édition du Baromètre Annonceurs Mobile SRI-Harris Interactive - Nov 2016
2ème édition du Baromètre Annonceurs Mobile SRI-Harris Interactive - Nov 20162ème édition du Baromètre Annonceurs Mobile SRI-Harris Interactive - Nov 2016
2ème édition du Baromètre Annonceurs Mobile SRI-Harris Interactive - Nov 2016
 
Baromètre Adblock IPSOS - IAB 2016
Baromètre Adblock IPSOS - IAB 2016Baromètre Adblock IPSOS - IAB 2016
Baromètre Adblock IPSOS - IAB 2016
 
Livre blanc Arcep : Préparer la révolution de l’internet des objets
Livre blanc Arcep : Préparer la révolution de l’internet des objets Livre blanc Arcep : Préparer la révolution de l’internet des objets
Livre blanc Arcep : Préparer la révolution de l’internet des objets
 
Les résultats du marché publicitaire 1er semestre 2016 – Irep / France Pub
Les résultats du marché publicitaire 1er semestre 2016 – Irep / France Pub Les résultats du marché publicitaire 1er semestre 2016 – Irep / France Pub
Les résultats du marché publicitaire 1er semestre 2016 – Irep / France Pub
 
« Dirigeants vs Millenials » 5 recommandations pour supporter le choc numérique
« Dirigeants vs Millenials » 5 recommandations pour supporter le choc numérique « Dirigeants vs Millenials » 5 recommandations pour supporter le choc numérique
« Dirigeants vs Millenials » 5 recommandations pour supporter le choc numérique
 
Partage ! - cahiers IP innovation & prospective de la CNIL - Juin 2016
 Partage ! - cahiers IP innovation & prospective de la CNIL - Juin 2016 Partage ! - cahiers IP innovation & prospective de la CNIL - Juin 2016
Partage ! - cahiers IP innovation & prospective de la CNIL - Juin 2016
 
Marché du livre belge 2015 - ADEB (papier + numérique)
Marché du livre belge 2015 - ADEB (papier + numérique)Marché du livre belge 2015 - ADEB (papier + numérique)
Marché du livre belge 2015 - ADEB (papier + numérique)
 

[livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata (Avril 2015)

  • 1. Date doc © 2015 CXP Page 1/30 Livre Blanc – Avril 2015 LIVRE BLANC Les Big Data pour les services publics : enjeux, technologies, usages En partenariat avec
  • 2. Date doc © 2015 CXP Page 2/30 Livre Blanc – Avril 2015 Les Big Data pour les services publics LES AUTEURS Emmanuel Lartigue Analyste Senior / Consultant BI, le CXP Mathieu Poujol Principal Consultant, Cyber Security, Infrastructures and Middleware, CXP-PAC Nikolai Janoschek Research Analyst, CXP-BARC
  • 3. © 2015 CXP Page 3/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics SOMMAIRE 1. Les ambitions du Secteur Public 2. Les Big Data : apports et enjeux 3. La maîtrise des dispositions juridiques 4. Les technologies liées aux Big Data 5. Applications et usages INTRODUCTION Les systèmes d'information des services publics brassent un nombre important de flux de données concernant tant le fonctionnement de la ville et que les déclarations des citoyens. La croissance exponentielle du volume de données disponible et les corrélations entre ces données présente un véritable enjeu pour le secteur public. Les initiatives autour du Big Data y sont nombreuses et les attentes importantes : un meilleur service rendu aux usagers par une optimisation opérationnelle ou par une offre de services plus large, une réorganisation de la prestation de service grâce aux nouvelles technologies, un meilleur partage des connaissances, ou encore un renforcement du lien social par une meilleure prise en compte des applications digitales : web, blogs, réseaux sociaux, etc. Tout cela avec un enjeu sécuritaire fort : si les Français sont inquiets sur l’exploitation de leurs données personnelles, ils accordent leur confiance à l’Etat pour les héberger et en garantir la sécurité d’accès. De nombreuses initiatives ont été engagées et plusieurs projets lancés par les organismes intéressés. Le secteur privé témoigne régulièrement de cas d’usages métiers liés aux Big Data, des applications qui pourraient être reprises dans le secteur public. Nous présenterons dans ce document deux projets Big Data dans le secteur public : un lié à la recherche, un autre lié aux bibliothèques, ainsi qu’un éclairage sur la coordination nationale des initiatives sur les données. Toutefois, les responsables projets butent sur l’absence de ligne directrice et sur le choix des socles technologiques. Trop d’incertitudes demeurent encore quant aux autres choix techniques à mettre en œuvre et sur l’effort de conduite du changement à mener. La prise en compte de ces nouveaux canaux de communication exigent une nouvelle architecture technique que nous allons décrire dans les derniers chapitres.
  • 4. © 2015 CXP Page 4/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics 1 - LES ATTENTES DU SECTEUR PUBLIC Le CXP a interrogé les acteurs du Secteur Public dans le but de mieux comprendre les nouvelles attentes et les futurs défis à relever dans la prise en compte des Big Data et d’améliorer la performance des services publics. UN MEILLEUR SERVICE FOURNI AUX USAGERS Le service public, dans le cadre de ses missions et pour rendre un meilleur service aux usagers, doit veiller au bon usage de la réutilisation des données. La gouvernance de ces données, et les questions liées à l’intégrité, à la neutralité et à la qualité des données, sont un des enjeux de la modernité et de la transparence du service public. Les projets Big Data ont déjà montré leur efficacité dans la relation avec les citoyens en proposant à la population de coparticiper à la gestion de la cité, tout en recherchant de nouvelles économies et une meilleure efficacité. Les données des villes numériques, une fois analysées, permettront d’imaginer des services novateurs, qui influeront sur l’organisation des villes et le quotidien des individus. DES SOLUTIONS INTÉGRÉES POUR TOUT TYPE DE DONNEES Dans un contexte économique difficile où les services publics sont confrontés aux défis de la rationalisation des coûts et de la maîtrise des dépenses, les solutions informatiques recherchées doivent être optimisées et si possible centralisées. Seules les données structurées sont bien maitrisées aujourd’hui (soit 20% des données). Les nouveaux systèmes d’informations doivent prendre en compte des formats de données très variés, documents, vidéos, images, et proposer si possible une gestion transparente de ces nouveaux formats. Afin de pouvoir capitaliser sur les compétences déjà maîtrisées, les nouveaux outils doivent si possible être graphiques, ou générer automatiquement les scripts d’exécution en SQL, C ou encore ‘R’. UN MEILLEUR PARTAGE DE L’INFORMATION Les données sont aujourd’hui hébergées dans des silos de données. Pour tirer pleinement partie des Big Data, il sera nécessaire de bâtir des ensembles transverses et cohérents de données. Des mécanismes d’habilitation et de partage des informations devront être mis en place afin de permettre au plus grand nombre d’accéder à l’information sans dupliquer cette information. Ces systèmes devront se conformer au cadre fixé par La loi Informatique et Libertés, dans le cas où de nombreuses informations sont susceptibles de porter atteinte aux droits et libertés des personnes, ou à leur vie privée.
  • 5. © 2015 CXP Page 5/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Figure 1 - Quels problèmes souhaitez-vous adresser avec les technologies Big Data ? (n=431, choix multiple) Source le CXP 2015, n=431 2 – LES BIG DATA : APPORTS ET ENJEUX POUR LE SECTEUR PUBLIC GENESE Face à l’accroissement exponentiel des volumes de données liées à de nouveaux usages (réseaux sociaux, mobiles, forums, Web, blogs, e-mails...), les architectures et outils classiques pour les traiter ne sont plus adaptés. Cet « infodéluge » a ainsi fait naître de nouvelles approches décisionnelles destinées à traiter, analyser et valoriser ces énormes volumes de données de toutes natures, semi-structurées ou non structurées, que l'on peut trouver aujourd'hui dans bon nombre d'organisations, quelle que soit leur taille : c'est cet ensemble de nouvelles technologies que l'on appelle les Big Data. Les premiers utilisateurs à s'intéresser au phénomène ont été les entreprises privées orientées consommateur final, telles que la grande distribution, les télécommunications, le tourisme, le loisir, les médias ou encore le secteur financier. Ces entreprises ont vu dans les Big Data une opportunité économique et un axe de développement pour l’entreprise (conquête de marchés, captation de nouveaux client…). Des Big Data, elles attendent la possibilité de mieux connaitre leurs clients, de mieux cibler leurs attentes et, de plus en plus, d’anticiper leurs demandes. Le graphique ci-dessous reprend les principales motivations qui ont poussé les entreprises à s’équiper de solutions Big Data. Si ces technologies ont eu un véritable impact sur le marketing et la relation client, qui représentent les principaux revenus des grands acteurs du Web, elles se déclinent maintenant dans d'autres secteurs sur lesquels elles ont désormais un réel impact sur la productivité et l’efficacité : les sciences de la vie, les transports, l’énergie, les services financiers et la sécurité.
  • 6. © 2015 CXP Page 6/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Figure 3 – Quels vont être vos prochains investissements pour les Big Data ? Source: CXP Big Data Analytics Survey 2015, n = 222 Les objets vont devenir de plus en plus communicants et à terme les cartes SIM machines to machines, seront plus nombreuses que les cartes SIM des milliards d’individus détenteurs de téléphones mobiles. L’exploitation des données remontées par ces machines (sensors, web logs, smartmeters …) pour mieux comprendre leurs conditions d’utilisation, avoir des métriques fiables, faire de la maintenance prédictive pour baisser les coûts de maintenance, améliorer le maintien en conditions opérationnelles et donc la satisfaction des clients, sont autant de domaines qui intéressent de près les services publics. Par exemple, dans le domaine des transports, Maersk a placé des capteurs sur ses conteneurs, permettant de connaitre en temps réel leur emplacement et de surveiller leur température lorsqu’ils contiennent des denrées périssables. Ces solutions intéressent aussi les acteurs les acteurs du monde des transports comme la SNCF ou la RATP. Ces nouvelles technologies Big Data sont disruptives pour le système d'information : les précédents systèmes n’avaient pas été prévus pour prendre en compte d’aussi grands volumes de données dans une aussi grande variété : désormais les vidéos, les documents scannés, les flux temps réel peuvent être stockés et analysés. Afin de valider l’architecture ainsi que le bien-fondé de l’usage de ces technologies, les entreprises se sont lancées dans une phase d’expérimentation (Proof Of Concept), puis elles ont franchi le pas pour s'équiper de solutions Big Data.
  • 7. © 2015 CXP Page 7/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Les projets Big Data ont un coût technologique, mais aussi organisationnel et stratégique. Les nouvelles possibilités d’analyse et de prédiction peuvent avoir une incidence sur la manière dont l’entreprise sert ses clients ou réalise son activité. L’analyse des grands volumes de données exige par ailleurs de nouvelles compétences à la fois en algorithmique et en statistique. Ces nouveaux profils, les Data Scientists, sont encore rares sur le marché, ce qui complique la mise en place de projets novateurs sur les Big Data. DE LA COLLECTE A LA RESTITUTION Un projet Big Data commence par une collecte des données, de formats et d'origines très variés : données issues de capteurs (compteurs de visites dans un magasin, machine-outil sous surveillance constante, sondes réseaux placés sur un réseau informatique...), données issues de vidéos numériques de surveillance ou encore de documents scannés qu’il faudra interpréter, logs de sites web, contenu des mails reçus d’un client... Après la collecte vient l’analyse des données. Cette opération nécessite de préparer la donnée nécessaire, entre autres extraire les informations importantes des données les moins structurées. Pour des documents scannés, le video-codage ou OCR (Optical Character Recognition), couplé à des outils de sémantiques, permet par exemple de catégoriser les informations des documents. Pour l’analyse des voix enregistrées, des outils de type Speach to Text existent sur le marché. Pour l’analyse des fichiers binaires, des parseurs (ou analyseurs syntaxiques) se chargent de décomposer les enregistrements en entités manipulables. Les données sont ensuite stockées, organisées voire indexées pour pouvoir être exploitées. Elles doivent généralement aussi être sécurisées : des droits et des habilitations sont posés sur ces données afin d’en autoriser l’accès uniquement aux personnes habilitées. Enfin, des outils de Data Visualisation permettent de restituer les résultats de l’analyse dans un format interprétable et compréhensible par tous et d’explorer la donnée, afin de mieux comprendre les comportements. Figure 2 - Votre entreprise a-t-elle initié une démarche Big Data ? Si oui, où en êtes-vous ? Source: CXP Big Data Analytics Survey 2015, n = 526
  • 8. © 2015 CXP Page 8/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Figure 4 - Les différentes étapes du traitement des Big Data Source le CXP 2015 Extraire Stocker Restituer Analyser Partager Odata, ETL, WebCrawler Data Cleaning, Data Quality Reporting Requêtes Ad-Hoc, Tableaux de bord, Data Visualization Portails, Search, Collaboration Self-Service Datamining, ‘R’, Analytics, Data Discovery, Machine Learning Hadoop, SGBDR, Cloud Suite intégrée
  • 9. © 2015 CXP Page 9/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics ENJEUX POUR LE SECTEUR PUBLIC La collecte des données provient régulièrement des statistiques nationales, celles de l’Insee, Institut National de la Statistique et des Études Économiques, par exemple. Ces données sont issues de recensements, d’enquêtes et de toutes les sources administratives numériques disponibles. L’analyse des données concerne la quasi-totalité des ministères, de nombreux organismes publics, voire des institutions de droit privé chargées de missions de service public. Les statisticiens du secteur public sont surtout présents dans les services statistiques ministériels : celui de l’Agriculture, le plus important, de l’Éducation, du Développement Durable, des Douanes, de la Justice, du « Travail, emploi et formation professionnelle » et de la « Santé et solidarités ». La Dares (travail et emploi) et la Drees (santé et protection sociale) sont des organismes qui produisent régulièrement des statistiques sur les établissements publics et leur personnel. La gouvernance des données est certainement l’un des sujets les plus difficiles à traiter pour le secteur public. La pluralité des missions et la diversité des données rendent très compliquées l’harmonisation et la compatibilité des données. Les données peuvent en effet provenir à la fois de l’Administration Centrale, des établissements publics, des collectivités territoriales, des Conseils Généraux et des services déconcentrés. L’homogénéisation des données et le partage de référentiels qui faciliteraient la consolidation des données ne sont pas toujours systématisés. La mutualisation des données doit être encouragée pour réduire le nombre de silos de données afin de réduire les coûts et favoriser les analyses croisées. La mise en place de référentiels communs à différentes administrations, avec des classes de services en fonction de chaque contributeur et de chaque partie prenante, permettrait de fiabiliser les données et de générer de la valeur à partir de ces données. Les systèmes décisionnels complètent sans remplacer les systèmes transactionnels dont les méthodes de fonctionnement au quotidien ne changent pas. Par contre ils peuvent en améliorer les processus, en leur faisant bénéficier d’une information fiable car unique (stockée une seule fois au bon endroit) mais aussi potentiellement enrichie par d’autres sources de données et par le fruit de potentielles analyses croisées et avancées. Enfin, une autre difficulté est le partage des informations publiques. L’échange peut être réalisé soit entre les administrations, soit entre l’administration et le secteur privé et enfin entre l’administration et les usagers. Il peut être intéressant de valoriser auprès de tiers les traitements Big Data qui produisent des analyses de tendances, des analyses d’écarts ou encore de la prospective. Quant à la restitution de ces données aux usagers, l’ouverture des données publiques (Open Data), entreprise depuis maintenant quelques années, a déjà apporté de nouveaux services aux citoyens : la diffusion des horaires de trains, la liste des vélos ou des voitures disponibles en partage, la liste des codes postaux si utiles pour valider la saisie des adresses et sécuriser les livraisons et des éléments plus spécifiques comme par exemple la liste des médicaments commercialisés en France ou encore la liste des établissements d'enseignement supérieur. Autre point crucial pour le secteur public : la sécurisation des données et la maîtrise des risques liés au respect de la vie privée (données à caractère privé ou administratif) et à la protection des libertés individuelles. L’utilisation de ces données doit être scrupuleusement contrôlée car elle doit respecter les contraintes juridiques liées à l’utilisation ou à la divulgation de données personnelles. Enfin, il existe une contrainte particulière associée au traitement des Big Data dans le secteur public : la maitrise des dispositions juridiques liées aux données. Un point essentiel qui mérite d'être développé.
  • 10. © 2015 CXP Page 10/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics 3 – LA MAITRISE DES DISPOSITIONS JURIDIQUES Les technologies Big Data sont nées avec le Web et avec la mondialisation des échanges informatiques. Aussi, le défi juridique soulevé par les Big data est à la fois de portée nationale et internationale. Les usagers français connaissent déjà l’existence des outils de reconnaissance faciale ou de lecture de plaques minéralogiques (comme cela se pratique à l’entrée de parkings). De plus en plus sollicités par des actions de marketing direct, ils réclament de faire valoir leur droit à l’oubli. Aussi attendent-ils du Service Public une exemplarité sur la protection de leurs données personnelles : ils souhaitent que leur droit soit préservé en France comme à l’étranger. Ce chapitre présente les principales législations en vigueur aujourd’hui ainsi que les dispositions prises dans les pays Européens. DES ORGANISMES ET DES REGLEMENTS FACE A LA MONDIALISATION La France n’est pas le seul pays à subir la loi des grands acteurs du Web qui constituent des bases de plus en plus riches sur les internautes du monde entier. En avril 2015, on estime qu’un internaute est déjà caractérisé en moyenne par 3 000 attributs (pays, adresse IP, type de navigateur utilisé, adresse e-mail, nom, prénom, etc.). Afin que les États n’encouragent pas cette inflation, une coordination européenne a été mise en place, dont le but est de juguler la diffusion de données confidentielles. Régulièrement, des commissions et des organismes tentent de s’organiser et de légiférer pour préserver la confidentialité des citoyens. Les différents pays européens ont demandé aux entreprises du privé comme et au secteur public de nommer des responsables à la protection des données. La carte ci-dessous précise la date à laquelle cette décision a été prise, l’intitulé de la fonction et le caractère obligatoire ou facultatif de la mesure. Les Etats ont intérêt à protéger leurs données. De même que les banques, au travers de mesures internationales comme Bâle 3 ou l'obligation de stress tests, doivent justifier leur robustesse, les Etats devront prouver leur capacité à protéger leurs données. Figure 7 – Les pays Européens qui ont légiféré la fonction de Délégué à la Protection des Données Source = La CNIL, mars 2015
  • 11. © 2015 CXP Page 11/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics LA REGLEMENTATION FRANÇAISE : LE LABEL CNIL Un projet de loi numérique français est attendu pour 2015. Afin de sensibiliser les organismes publics et privés et de leur permettre de se préparer à leurs nouvelles obligations, la CNIL a créé un nouveau label portant sur la gouvernance informatique et libertés par une délibération. Publié le 15 janvier 2015 au Journal Officiel, ce label de la CNIL permet aux entreprises de se distinguer par la qualité de leurs services. C'est un indicateur de confiance pour les utilisateurs de produits ou de services, car il leur offre la possibilité d’identifier et de privilégier ceux qui garantissent un haut niveau de protection de leurs données personnelles. C’est enfin la reconnaissance par la CNIL qu’un produit ou une procédure est conforme aux dispositions de la loi "Informatique & libertés". Chaque label est délivré pour une durée de trois ans et se décline selon quatre référentiels : "Audit de traitements" : l’objectif de ce label est de faire contrôler et de valider les projets en cours ou les solutions mises en œuvre pour anticiper tout risque de plainte. Il peut s'agir de traitements informatiques mais aussi de systèmes de vidéosurveillance et de vidéo protection devant respecter le cadre juridique encadrant leur usage ; "Coffre-fort numérique" : ce label valide la bonne mise en œuvre de l’accès aux données, de la conservation des données, de l’information des personnes, de la gestion des risques et des mécanismes cryptographiques ; "Gouvernance Informatique et Libertés" : ce label validation des exigences relatives à l'organisation liée à la protection des données, à la méthode de vérification de la conformité des traitements et à la gestion des réclamations et incidents (EG) ; "Formations Informatique et Libertés " : ce label certifie que le contenu pédagogique et le programme ont été validés par la CNIL. Le candidat au label CNIL doit obligatoirement disposer d’un correspondant Informatique et libertés (CIL). Il peut en désigner un en interne ou faire appel à un prestataire externe qui pourra l’accompagner dans ses démarches d’obtention du label. Il doit aussi justifier que son CIL bénéficie d’un budget annuel dédié et de moyens lui permettant d’assurer ses missions. Ce label donne aux entreprises l’opportunité de communiquer leur engagement sur la protection des données personnelles et de la vie privée et d’en faire un avantage concurrentiel, y compris sur un plan européen, alors que se prépare l’harmonisation de la réglementation sur la protection des données personnelles. Un prochain règlement européen va promouvoir le principe d’ «accountability ». Il désigne et rend obligatoire la documentation de l’ensemble des mesures internes définies et prises par un responsable de traitement ou ses sous-traitants afin d'attester de son niveau de conformité. Afin de se préparer à cette labellisation et de se conformer à ce principe européen, les entreprises et les services publics doivent dès à présent nommer un responsable de leurs données et répertorier et documenter leurs mesures de sécurité pour que celles-ci puissent être facilement auditées.
  • 12. © 2015 CXP Page 12/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics 4 – LES TECHNOLOGIES LIEES AUX BIG DATA LA CONSOLIDATION DES DONNEES Le volume de données grandissant, il devient de plus en plus contraignant de répliquer les données. Les nouveaux systèmes, s’ils doivent consolider les données réparties dans plusieurs silos d’information, devront limiter la réplication de l’information et éviter la prolifération des Datamarts. L’objectif d’une solution centralisée est de conserver dans un réservoir de données unique une seule version de la donnée, servant de multiples usages, dans le but de simplifier les architectures, limiter les désynchronisations de données et gagner en performance. En factorisant les systèmes, les coûts d’infrastructures, les coûts logiciels et les coûts de supervision sont réduits d’autant. L’administration centralisée des règles de sécurité et des règles d’accès aux données permet de réduire les coûts d’administration de la plateforme. La centralisation des informations facilite aussi la mise en place des règles de confidentialité ainsi que des procédures d’anonymisation des données conformes aux préconisations des législateurs. Cette concentration des fonctions d’administration et des données concoure aussi à la performance globale des systèmes concernés. LA RECHERCHE DE PERFORMANCE L’immense volume des Big Data a une incidence sur les performances des solutions. Plusieurs approches ont été tentées ces dernières années pour exploiter au mieux ces grands volumes de données. Voici les principes qui peuvent être retenus aujourd’hui au regard des principaux retours d’expérience des projets. Le premier constat, concernant l’organisation des larges entrepôts de données structurées, est de privilégier les modèles logiques normalisés, comme peuvent le faire les progiciels de gestion. Plutôt que de chercher à modifier les modèles de données en schémas en étoile ou en flocons afin d’accélérer les restitutions, il est préférable d’utiliser, sur une plateforme SQL performante, des modèles de données conçus pour faciliter la mise à jour de la donnée, éviter toute duplication source d’erreur et être capable d’évoluer simplement pour accueillir de nouvelles informations. La non-duplication des données devient désormais la nouvelle règle et seules des contraintes très fortes, comme par exemple l’éloignement géographique ou des besoins de site de secours, peuvent justifier la recopie d’une donnée d’un Datacenter Européen sur un Datacenter Australien par exemple. Lors du transport de données massif entre un système opérationnel et un système décisionnel de type Big Data, le principe de base à privilégier sera un fonctionnement de type E L T (Extraction, Loading, Transformation) plutôt qu’E T L (la phase de transformation réalisée pendant le transport). Les transformations de données - mises en forme, lookups, règles de gestion - seront en priorité réalisées sur la base de données cible plutôt que sur le serveur applicatif de l’outil de transfert, même si cela ne permet pas de tirer parti de toutes les fonctionnalités proposées par l’ETL. Le traitement parallèle est désormais incontournable. Les traitements longs s’exécutent en parallèle sur des sous-ensembles de données distribués, puis restituent un résultat consolidé. Ce traitement parallèle est aujourd’hui la seule réponse trouvée pour garantir des temps de réponses acceptables face à l’inflation des données. Le parallélisme doit pouvoir être réalisé de bout en bout, sur toutes les étapes d’un traitement
  • 13. © 2015 CXP Page 13/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics (lectures, croisements, calculs, tris …) afin d’éviter tout point de contention qui pénaliserait toute la chaîne de traitement. Ce parallélisme ne doit pas être le fait de l’expertise de l’utilisateur mais réalisé de manière automatique et transparente par la plateforme. La stratégie d'allocation des ressources d’un système Big Data est primordiale pour assurer la performance. Les outils de gestion de charge, connus sous le nom de Workload Manager ou encore de Kernel Resource Management, sont à la fois des planificateurs de la charge de travail, des gestionnaires des ressources et des moteurs de workflow. Leur rôle est d’optimiser l’allocation des ressources machine et de faire cohabiter des usages très différents sur la même plateforme, permettant à chaque tâche de pouvoir s’exécuter dans les meilleures conditions, selon son niveau de priorité et ses caractéristiques : Des utilisateurs avancés, comme les statisticiens, les Data Scientists, les Data Miners, qui souhaitent réaliser des requêtes complexes avec beaucoup de croissements de données, Des centaines d’utilisateurs concurrents qui lancent leurs éditions et génèrent leur reporting, Des traitements batchs ou temps réel qui alimentent le système en nouvelles informations. Pour gagner en réactivité, les traitements parallèles en base de données (in-database) peuvent être complétés par des traitements en mémoire (in-memory). Sans aller jusque monter en mémoire l’intégralité des données, il est intéressant d’y placer les données les plus importantes, les plus récentes ou les plus accédées (données dites très chaudes). L’accès et le traitement de ces données est alors fortement accéléré. Les autres données pourront rester sur des supports de stockage moins couteux, le système se chargeant de monter automatiquement en mémoire les données nécessaires. Pour les outils de restitutions et d’analyses il faudra aussi privilégier le traitement en mémoire (In-Memory). LE ROLE DE L'OPEN SOURCE Avant l’avènement des Big Data, le coût des bases de données augmentait en fonction du volume de données à gérer. Plus le serveur de données était puissant, plus la base de données coûtait cher. Gérer les Big Data au sein d’une base de données payante était alors prohibitif. Le Framework Hadoop est une réponse au problème. Il s'agit d’un ensemble de programmes Java qui permettent de paralléliser un très grand nombre d’opérations informatiques sur de larges clusters de serveurs accueillant des données. La distribution gratuite d’Hadoop et son fonctionnement sur des serveurs d'entrée de gamme ont permis de faire baisser les coûts, permettant la gestion d’un grand volume de données à des prix attractifs. Un très grand nombre d’entreprises a pu se lancer dans le stockage des données Big Data et inventer de nouveaux modèles économiques. Parmi les sociétés les plus connues qui utilisent le framework Hadoop, on trouve Amazon Web Services, AOL, Facebook (un cluster de 2 000 serveurs), Linkedln pour alimenter la rubrique « Les connaissez-vous ? » ou encore Twitter pour le stockage des tweets et des fichiers logs. Les limites d’une solution entièrement Open source : le Framework Hadoop est distribué gratuitement par la fondation Apache. Hadoop est un système complexe à utiliser et est constitué d’un ensemble de modules qui évoluent rapidement : Sqoop, Flume, Hive, Oozie, Pig, Mahout, Spark … Une entreprise qui réaliserait elle-même l’intégration de ces modules devrait constituer un centre de compétences dédié afin de rester à un bon niveau de performance, ce qui ne fait pas forcement partie la stratégie de l’entreprise. Aussi, de nombreux acteurs proposent des installations pré-assemblées et pré-testées d’Hadoop, avec des modules d’administration et des fonctionnalités additionnels. Ces distributions d’Hadoop - Map’R, Hortonworks, Cloudera, etc … ainsi que la
  • 14. © 2015 CXP Page 14/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics souscription payante au support sont à privilégier car les équipes de ces éditeurs, basées dans la Silicon Valley, participent au développement des nouvelles versions des composants du Framework Hadoop. De même, Hadoop ne remplace pas un système décisionnel existant basé une base de données relationnelle mais vient le compléter. De nombreuses solutions unifiées proposent un écosystème simplifié (base de données relationnelle et stockage de données polystructurées) afin de simplifier et de rationaliser les plateformes. La meilleure approche de l’Open Source : afin de bénéficier pleinement des apports de la solution Hadoop, qui est incontestablement un constituant important de la stratégie Big Data, il convient de chercher à intégrer la solution Hadoop au mieux au système d’information existant. Du point de vue opérationnel, il est nécessaire de rechercher des solutions intégrées avec une administration graphique du cluster Hadoop et une console commune avec le système information existant. Il faut aussi pouvoir utiliser le langage SQL, connu des équipes et des logiciels actuels et rechercher des outils qui génèrent automatiquement des scripts MapReduce ou ‘R’ pour pouvoir exploiter les données contenues dans Hadoop sans trop investir dans le conseil ou la formation. Comme tout outil informatique qui est choisi en fonction de besoins métiers, il est très important, avant de commencer un projet Big Data, de s’assurer de l’existence d’un véritable cas d’usage métier, de vérifier qu’une solution en mode Cloud locatif (par exemple : suivi des campagnes marketing, analyse de la fraude, analyse e- réputation, etc…) n’existe pas sur le marché pour ce besoin et que l’investissement sur la plateforme et les formations donneront bien lieu à un retour sur investissement assez rapide. L’AGILITE Les systèmes décisionnels historiques ont montré leur capacité à produire un reporting automatisé, désormais indispensable aux entreprises, mais leur manque d’agilité leur est souvent reproché. L’agilité d’une solution Big Data doit être envisagée avant sa mise en œuvre. Elle s’appuie sur les principes suivants : une simplification de l’administration et une mise à disposition de fonctions Self-Service pour les utilisateurs. La simplification de l’administration s’appuie sur une plateforme commune entre l’opérationnel et l’analytique permettant de simplifier l’infrastructure, réduire le nombre de matériels, d’applications et de logiciels d’administration et de supervision. Certaines solutions, disponibles sous forme d’Appliance, proposent des matériels et des logiciels optimisés et préinstallés pour la gestion des Big Data. Dans ce cas, le client bénéficie d’un seul interlocuteur pour l’ensemble de la solution, avec lequel il peut contracter un engagement de service pour l’ensemble de la solution (SLA, Service Level Agrement). L’efficacité opérationnelle ainsi dégagée vient contrebalancer l’achat d’une plateforme intégrée. Des fonctions simplifiées pour l’utilisateur. La Business Intelligence a beaucoup fait pour simplifier l’accès des utilisateurs à l’information structurée de l’entreprise. Les utilisateurs souhaitent désormais pouvoir exploiter les données poly-structurées, des algorithmes de la théorie des graphes, de la recherche des chemins, des fonctions de classification (clustering) ou encore de Data Discovery. Une plateforme agile permettra de mettre à disposition de l’utilisateur un espace de travail (du stockage, de la puissance de calcul) le temps de son travail. Ces capacités d'autoprovisionning (allocation automatique de ressources) autorisées et supervisées par l’administrateur du système, offrent une grande souplesse d’administration et permettent des scénarios d’expérimentation et de Fail-Fast Découverte de tendances, d’Insight Recherche de tentatives de fraude, hypothèses de défaillance client, recherche de corrélation Expérimentation de concepts avant remise en main aux équipes informatiques pour industrialisation.
  • 15. © 2015 CXP Page 15/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Une plateforme intégrée, proposant des fonctions Plug & Play et une administration simplifiée, permettra de couvrir économiquement les nombreux usages attendus d’une plateforme moderne de Big Data.
  • 16. © 2015 CXP Page 16/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics 5 – APPLICATIONS ET USAGES UN ENORME CAPITAL INFORMATIONNEL L’État possède incontestablement un immense capital informationnel. Sans compter les ministères, de nombreux organismes disposent de bases d’informations très riches : citons, entre autres, la Coface, la Bibliothèque publique d’information (BPI), l’Agence Française pour le développement international des entreprises (UBIFRANCE), ou encore l’Institut National de la Propriété Industrielle (INPI). Les usagers souhaitent pouvoir accéder à toutes ces informations et pouvoir interroger des annuaires de données qui recensent, ordonnent, aident à comprendre les données, qu’elles soient traitées et mises à disposition du public par l’Etat (data.gouv.fr), par les collectivités locales (data.nantes.fr) ou par le privé (data- publica.fr). Ces données publiques représentent une opportunité pour les individus (simples citoyens, militants et journalistes), les entreprises (grandes et petites) et l’Etat. DE NOMBREUSES INITIATIVES L’état français a pris la mesure du sujet et a lancé un vaste programme d’investissement dans le domaine du numérique. Plus de 150 millions d’€ d’aides à la recherche et au développement ont été alloués dans les domaines suivants : Le logiciel embarqué et objets connectés (l’internet des objets, les capteurs), Le calcul intensif et la simulation numérique, Le cloud computing et technologies d'exploitation massive des données ("Big Data"), La sécurité des systèmes d'information. L’École Polytechnique vient de créer une chaire « Data Scientist » et plusieurs écoles et Universités ont lancé leur cursus « Big Data ». Enfin des formations en ligne sur ce sujet, disponibles sur le Web, des MOOC, Massive Online Open Courses, sont diffusés depuis les Etats Unis. Parmi les dernières initiatives en date, le programme VITAM (Valeurs immatérielles transmises aux archives pour mémoire), lancé le 10 mars 2015, est chargé de collecter, conserver et communiquer au public les documents numériques produits par les ministères et administrations centrales de l’Etat. CAS D’USAGE Le Cloud et la mobilité sont entrés dans le quotidien du citoyen. Un citoyen qui souhaite pouvoir accéder partout à des informations toujours plus nombreuses pour améliorer ses conditions de circulation, identifier le meilleur trajet, obtenir des informations sur la société. Tout en souhaitant préserver son identité, échapper aux caméras de surveillance et bénéficier d'une vraie transparence sur l’accès aux informations et sur l’usage qui est fait de ses données. Nous avons recueillis des témoignages dans plusieurs domaines différents : la recherche et les biblothèques nationales. Des projets Big Data qui illustrent bien les différents engagements de l’État dans les projets Big Data. Enfin nous terminerons sur la coordination des différents projets et la sur la gouvernance des données.
  • 17. © 2015 CXP Page 17/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Applications et usages >>>>>
  • 18. © 2015 CXP Page 18/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics INTERVIEW - Jean-Michel ALIMI, Directeur de Recherche au LUT « Les limites des simulations numériques repoussées grâce aux Big Data » Jean-Michel Alimi, Directeur de Recherche au CNRS, nous présente une partie des travaux réalisés par son équipe sur la simulation numérique en cosmologie au Laboratoire Univers et Théories, Observatoire de Meudon, des calculs qui ont nécessité plus de 150 pétaoctets de données. A l’Observatoire de Paris, avec votre équipe, vous avez entrepris de modéliser l'univers du Big Bang. Pouvez-vous nous présenter les grandes étapes de ce projet ? Jean-Michel Alimi. Le projet DEUS, Dark Energy Universe Simulation, dont j’ai la responsabilité a débuté il y a dix ans, son objectif est de comprendre l’origine de la structuration et la nature du contenu de notre univers et spécialement la nature de l’énergie noire. Plus récemment, en 2012 nos efforts ont permis de réaliser la première simulation mondiale de structuration de TOUT l’Univers observable du Big Bang jusqu’à aujourd’hui. C’est la taille gigantesque des volumes manipulés qui en fait un projet Big Data remarquable, voire hors norme : alors que 150 Po de données sont générés durant les calculs, 2 Po de données ont été finalement conservés après un processus de sélection très optimisé. Pour ce faire, l’équipe scientifique s’est appuyée sur le supercalculateur Curie qui après 30 millions d’heures sur 76 032 cœurs de calcul, plus de 300 To de mémoire et un débit disque de plus de 50Go/sec aura permis d’expulser vers un système de fichiers parallèle les données produites par le calcul. Quelles sont les précautions à prendre lorsque l’on se lance dans un projet Big Data de cette nature ? J-M.A. Malgré la puissance de calcul et la capacité de stockage dont nous disposions, nous avons dû optimiser de façon extrême l’ensemble des opérations. Toutes les facettes de la simulation haute performance ont été sollicitées : le temps de calcul, l’usage de la mémoire, les schémas de communication, la gestion des entrées/sorties. Tout devait être optimisé au même instant en exploitant toutes les ressources disponibles. La sélection des données et leur analyse sont deux phases critiques qu’il faut savoir préparer. Il est indispensable de retenir les données essentielles au calcul, mais aussi garder à disposition des informations qui pourraient intervenir dans la modélisation ou être corrélées avec d’autres résultats. Si la plupart des données concerne le projet Dark Energy qui vise à étudier la dynamique de l'expansion de l'univers et la croissance de structure à grande échelle, de très nombreuses données sont conservées à des fins exploratoires pour de nombreuses autres questions de cosmologie. Chaque année de nouveaux calculs, de nouvelles analyses nous conduisent encore à générer près de 200 téraoctets de nouvelles données et la gestion de ce volume de données est un souci quotidien. Comme nous partageons le résultat de nos recherches avec d’autres laboratoires répartis sur l’ensemble de la planète, nous sommes régulièrement confrontés à la latence des réseaux transcontinentaux, qui nous limite dans la recopie et la mise à disposition de données.
  • 19. © 2015 CXP Page 19/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Comment sont partagés ces résultats ? Y-a-t-il une exploitation commerciale des analyses réalisées ? J-M.A. Du fait de leur complexité, les calculs scientifiques ne sont directement utilisés que par des chercheurs très spécialisés dans le monde. Aussi, pour rendre les résultats accessibles à une plus large population, nous avons réalisé par exemple des animations vidéo permettant de retracer toute l'histoire de l'Univers du Big Bang jusqu'à aujourd'hui. La fabrication de ces animations n’est possible que grâce aux technologies Big Data. Ces vidéos ont été par exemple diffusées aux journaux du 20h00, gracieusement offertes. Ces travaux sont rarement commercialisés car la connaissance de notre l’univers n’a pas de prix ! Vous le savez, comme le disait Albert Einstein, « tout ce qui compte ne se compte pas et tout ce qui se compte ne compte pas ! » Dans ce domaine, la philosophie qui prédomine chez les chercheurs du monde entier est un état d’esprit ouvert et une tradition de partage. Nous travaillons en partenariat avec de très nombreux centres de calculs, de nombreuses équipes avec qui nous échangeons beaucoup de données : des données issues de simulations numériques mais également des données réelles issues d’observation que nous confrontons à nos prévisions. Nous interagissons également avec de nombreuses équipes de recherches spécialisées dans les simulations numériques au-delà de notre discipline scientifique : avec des équipes de sismologie, de physique des particules, ou encore de mécanique des fluides. Ces données ont donc une vocation publique. La question de la sécurité porte donc plus sur la préservation des données ? J-M.A. En effet, les difficultés de la gouvernance de ces données concernent davantage la mise à disposition des données et leur sauvegarde que la sécurisation de l’accès. Les énormes volumes de données limitent les possibilités de recopies et exigent une grande rigueur quant à leur diffusion afin de ne pas risquer une multiplication des volumes. Nous sommes hébergés par de grands centres de données qui prennent en compte le risque d’incendie et de perte des données, mais nous devons sans cesse arbitrer sur les volumes et sur les conditions de mise à disposition de ces données.
  • 20. © 2015 CXP Page 20/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics INTERVIEW – Emmanuelle Bermes, BnF « Le volume d’informations numériques a largement dépassé la production littéraire.» Emmanuelle Bermes est adjointe pour les questions scientifiques et techniques auprès du Directeur des services et des réseaux Bibliothèque nationale de France. Elle dresse un panorama du rôle des données dans la gestion des Bibliothèques et de l’apport des nouvelles technologies dans la gestion des Big Data. La gestion des grands volumes de données dans les bibliothèques nationales a-t-elle évoluée ces dernières années depuis l’apparition du phénomène Big Data ? Emmanuelle Bernes. Les bibliothèques nationales sont confrontées aux grands volumes de données depuis les années 90, lorsque les premiers chantiers de numérisation des ouvrages ont commencé. Nous disposons actuellement de plus de 3 millions de documents numérisés, nous avons appris à les gérer. Les bibliothécaires ont une grande tradition de normalisation, de création de métadonnées et d’échange de données structurées. Un format international d’échange de données documentaire existe depuis les années 1960 – MARC pour MAchine- Readable Cataloging – avec sa déclinaison INTERMARC pour la Bibliothèque nationale de France. Nous utilisons de nombreux référentiels internationaux pour coder nos métadonnées (code langues ISO, code pays ISO, identifiants comme l’ISBN pour les livres ou l’ISNI pour les auteurs, etc..) : ce formalisme nous permet d’échanger des données à la fois entre bibliothèques mais aussi entre pays. Après cette première phase d’acquisition et de numérisation, l’avènement de Google en 2005 et de ses capacités de recherche plein texte, le travail d’interprétation des documents numérisés s'est accéléré. Nous avons de plus en plus utilisé l’OCR (Optical Character Recognition) pour transformer les documents numérisés en éléments interrogeables et nous nous sommes mis à l'usage d'algorithmes de recherche. Le troisième phénomène a été la production massive de documents numériques. Avec la généralisation des ordinateurs individuels et des caméras numériques, les documents, les blogs, les vidéos ont proliféré sur le Web. Les documents étaient désormais au format numérique natif, et il fallait les prendre ainsi en compte dans nos bases documentaires. Quelles ont été les conséquences de cette prolifération d’informations disponibles sur le Web ? E.B. Depuis 2006, le dépôt légal a été étendu aux sites internet : toute information publiée en ligne doit être conservée. C’est un travail que nous partageons avec l’INA, l’Institut national de l'Audiovisuel, qui est en charge des sites internet de la radio et de la télévision. De notre côté nous collectons chaque année 4 millions de sites internet français, dont 23 titres de presse quotidienne nationale et régionale (Ouest France, Le Républicain Lorrain, Médiapart…) qui entrent chaque jour dans nos collections de manière automatique. Le volume d’information est gigantesque : plus de 567 To de données, et ce volume croît chaque jour.
  • 21. © 2015 CXP Page 21/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Existent-ils des progiciels pour gérer ces informations ? E.B. Du fait du caractère exceptionnel du volume de données, la plupart des systèmes que nous utilisons sont spécifiques. Il existe bien des solutions de gestion intégrées de bibliothèque et de gestion électronique de documents commercialisées par des sociétés comme Archimed, BiblioMondo ou Ex Libris, mais elles ne répondent pas aux spécificités d’une bibliothèque nationale (gestion du dépôt légal et des fonds patrimoniaux, en particulier). La plupart de ces logiciels offrent toutefois la possibilité, pour les bibliothèques qui les utilisent, de récupérer les informations que nous produisons sur les ouvrages, à partir du catalogue de la BNF http://catalogue.BnF.fr/. Souvent, ils sont également capables de traiter d’autres sources de données comme decitre.fr ou electre.com. Pour gérer l’accès à de très grands volumes d’informations, nous utilisons des moteurs de recherche comme CloudView d’Exalead (pour la bibliothèque numérique Gallica.bnf.fr) ou le moteur open source Lucene (pour le catalogue général). Nous avons aussi créé des sélections basées sur des corpus numérisés – le sport, les manuscrits – des corpus d’albums photographiques ou encore des corpus plus originaux comme celui des partitions du fonds musical de la Bibliothèque Royale. Ces corpus réunis par des spécialistes des collections sont consultables dans la bibliothèque numérique gallica.BnF.fr. De plus, nous avons signé des partenariats avec d’autres fonds documentaires – bibliothèques, e-distributeurs – qui nous permettent aussi de référencer des ouvrages, des documents ou des vidéos que nous ne détenons pas en propre. Les attentes des lecteurs et usagers de la BnF ont-ils changé avec la révolution numérique ? E.B. Oui, bien sûr, la généralisation des moteurs de recherche des géants du Web a eu un fort impact sur les différentes manières d’accéder à l’information. Les utilisateurs souhaitent de plus en plus interroger les systèmes en langage naturel, plutôt qu’en suivant des menus. On peut aussi exploiter les « traces » laissées par les lecteurs dans le cadre de leur consultation : un exemple concret est le portail tactiques.org/prevu des prêts de la bibliothèque universitaire Paris 8 qui propose des statistiques sur les emprunts : le nombre de prêts de l’ouvrage, l’âge moyen des emprunteurs, etc. Le système compile toute l’activité des prêts et en quelques clics vous accédez à l’ensemble des prêts ventilés par secteur (psychologie, droit administratif, cinéma, sociologie), par langue (français, anglais...), par répartition géographique, et à des classements comme le Top 10 des livres empruntés parmi les 324401 prêts des deux dernières années. Nous travaillons aussi beaucoup autour des outils de datamining et de recherche sémantique, nous suivons de près les progrès du Web sémantique. Nous menons avec l’école Télécom ParisTech des recherches sur les usages du patrimoine numérique des bibliothèques et sur l’exploitation des statistiques d’usage de Gallica. De nombreux acteurs du Web souhaitent monétiser leurs données et se positionnent comme des DaaS, Data As A Service. Cela a-t-il du sens dans de le cadre de la BnF ? E.B. Nous ne cherchons pas à monétiser les informations, mais au contraire à diffuser le plus largement possible le contenu que nous gérons, tout en prenant soin de veiller aux contraintes juridiques et aux différents droits sur les œuvres. C’est la raison pour laquelle nous avons adopté, pour la diffusion de nos données publiques, la licence publique de l’Etat élaborée par la mission Etalab. Par ailleurs, la BNF publie régulièrement les catalogues de ses collections, les catalogues d'expositions et des documents inédits.
  • 22. © 2015 CXP Page 22/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics INTERVIEW - Henri Verdier Administrateur général des données de l’État « La transformation numérique de l'action publique passe par une bonne gouvernance des données » Henri Verdier, Administrateur général des données de l’Etat - en anglais Chief Data Officer - présente le phénomène des Big Data non plus sous l’angle de l’entreprise privée qu’il connait bien, mais sous celui des politiques des données de l’Administration française. Il évoque ici sa vision du potentiel des données possédées par l’État face aux champions de l’économie numérique. Henri Verdier, dans le cadre de votre nouvelle mission d'administrateur des données publiques, comment définissez-vous l'économie numérique ? Henri Verdier. L’économie numérique est la rencontre entre deux écosystèmes : le monde de la recherche technologique et de l’algorithmique avec celui de l’activité réelle, deux écosystèmes qui ne se rencontrent que très rarement, ou du moins pas assez souvent dans un monde en perpétuelle évolution. En tant qu'administrateur des données publiques, notre rôle consiste à faciliter ces échanges, à insuffler les avancées technologiques et surtout les nouvelles méthodes de gestion des données dans les rouages existants. Le but est bien sûr de permettre à l’action publique de bénéficier des mêmes moyens que les entreprises privées. Nous souhaitons mettre à disposition d’une équipe de datascientists des données en très grand nombre afin que leurs analyses puissent orienter les politiques à venir. Avec, toujours en ligne directrice, la baisse des coûts des processus, un meilleur service public rendu et la modernisation du système d’information de l’État. Toutes les organisations sont concernées : les services publics, les administrations, les services déconcentrés comme les collectivités locales. Votre service est rattaché au DISIC, la direction interministérielle des systèmes d’information et de communication, qui vise à améliorer le service rendu à l’usager et à l’agent et à accroître la valeur ajoutée des systèmes d’information. Comment votre expérience du numérique et des Big Data peut- elle contribuer à l’atteinte de ces objectifs ? H.V. Nous intervenons comme force de proposition et comme influenceur. Nous veillons d’abord à l’usage des données, en privilégiant l’ouverture des données publiques, un meilleur partage, plus de modernité et de transparence, et une centralisation accrue pour une exploitation facilitée. Et surtout nous cherchons à insuffler une nouvelle approche sur les données, proches des pratiques réalisées sur les Big Data, mêlant données Henri Verdier a dirigé l’Etalab, un service rattaché au Secrétariat général pour la modernisation de l’action publique, dont la mission était de faciliter la réutilisation la plus large possible des informations publiques. Le portail unique interministériel Etalab, data.gouv.fr, rassemble et à met à disposition du public l’ensemble des informations publiques de l’Etat. Henri Verdier est également le membre fondateur du pôle de compétitivité Cap Digital et, à cette occasion, a rencontré la plupart des start-up françaises qui se lançaient dans les nouvelles technologies. En septembre 2014, il a été nommé par le gouvernement Administrateur des données de l’État.
  • 23. © 2015 CXP Page 23/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics polystructurées, Data Science et techniques d’apprentissage automatiques. Systématiquement impliqué dans les projets structurants et manipulant de grands volumes de données, notre service essaie d’imposer une visibilité sur le stockage des données nécessaire à l’automatisation du processus, pour rechercher une corrélation, une synergie avec d’autres silos de données existants dans l’administration, afin que le rapprochement des données vienne enrichir le capital informationnel de l’État. Ce travail est complexe et doit être réalisé en amont pour pouvoir influer sur l’architecture de la solution, en proposant par exemple des Web API, des ouvertures pour lire la donnée qui demain aura autant de valeur que le processus optimisé lui-même. C’est une démarche disruptive : elle présente la donnée comme un bien commun, utile au pilotage des activités et aussi à l’évaluation des politiques menées. La fonction d’Administrateur général des données de l’État est nouvelle en France, quelles sont vos sources d’inspirations et les modèles sur lesquels vous pouvez vous appuyer ? H.V. La fonction de Chef Data Officer est de plus en plus présente dans les grandes entreprises internationales ainsi que dans les grandes villes américaines, telles que New York ou San Francisco. De très nombreuses initiatives y sont menées. Par exemple, New York compte une million d’immeubles dont 3 000 environ prennent feu chaque année. En croisant les données de plusieurs systèmes d’information – la pauvreté du quartier, l’âge de l’immeuble, la date des derniers travaux réalisés, le nombre de loyers impayés, la présence ou non de squatters, la présence ou non d’un gardien – plus de 60 critères en tout, un algorithme a permis de déterminer où les 341 unités de pompiers de la ville doivent concentrer leurs visites de contrôle. Ce système a permis de rendre ces contrôles pertinents dans 73% des cas au lieu de 13% auparavant. Voilà le type d’optimisation et d’amélioration du service public que peuvent procurer une bonne gestion des données et l’apport des nouvelles technologies. Personne ne gagnera seul le défi des Big Data. La collaboration des services est un élément clé de la stratégie pour pouvoir offrir des services qui soient proches de la qualité que les usagers peuvent rencontrer par ailleurs. Par exemple, nous menons actuellement une expérimentation associant l’IGN, La Poste et Open Street Map pour créer un référentiel ouvert de la géolocalisation de toutes les adresses qui pourra être utilisé par tous les services. Nous souhaitons aussi apporter de la modernité dans le pilotage des projets informatiques, en proposant des cycles plus courts, favorisant la réutilisation des données ou des services déjà en place, et en traitant très en amont les problématiques législatives, d’éthique et de confidentialité, incontournables dans tous les projets liés aux données, toujours en concertation avec les organismes comme la CNIL, la CADA ou encore l'AFNIC. La prise en compte d’une bonne gouvernance des données et de son exploitation a posteriori sera un véritable levier de la transformation numérique de l’action publique.
  • 24. © 2015 CXP Page 24/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics A propos de >>>>>
  • 25. © 2015 CXP Page 25/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics A propos de Teradata Teradata France Antony Parc 1 2/6 Place du général de Gaulle 92184 Antony cedex Tél : +33 1 81 89 15 00 Site Internet : http://fr.teradata.com/government/ Teradata (NYSE : TDC) est le spécialiste des plates-formes analytiques de données et des applications et services marketing. Les produits et services novateurs de Teradata offrent aux entreprises des solutions d'intégration de données et une approche métier qui leur permettent de prendre les meilleures décisions possibles et de se doter de véritables avantages concurrentiels. Bureaux à Dayton, Ohio ; San Diego, Atlanta et Indianapolis ; Bureaux en Amérique du Nord et Amérique du Sud, en Europe, au Moyen-Orient, en Afrique (EMEA), ainsi que dans la zone Asie et Japon. Teradata compte 11 500 salariés dans plus 40 pays Industries ciblées : Services financiers et assurance, gouvernement et services publics, santé, Sciences de la vie ,eCommerce, media numériques, divertissement, commerce de détail, industrie, pétrole et gaz, hôtellerie, télécommunications, voyage et transport, service public. Leadership : Teradata collabore avec plus de 2600 clients dont 1800 utilisent les applications Teradata parmi lesquels :  15 des 20 premières banques mondiales  18 des 20 premières entreprises mondiales de télécommunications  Les 6 premières compagnies aériennes mondiales  14 des 20 premières agences de transport et de voyage  15 des 20 premiers détaillants mondiaux  11 des 20 premières sociétés de l’industrie de la santé  11 des 20 premières sociétés du monde de l’industrie Chaque jour, plus de 3 millions d'utilisateurs dans le monde entier accèdent à un environnement Teradata analytics ou applications marketing dans le cadre de leur travail dans quasiment tous les secteurs. Une sélection de partenaires Accenture, Adam Software, Alteryx, Attensity, Brierly, Capgemini, Celebrus, Cloudera, Cognizant Technology Solutions, Deloitte Consulting, ESRI, Fuzzy Logix, Harte Hanks, HortonWorks, IBM: Global Business Services, IBM Cognos, Guardium, InfoSphere, Optim, and SPSS; Informatica, LiveRamp, MapR, Microgen, Microsoft, MicroStrategy, Oracle, Protegrity, Qlik Technologies, Inc., Revolution Analytics, SAP, SAS, Tableau, Tibco, Urban Airship, Webtrends, Wipro & Wherescape.
  • 26. © 2015 CXP Page 26/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Une sélection de clients français SFR, Bouygues, Orange, BNP PARIBAS, Air France, SNCF, Geopost, ERDF, Carrefour, Auchan, Intermarché, Monoprix, ADEO Canal+, Banque Accord., Société Générale, LCL, iBP, CA, Française des jeux….. Direction : Mike Koehler, Président-Directeur Général Hermann Wimmer, Co - President, Teradata Data & Analytics Bob Fair, Co-président Teradata Marketing Applications Dan Harrington, Executive Vice President, Global Consulting and Support Services Stephen Brobst, Chief Technology Officer Eric Joulié, Président Teradata France et Vice Président Western Europe, Southern et Middle East Africa Thierry Teisseire, Directeur Teradata Applications France et Europe de l’ouest Les biographies sont disponibles sur le site : www.teradata.com Prix et récompenses Teradata est reconnue par les analystes, la presse et les groupes de réflexion pour son leadership dans le domaine des solutions d'entrepôts de données, des solutions analytiques d'entreprise, du marketing intégré, ainsi que dans le domaine du Big Data. La liste complète des prix remportés par Teradata et ses dirigeants, disponible sur le site Teradata Teradata® Unified Data Architecture™ Teradata Unified Data Architecture™ est au cœur des solutions orientées données de Teradata. Cette architecture permet aux organisations et entreprises d’analyser tous types de données hébergées par différents systèmes Teradata. L’architecture UDA tire avantage des technologies évoluées de Teradata, de la plateforme Teradata Aster Discovery, de l’environnement open-source Apache™ Hadoop® et de nos partenaires technologiques : les utilisateurs métier peuvent exécuter, à la demande, les requêtes de leur choix sur toutes les données à disposition, quelle que soit la fonction analytique choisie. Cette architecture associe des modules logiciels - Teradata Viewpoint, Teradata Connectors et Teradata Vital Infrastructure – et matériels – une suite complète d’appliances Teradata dédiées aux entrepôts de données, ainsi que les produits Teradata Aster Discovery et les solutions dédiées à Hadoop. Avec l’architecture UDA, les organisations accèdent, utilisent et gèrent toutes leurs données structurées ou non. Teradata QueryGrid™, dévoilé en 2014, constitue une innovation majeure qui propulse les utilisateurs d’UDA aux avant-postes des technologies de base de données. Elle leur offre un accès transparent et en self-service aux données et à des fonctions analytiques exécutables sur différents systèmes, à partir d’une seule instance de Teradata Database ou requête Aster Database. Teradata Database – notre plateforme logicielle phare est reconnue en tant que référence pour analyser et traiter des données toujours plus volumineuses et complexes, proposer des requêtes pertinentes, offrir des performances optimales et encourager la rentabilité d’un tel investissement.
  • 27. © 2015 CXP Page 27/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Les plateformes Teradata spécifiques à la gestion des charges de travail sont des systèmes pouvant être utilisés sur l’ensemble du périmètre d’entreprise: entrepôts de données actifs, entrepôts de donnés unifiés et multi-métiers, appliance d’entrepôts d’entrée de gamme, référentiels de données spécifiques ou environnements de type sandbox. Ces plateformes utilisent les technologies SMP (symmetrical multi- processing) ou MPP (Massively Parallel Processing), et sont reconnues pour leurs hautes-performances, leurs évolutivité et leur simplicité en matière de support. Teradata Aster Discovery Platform. Cette gamme de produits offre des fonctionnalités telles que Teradata Aster SQL-MapReduce®, Graph Analytics, Teradata Aster File Store ™, ainsi que le framework Teradata Aster SNAP (Seamless Network Analytic Processing)™. Ces innovations permettent une visibilité détaillée et riche au cœur de données aux structures différentes, issues de sources Web, de réseaux de capteurs, de réseaux sociaux, de travaux de génomique ou autres. Associées aux fonctions de traitement analytique et aux entrepôts de données de Teradata, ces solutions apportent à ses utilisateurs de nouveaux angles de visibilité qui font défaut aux outils des autres éditeurs : niveaux de détail plus précis sur les données, génération accélérée de cette visibilité détaillée, ainsi que de nouvelles fonctions de visualisation. Teradata Aster Big Analytics Appliance optimise la génération de valeur à partir des données. Cette appliance associe la plateforme open source Hadoop d’Apache et Teradata Aster Discovery Platform au sein d’une appliance unique, parfaitement intégrée et optimisée. Teradata Portfolio for Hadoop – Cette suite flexible de produits et de services permet d’intégrer Hadoop au sein d’un environnement Teradata et de l’adosser à une architecture d’entreprise élargie, tout en bénéficiant de services et d’un support de premier rang fournis par Teradata. Cette solution intègre des produits et services adaptés à tous les budgets et niveaux de maturité vis-à-vis de Hadoop : versions de distribution Hadoop, appliances intégrées, ainsi que des services de conseils et de support sur les matériels existants chez les clients. Services Teradata  Services de conseils professionnels Teradata - Nos centres d’expertises répartis dans le monde entier emploient des professionnels formés et complètent les équipes locales de conseil en exploitant notre base de connaissances accumulées et en fournissant des ressources de conseil à l'étranger le cas échéant.  Les services d'assistance à la clientèle Teradata - Cette assistance revêt une importance croissante pour les environnements d'entreposage de données stratégiques de nos clients, à savoir ceux qui fonctionnent 24 heures sur 24, 7 jours sur 7.
  • 28. © 2015 CXP Page 28/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics A propos du CXP Le Groupe CXP est le premier cabinet européen indépendant d’analyse et de conseil dans le domaine des logiciels, des services informatiques et de la transformation numérique. Il offre à ses clients un service complet d’assistance pour l’évaluation, la sélection et l’optimisation de solutions logicielles et les accompagne dans leur transformation numérique. Le CXP intervient dans plus d’une dizaine de domaines (BI, gestion de contenu, ERP, finance, SIRH, CRM, BPM, IT management, sécurité du SI…). Le Groupe CXP assiste également les DSI dans l'évaluation et la sélection des ESN et les accompagne dans l’optimisation de leur stratégie de sourcing et dans leurs projets d'investissements. Enfin, le Groupe CXP aide les éditeurs et les ESN à optimiser leur stratégie et leur go-to-market à travers des analyses quantitatives et qualitatives ainsi que des prestations de conseil opérationnel et stratégique. Les organisations et les institutions publiques se réfèrent également à nos études pour développer leurs politiques informatiques. Capitalisant plus de 40 ans d’expérience, implanté dans 8 pays (et 17 bureaux dans le monde), fort de 140 collaborateurs, le Groupe CXP apporte chaque année son expertise à plus de 1 500 DSI et directions fonctionnelles de grands comptes et entreprises du mid-market et à ses fournisseurs. Le Groupe CXP est composé de 3 filiales : le CXP, BARC (Business Application Research Center) et PAC (Pierre Audoin Consultants). Le CXP et le Secteur Public c’est : Des Dossiers de recherche et des Études : - Portail citoyen - Dématérialisation dans les collectivités - Open Data - Etat d’avancement de la directive européenne INSPIRE - Réforme DIT & DICT versus SIG - GBCP & SI financier - SIRH pour le secteur public Un Club Secteur Public CXP Le CXP a créé en juin 2011 un Club Secteur Public destiné aux collectivités locales et territoriales, ministères, organismes et entreprises publiques pour mieux répondre aux demandes d’évolution et aux problématiques spécifiques en termes de progiciels (en mode licence, Cloud/SaaS, Open Source…). Le Club réunit actuellement près de 120 membres et propose tout au long de l’année des ateliers et Web Conférences sur des thématiques d’actualité (dématérialisation, portail citoyen, archivage, gestion de contenus, Big Data, ville connectée, mutualisation des services,…). Une rencontre entre décideurs du secteur public et éditeurs est également organisée chaque année, la prochaine Journée Secteur Public se déroulera Jeudi 5 novembre 2015 à Paris. Un vivier de répondants La notoriété du CXP sur le marché français nous permet d’avoir des relations suivies avec un grand nombre d’acteurs. Outre nos +1 500 clients utilisateurs (DSI et Directions fonctionnelles), notre lettre hebdomadaire est envoyée à plus de 30 000 contacts et notre site Web fait l’objet de plus de 50 000 visites par mois.
  • 29. © 2015 CXP Page 29/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics De nombreuses études dans le domaine des Services Publics Nous réalisons de nombreuses études dans ce domaine. Voici les dernières parutions du CXP qui évoluent avec l’état de l’art du marché : • La Performance dans les services publics, un livre blanc sur les enjeux et les pistes d’amélioration, réalisé à partir d’une enquête menée auprès des professionnels du Secteur Public. • Secteur Public – Le Portail Citoyen au service des usagers. Une étude complète sur les 8 principales solutions logicielles de portail web présentes en France pour les mairies et collectivités territoriales AUTRES PUBLICATIONS PROPOSÉES PAR LE CXP DOSSIERS DE RECHERCHE - ERP en open Source : une alternative crédible ? - GBCP : Impacts sur le Système d’Information - Pourquoi monter un projet MDM ? - Améliorer son BFR : méthodes et outils - Secteur public : les spécificités de la gestion des RH - Big Data : mesurer la performance des activités publiques AUTRES ETUDES ET BENCHMARKING DE SOLUTIONS - Gestion des achats et relations fournisseurs - Solutions de planification - Plates-formes décisionnelles Des prestations de conseil Le Consulting CXP propose un ensemble de prestations spécifiquement conçues pour vous aider à réussir vos projets : • Audit de vos outils informatiques et organisation • Etudes des objectifs, des besoins cibles et éléments d’opportunités de lancer le projet • Réalisation de cahier des charges et formalisation d’appel d’offres publics • Aide à la renégociation de contrats, dépouillement d’Appels d’Offres publics • Assistance à maîtrise d’ouvrage.
  • 30. Pour toute information : Le Service Clients CXP relation_client@lecxp.com +33 (0)1 53 05 05 90 www.cxp.fr Le CXP – 13 rue le Sueur – 75116 PARIS – 01 53 05 05 53 – www.cxp.fr