7. Cesontdes jeuxde donnéespubliés
oCesontdes donnéescollectées:
Parle secteurpublic (l’État, les collectivités, les institutions publiques)
Parle secteurprivé(Entreprises, associations, particuliers)
Surles finances, les services, les transports, la démographie, l’environnement, la culture, l’énergie, etc.
oEllessontouvertesquandellessontnumériséeset publiéesde manièrestructurée, selonuneméthodologieet unelicenceouverte
Accessiblesfacilementet au grand public
Utilisables, modifiables, re-distribuablespar tous, sans rectrictrictiontechnique, juridiqueoufinancière
Accessiblespar des interfaces de programmationd’application(API))
Environnement
Transport
Culture
Science
Finance
Statistiques
Climat?
Géolocalisation
€
Open Data & Accompagnementdes Publics -Janvier2014
28/11/2014
8. Pourquoi Ouvrir ses données ?
•Parce que c’est un droit pour le citoyen :
•« La Société à le droit de demander compte à tout agent public de son administration»
[Article XV de la «Déclaration des Droits de l’Homme et du Citoyen»]
•Parce que cela représente un intérêt sociétal
•Information du citoyen /Participation à la vie démocratique
•Mise au point d’applications en fonction des besoins
•Outil d’analyse pour les élus et les agents publics
•Parce que cela représente un intérêt économique
•Création de nouveaux services innovants
•Outils d’analyse pour tous les acteurs économiques
28/11/2014
9. Où a commencé et où va le mouvement de libération des données ?
28/11/2014
10. Origines: les USA
•1966 : “Freedom Information Act”, Loidécrivantles obligations légalespour l’Étatet sesagences
•2009: Initiative “Open Government” –niveausans précédentde transparence et d’ouverturedu gouvernementObama (1er projetmisen peuvrelorsde son premeirjour de travail àla maisonblanche)
•Permettreàtout citoyeninterresséde contribueràcréerles contenusde la politique
•Permettreau gouvernementde bénéficierdes savoirs-faire locaux
•2010: Définitionde l’opendata, groupede travail américain
10
28/11/2014
11. En France : la Loi
•1978 : La loi introduit la notion de données publiques
la loi « d'accès à l'information » de 1978 (dite loi CADA) est le meilleur exemple de cette démarche. Elle introduit les notions de données publiques et de leur publication. Elle permet de mettre à disposition des documents administratifs sur simple demande des administrés.
•Loi de décentralisation à venir : (article 29)
Les collectivités locales de plus de 3 500 habitants auront l’obligation d’ouvrir leurs données publiques.
11
28/11/2014
12. Les Licences
Une donnée ouverte est couverte par une licence
•Open DatabaseLicense (OdbL)
L'Open DatabaseLicense (ODbL) est un contrat licence de base de données favorisant la libre circulation des données.
La licence Open Databasepermet à chacun d’exploiter publiquement, commercialement ou non, des bases de données; à condition néanmoins de maintenir la licence sur la base de données, et éventuellement, sur les modifications qui y sont apportées, et de mentionner expressément l’usage, s’il génère des créations à partir de celles‐ci.
Le 14 décembre 2010, le Conseil de la Ville de Paris a annoncé qu'il publiera les données de l'administration parisienne sous Licence Open Database
12
28/11/2014
14. McKinsey Global Research (Oct.2014)
Plus de donnéesouvertespour les utilisateurs
40
pays possèdentdes
plateformesOpen Data
90.000
jeuxde donnéespubliéesaux U.S.A.
1.4 million
de visiteurssurle site
gouvernementalde l’OpenData
en Grande Bretagne
102
villesontparticipésàdes Hackaton
surles donnéesouvertes
1 million
jeuxde donnéesouvertespour
l’ensembledes gouvernements
au niveaumondial
28/11/2014
15. McKinsey Global Research (Oct.2014)
créateurde valeur
$3 trillons
(3 milliards de milliards) estla valeurannuelle
approximativedes donnéesouvertesdans7
domaines
3 billions
(3.000 milliards) de tonnesd’équivalent
CO2 peuventêtreidentifiéesavec les
donnéesouvertes
35
heurespar an sontgagnéessurles
transports grâce àl’ouverturedes données
50%
des citoyensestimentfavorablelment
l’impactdes donnéesouvertes
100.000
applications pour smartphones
en médecine, santé et bien-être
28/11/2014
16. 16
Situation ActuelleVS Open Data
Donnéesdifficilesà trouveret à (ré)utiliser
Powered by Excelerate Systems -France
Format PDF habituel
28/11/2014
18. Au début de notre ère numérique…
Informatique d’Entreprise
•Affaire de Spécialistes
•Centralisée
•Inaccessible hors de l’entreprise
28/11/2014
19. Au début de notre ère numérique…
Informatique d’Entreprise
•Affaire de Spécialistes
•Centralisée
•Inaccessible hors de l’entreprise
Informatique Personnelle
•Mac .vs. PC
•Individuelle
•Isolée
28/11/2014
20. Notre environnement Numérique… aujourd’hui !
›Application d’Entreprise
›Bureautique
›Internet
›Email
›Réseaux Sociaux
›Objets connectés
›e-commerce
›Banque en ligne
›Jeux en réseau
›Apps Mobiles
›Sauvegarde et Transport de données
݃change / Partage
›… etc.
28/11/2014
23. Les Entreprises s’intéressent à … Nous !
Moi
Opinions
•Ce que j’Aime
Passions
•Mes Hobbies
Coordonnées
•Comment et où me joindre
Avatars
•Mes apparences
Profession
•Quel est mon métier et où je travail
Réputation
•Ce que l’on dit sur moi
Expression
•Ce que je dis
Audience
•Qui je connais
Certificats
•Qui peut certifier de mon identité
Publications
•Ce que je partage
Achats
•Ce que j’achète, quand et où
28/11/2014
24. Évolution de la Données
10% - Données Structurées
1980 2014
90 % - Données Non-Structurées
+3 trillion Go de données créées en 2013…
Plus de 90% sont des données non structurées
500 quadrillion de fichiers
1 Trillion = 1018, soit un milliard de milliards.
1 Quadrillion = 1024
Des changements
considérables lors
des 30 dernières
années
Applications Internet
Smartphones &
Tablettes
Machines intelligentes
Capteurs
Quantités
doublent
tous les 2 Ans
28/11/2014
25. Les 3V qui imposent le changement-Volume-Variété-Vitesse
28/11/2014
26. les Entreprises veulent gérer toutesles données
Toutes les données Produites en Interne et en ExterneMais aussi à toutes les données qui la Concernent
Source : IBM
28/11/2014
27. | Mobile | Cloud | BigData | Sécurité |
4 grands changements qui touchent le marché du matériel, des logiciels et des services informatiques.
Regard à travers 1 seul prisme :
le Mobileest l’élément essentiel de Productionet de Consommationdes données.
le Cloudest l’environnement où les données sont Stockées.
le BigDataest l’ensemble des technologies qui permettent d’Exploiter, Analyseret Restituerles données.
La Protection des Donnéesest le critère Essentielpour l’établissement de la Relation de Confiancede l’ensemble.
Analyse #1
28/11/2014
28. Comment les données sont- elles produites?
Notre façon d’accéder aux données est en pleine mutation.
•La hausse des usages avec les appareils mobiles apporte des changements radicaux dans l'informatique pour les entreprises car ces nouveaux outils ont envahi le lieu de travail et également l’environnement privé.
•La mobilité marque le début d'un changement fondamental de stockageque ce soit au sein de l’appareil, ou dans le nuage (Cloud) pour que les données soient disponibles à tout moment, n'importe où ! En 201575% de tous les dispositifs ‘informatiques’ seront des smartphones, des tablettes et des Objets Connectés
28/11/2014
29. Comment les données sont- elles stockées, gérées et utilisées?
•La production de l'information numérique est en constante hausse.
•Comment les données sont-elles stockées et gérées ?
•Où les données sont-elles stockées ?
Savoir comment toutes les données sont utiliséespar une organisation de n'importe quelle taille est vital.
#Cloud #BigData #Security #Mobile@ExcelSysFrance ExcelerateSystemsFrance
SI Cloud60%
SI interne40%
Prévisionde la RépartitionCentre de Donnéesà H2020
28/11/2014
34. PourquoiutiliserHadoop ?
•Le moins Couteux (100% OpenSource)
•Pour traiter des Peta-Octets de données
•Le plus Rapide actuellement
•Pour les Traitements Parallèles
•Le Meilleur à ce jour
•Pour apporter des Solutions à tous les problèmes de traitement de Données Massives
28/11/2014
37. Système Informatique
Data Warehouse
Query
Extract
Transform
Load
Transform
Architecture généralement déployé sur un SGBD Relationnel
S.I centralisée = "Enterprise Data Warehouse"
Applications
OLTP
Applications
28/11/2014
38. Système Informatique
Data Warehouse
Query
Extract
Transform
Load
Transform
Architecture généralement déployé sur un SGBD Relationnel
S.I centralisée = "Enterprise Data Warehouse"
Applications
OLTP
Applications
28/11/2014
40. Applications
Défis communs dans le S.I
OLTP
Applications
Data Warehouse
Query
Extract
Transform
Load
Transform
28/11/2014
41. Applications
Défis communs dans le S.I
OLTP
Applications
Data Warehouse
Query
Extract
Transform
Load
Transform
1
1
1
Transformations de données est lentes, SLA manqué
28/11/2014
42. Applications
Défis communs dans le S.I
OLTP
Applications
Data Warehouse
Query
Extract
Transform
Load
Transform
1
1
1
Transformations de données est lentes, SLA manqué
2
2
Requêtes lentes, QoSdégradé et des opportunités manquées.
28/11/2014
43. Applications
Défis communs dans le S.I
OLTP
Applications
Data Warehouse
Query
Extract
Transform
Load
Transform
1
1
1
Transformations de données est lentes, SLA manqué
2
2
Requêtes lentes, QoSdégradé et des opportunités manquées.
3
Nécessité d’Archivage pour économiser l’espace de stockageLes données archivées ne peuvent pas fournir une Valeur.
28/11/2014
44. Applications
Défis communs dans le S.I
OLTP
Applications
Data Warehouse
Query
Extract
Transform
Load
Business
Intelligence
Transform
1
1
1
Transformations de données est lentes, SLA manqué
2
2
Requêtes lentes, QoSdégradé et des opportunités manquées.
3
Nécessité d’archiver.
Les données archivées ne peuvent pas fournir une Valeur.
4
Pression constante pour acheter de nouvelles capacités de stockage et unités de calculs juste pour maintenir la qualité de service actuel.
Pas de place pour étendre les possibilités.
Pas de place pour l’innovation.
28/11/2014
46. Les avantages de l'Open Source au-delà de l’éthique, il est question de :
Facilité d’Adoption
Acquisition et démonstration de la Valeuravec des investissements maîtrisables1
28/11/2014
47. Les avantages de l'Open Sourceau-delà de l’éthique, il est question de :
Facilité d’Adoption
Acquisition et démonstration de la Valeuravec des investissements maîtrisables1
Innovation et Développement Rapide
Développement communautaire: les meilleurs ingénieurs de beaucoup de sociétés Collaborentpour résoudre les problèmes et Imaginerde nouveaux concepts2
28/11/2014
48. Les avantages de l'Open Sourceau-delà de l’éthique, il est question de :
Facilité d’Adoption
Acquisition et démonstration de la Valeuravec des investissements maîtrisables1
Innovation et Développement Rapide
Développement communautaire: les meilleurs ingénieurs de beaucoup de sociétés Collaborentpour résoudre les problèmes et Imaginerde nouveaux concepts2
Souplesse
Un Standard Ouvertet indépendant des fournisseurs, ce qui encourage une large intégration de la technologie3
28/11/2014
49. Les avantages de l'Open Source au-delà de l’éthique, il est question de :
Facilité d’Adoption
Acquisition et démonstration de la Valeuravec des investissements maîtrisables1
Innovation et Développement Rapide
Développement communautaire: les meilleurs ingénieurs de beaucoup de sociétés Collaborentpour résoudre les problèmes et Imaginerde nouveaux concepts2
Souplesse
Un Standard Ouvertet indépendant des fournisseurs, ce qui encourage une large intégration de la technologie3
Pas de dépendance «Editeur»
Pas de données ou processus «propriétaires" –la sélection des fournisseurs est uniquement sur la Qualité des Services4
28/11/2014
50. Quelle importance accordez vous, dans la sélection d’un vendeur de BigData aux critères suivants:
7
8
9
Source: King Research, 3922 Respondents
Evolutivité
Performance
Flexibilité
Fiabilité du vendeur
Technologie Sécurisée
Intégration avec d'autres systèmes
Coût
Techniquement Supérieur aux autres
Logiciel Open Source
28/11/2014
52. # Choix de
l’Environnement Opérationnel
28/11/2014
53. Quels sont les éléments qui déterminent votre choix de fournisseur de solution BigData?
Source: King Research, 3922 Respondents
6
6,5
7
7,5
8
8,5
9
Formations
Services de Consulting
Recommandations
Support Technique
Richesse des Fonctionnalités
28/11/2014
54. 0%
20%
40%
60%
Quelles infrastructures pensez-vous améliorer avec des solutions BigData ?
Source: King Research, 3922 Respondents
Traitements ETL
Bases de Données Analytiques
Stockage
Entrepôts de Données
Système Central (Mainframe)
28/11/2014
55. Quels sont les principaux avantages recherchés dans une solutions BigData d’entreprise
Source: King Research, 3922 Respondents
10%
30%
50%
70%
Amélioration des Analyses de Données
Amélioration du Traitement de Données
Prendre de Meilleures Décisions, Plus Rapidement
Augmenter la Valeur marchande des Données
Améliorer l‘Efficacité Opérationnelle
Acquérir un Avantage Concurrentiel
28/11/2014
56. 15%
25%
35%
45%
Quelles sont vos principaux développements BigData?
Source: King Research, 3922 Respondents
Recherche / Innovation
Analyse Comportementale
Connaissance des Clients
Ciblage de Marché
Analyse de l‘Expérience Client
Amélioration Opérationnelle
28/11/2014
58. Les Changements dans le Système d’Information des Entreprises
Logs
Files
Web Data
Relational Databases
IDEs
BI / Analytics
Enterprise Reporting
Enterprise Data Warehouse
Online Serving Systems
Manager
SYSTEM OPERATORS
ENGINEERS
ANALYSTS
BUSINESS USERS
Web/Mobile Applications
CUSTOMERS
Sqoop
Sqoop
Sqoop
Flume
Flume
Flume
Modeling Tools
DATA SCIENTISTS
DATA ARCHITECTS
Meta Data/ ETL Tools
ODBC, JDBC,
NFS, HTTP
28/11/2014
60. Une Plate- forme pour Stocker toutes les données
•Stockage et Traitement par Lots
•HDFS + NoSQL
•Gestionnaire de processus batch
BATCH
PROCESSING
(MapReduce, Hive, Pig)
WORKLOAD MANAGEMENT
STORAGE FOR ANY TYPE OF DATA
UNIFIED, ELASTIC, RESILIENT, SECURE
Filesystem
(HDFS)
Online NoSQL
(Hbase)
28/11/2014
61. Ouverte avec des méthodes d’Accès à toutes les données
•Fournir de multiples options pour intégrer les données
•S'appuyant sur les niveaux de compétences et les investissements existants
#Cloud #BigData #Security #Mobile@ExcelSysFrance ExcelerateSystemsFrance
BATCH
PROCESSING
(MapReduce, Hive, Pig)
ANALYTIC
SQL
(Impala)
SEARCH
ENGINE
(RealTimeSearch)
MACHINE
LEARNING
(Mahut, Datafu)
STREAM
PROCESSING
(Spark)
WORKLOAD MANAGEMENT
STORAGE FOR ANY TYPE OF DATA
UNIFIED, ELASTIC, RESILIENT, SECURE
Filesystem
(HDFS)
Online NoSQL
(Hbase)
28/11/2014
62. Prêt pour l'entreprise avec uneSécurité Garantie et la Supervision Globale
•Sécurité et Protection des données et outils pour les Audits
•Haute disponibilité avec sauvegarde automatique et reprise après sinistre
•Système de Gestion Globale
BATCH
PROCESSING
(MapReduce, Hive, Pig)
ANALYTIC
SQL
(Impala)
SEARCH
ENGINE
(RealTimeSearch)
MACHINE
LEARNING
(Mahut, Datafu)
STREAM
PROCESSING
(Spark)
3RDPARTY
APPS
WORKLOAD MANAGEMENT
STORAGE FOR ANY TYPE OF DATA
UNIFIED, ELASTIC, RESILIENT, SECURE
DATA
MANAGEMENT
SYSTEM
MANAGEMENT
Filesystem
(HDFS)
Online NoSQL
(Hbase)
#Cloud #BigData #Security #Mobile@ExcelSysFrance ExcelerateSystemsFrance
28/11/2014
63. Nouvelle Approche «Software»
Traditionnelle
•Monolithique
•Stockage Centralisé
•RDBMS
•Schéma de Donnée d’abord
•PropriétaireSoftware Big Data
•Distribué
•Stockage et Exécutionau niveau du Node
•Toutes les Données Brutes
•Open Source
28/11/2014
64. Nouvelle Approche «Hardware»
64
Matériel Traditionnel
Matériel exotique
•Gros Serveur Central
•SAN
•RAID
Coût élevé
Évolutivité limitéeMatériel Big Data
Matériel de base
•Racks de boîtes de pizza
•Ethernet
•JBOD
Vite Rentable
Évolutivité illimitée
28/11/2014
65. Nouvelles Possibilités grâce aux technologies du BigData
Moteurs de Recommandations
Analyse de Sentiments
Modélisation des Risques
Détection de la Fraude
Analyse de Campagne Marketing
Analyse du taux de désabonnement des clients
Analyse Social Graph
Réseau de surveillance
Data Analytics
Source: Cloudera “Ten Common Hadoopable Problems”
28/11/2014
66. …
Streaming Sources
-Logs
-Apps
-File systems
-Servers
-Devices
Relational Sources
-Databases
-Data Warehouse
Analyseavancée
AnalysePrédictive
Recherchetemps réelet exploration “RootCause”
Exploration, Reporting, Visualisation, Correlation
BATCH
PROCESSING
ANALYTIC
SQL
SEARCH
ENGINE
MACHINE
LEARNING
STREAM
PROCESSING
3RDPARTY
APPS
WORKLOAD MANAGEMENT
STORAGE FOR ANY TYPE OF DATA
UNIFIED, ELASTIC, RESILIENT, SECURE
DATA
MANAGEMENT
SYSTEM
MANAGEMENT
ENTERPRISE DATA HUB
Filesystem
Online NoSQL#BigData#OpenData#OpenSource !
#Cloud #BigData #Security #Mobile@ExcelSysFrance ExcelerateSystemsFrance
28/11/2014
67. Voilà comment les donnéessontouvertesaujourd’hui!
Exploitation faible:
-pas de recherchedansle document
-Formats figés(PDF, CSV…)
Powered by Junar
Les évolutionsdes portailsOpenData
Ouvert
Recherche
Réutilisation
API
Visualisation
28/11/2014
68. PlateformeBigData pour l’OpenData
Un Systèmede gestionde données
pour faciliterla réalisationdes projetsOpen Data
Support de
Multiples Formats
Gestionversions sources de données
Multi- utilisateurs
Personna
lisations
Gestionsdes droitsd’accès
Collect
Enhance
Publish
Social
Report
Suiviset Rapports
Valorisationdes Données
Normalisation
Recherche
Lisibilité
Réutilisation
Exportables
API Standard
Conformesaux specifications et standards de l’OpenData
Sources de Données
XLS
PDF
CSV
ODF
HTML
JSON
…
Open Data Platform
Gestionnairede Donnéesen temps réel
Gestiondu cycle completde publication de la donnée
28/11/2014
69. Etude de Cas: City of Palo Alto
En 3 Etapes
Jonathan Reichental
CIO
Citoyens& Entreprisesprivées
①Démo& Décision
②Implementationinterne
•Finance, Audit
•GIS
•Infrastructure
•Services Publics
•Bibliothèques, Ecoles
•Planification
Searchable Data Catalog
Dashboards
API Site
③Live Open Data Site
Collection des Données
3 Semaines
28/11/2014
70. Merci de votre attention
@ExcelSysFrance
ExcelerateSystemsFranceExcelerate Systems -BigData, Cloud & Security Community
#Security
#BigData
#Cloud
#Mobile
28/11/2014