Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Cours EMI CFD - Mars 2012
1. Data Publica
Opendata & visualisations
EMI - CFD
Mercredi 28 mars 2012
Thomas Dudouet
thomas.dudouet@data-publica.com
@tdudouet
2. Open data
Définition
● Open data = Donnée ouverte
● On parle d'ouverture des données
● Mise à disposition des données publiques pour
accès et réutilisation par les citoyens et les
entreprises
3. Open data
Donnée publique
La notion de « donnée publique » couvre l'ensemble
des données qui sont ou devraient être (légalement
ou volontairement) publiées ou tenues à disposition
du public, et qui sont produites ou collectées par un
État, une collectivité territoriale, un organe
parapublic, dans le cadre de leurs activités de
service public.
http://fr.wikipedia.org/wiki/Donnée_publique
4. Open data
Motivations
Modernisation
● Enrichissement des données
● Développement du collaboratif
● Intégration du décisionnel de données
5. Open data
Motivations
Économiques
● Développement de l'innovation
● Croisement des compétences
● Création d'emploi, de structures
● Valorisation du territoire
6. Open data
Motivations
Démocratiques
● Lisibilité et transparence de l'action publique
● Dialogue et participation citoyenne
7. Open data
Un mouvement mondial
● États-Unis Initiative data.gov (administration
Obama - 2009)
● Royaume-Uni Initiative data.gov.uk (2010)
● UE Directive Européenne sur la réutilisation des
données publiques (2003)
● Finlande, Australie, Nouvelle-Zélande,
Irlande,...
● France Mission Etalab (data.gouv.fr)
8. Open data
Données publiques
● Des formes variées Statistiques, horaires,
cartographies, mesures,...
● Des thématiques diverses Transport, culture,
tourisme, environnement, démoghraphie,
finances,...
● Des formats préconisés
○ Formats "libres" (non propriétaires)
○ Formats lisibles par les machines
CSV, ODF, XML,... XLS, PDF, DOC,...
9. Open data
Données publiques
● Exemples :
○ Liste des arbres dans la ville
○ Liste de jardins et parcs publics
○ Localisation des vélos en libre accès
○ Circulation et places de parking en temps réel
○ Localisation des toilettes publiques
○ Statistiques de prêt dans les bibliothèques
○ Résultats aux élections
11. Open data
Petit exercice d'introduction...
Recherche de jeu de données
Pour chaque jeu de données, noter :
● L'URL du site
● Le format de fichier
http://www.pratique.fr/sites/default/files/articles/referencer-site.jpg
12. Open data
Producteurs de données
MINISTÈRE DES SPORTS MINISTÈRE DE
L'INTÉRIEUR MINISTÈRE DU BUDGET
MINISTÈRE DE L'ECOLOGIE MINISTÈRE DE
L'ÉDUCATION NATIONALE MINISTÈRE DE LA
CULTURE MINISTÈRE DU TRAVAIL
PRÉFECTURE D'ILE DE FRANCE & DE PARIS
PRÉFECTURE DU JURA PRÉFECTURE DU NORD
PRÉFECTURE DE LA SOMME PRÉFECTURE DE
LA MARNE PRÉFECTURE DE L'AIN PRÉFECTURE
DU VAR PRÉFECTURE DU PAS DE CALAIS
13. Open data
Producteurs de données
VILLE DE PARIS VILLE DE NANTES VILLE DE
RENNES VILLE DE MONTPELLIER VILLE DE
TOULOUSE VILLE DE BROCAS CONSEIL
GÉNÉRAL DU LOIR ET CHER CONSEIL GÉNÉRAL
DE GIRONDE CONSEIL GÉNÉRAL DE SAÔNE ET
LOIRE CONSEIL GÉNÉRAL DE LOIRE
ATLANTIQUE CONSEIL GÉNÉRAL DU MAINE ET
LOIRE AGENCE DE L'EAU ARTOIS PICARDIE ...
INSEE EUROSTAT OCDE BANQUE MONDIALE ...
14. Open data
Formats de données
PDF XLS CSV DOC
XML RDF RTF TXT SHP
GTFS ESRI KML
HTML ODS JPG
...
15. Open data
Data deluge
MINISTÈRE DES SPORTS MINISTÈRE DE L'INTÉRIEUR MINISTÈRE
DU BUDGET MINISTÈRE DE L'ECOLOGIE MINISTÈRE DE
L'ÉDUCATION NATIONALE MINISTÈRE DE LA CULTURE MINISTÈRE
DU TRAVAIL PRÉFECTURE DU JURA PRÉFECTURE DU NORD
G E
PRÉFECTURE DE LA SOMME PRÉFECTURE DE LA MARNE
U
PRÉFECTURE DE L'AIN PRÉFECTURE DU PAS DE CALAIS VILLE DE
L
D E
PARIS VILLE DE NANTES VILLE DE RENNES VILLE DE
MONTPELLIER VILLE DE TOULOUSE VILLE DE BROCAS CONSEIL
T A
GÉNÉRAL DU LOIR ET CHER CONSEIL GÉNÉRAL DE GIRONDE
CONSEIL GÉNÉRAL DE SAÔNE ET LOIRE CONSEIL GÉNÉRAL DE
D A
LOIRE ATLANTIQUE CONSEIL GÉNÉRAL DU MAINE ET LOIRE
AGENCE DE L'EAU ARTOIS PICARDIE AGENCE DE L'EAU ADOUR
GARONNE AGENCE DE L'EAU LOIRE BRETAGNE PDF XLS CSV DOC
XML RDF RTF TXT SHP GTFS ESRI KML HTML ODS JPG
16. Open data
Data deluge
The data deluge refers to the situation where
the sheer volume of new data being generated is
overwhelming the capacity of institutions to
manage it and researchers to make use of it.
http://itlaw.wikia.com/wiki/Data_deluge
17. Open data
Solutions (nécessaires mais pas suffisantes)
● Utilisation d'annuaires
● Segmentation des données existantes :
○ Par éditeur : portée géographique (national,
continental, mondial)
○ Par catégorie : portée sémantique
○ Par format : niveau de réutilisation,
d'automatisation
18. Open data
Solutions ((presque ?) suffisantes)
● Structurer les données
● Les rendre librement accessibles via des
services web (Exemple de Google Maps)
● Assurer leur mise à jour automatique
● Garantir la rétro-compatibilité des systèmes
http://maps.googleapis.com/maps/api/geocode/json?
sensor=false&address=7,%20rue%20des%20Petites%20Ecuries%
20Paris
19. Open data
Data Publica - Histoire
● Origine Projet de R&D financé par le Secrétariat
d'État à l’Économie numérique (2010)
● Septembre 2010 : Lancement du premier annuaire
Français de données électroniques
● Mars 2011 : Lancement de la société Data Publica
● Octobre 2011 : Lancement de la place de marché
● Janvier 2012 : Outil de visualisation générique
● Mars 2012 : Lancement de l'API
20. Open data
Data Publica - Points forts
● Excellente connaissance des données françaises
● Maitrise des technologies de recueil de données
○ Crawling, scraping
○ Text mining, web mining
○ ETL, data cleansing
● Flexibilité et réactivité
● Collaboration avec le monde de la recherche
21. Open data
Data Publica - L'annuaire
● Libre, gratuit, ouvert
● Plus de 13000 jeux de données, 200 éditeurs
● Données & méta-données combinées dans un
moteur de recherche à facettes
● Moteur de visualisation générique
22. Open data
Data Publica - Recherche
● Un résultat du moteur = un jeu de données
● Classement par pertinence ou par date de parution
● Nombreuses facettes :
○ Prix (99% gratuit)
○ 24 catégories (multi-catégories)
○ Type de publication (groupements de formats)
○ Annuaire (site d'origine)
○ Éditeur
○ License
23. Open data
Data Publica - Recherche
Démo
La poule pondeuse, témoin de la puissance du moteur de recherche Data Publica.
http://www.zanimag.fr/files/2011/03/poule-pondeuse.jpg
24. Open data
Data Publica - Visualisateur
● Un outil simple d'utilisation qui permet de visualiser
des données de manière claire :
○ Cartographies
○ Graphiques
○ Courbes
● Un moyen facile d'exporter une visualisation dans
un article
25. Open data
Data Publica - Visualisateur
Première étape : Trouver sa visualisation
26. Open data
Data Publica - Visualisateur
Deuxième étape : Choisir un type de visualisation
27. Open data
Data Publica - Visualisateur
Troisième étape : Paramétrer ses données
28. Open data
Data Publica - Visualisateur
Last but not least : Partager ses données
29. Open data
Data Publica - Visualisateur
Démo
Délinquance : des chiffres qui donnent la chair de poule (pondeuse)
http://www.monversailles.com/wp-content/uploads/2009/11/menottes.jpg
30. Open data
Visualisateur : prenez la main !
Quel est le pays Européen dont le montant de la
dette publique était le plus important en 2010 ?
31. Open data
Visualisateur : prenez la main !
Quel est le pays Européen dont le montant de la
dette publique était le plus important en 2010 ?
L'Allemagne, avec 2062 milliards d'euros.
La Grèce à quant à elle la part la plus elevée par
rapport à son PIB avec 145%.
32. Open data
Visualisateur : prenez la main !
Quel est le pays Européen qui détient le plus
d'élevages de poules pondeuses ? Le plus de
poules pondeuses ?
33. Open data
Visualisateur : prenez la main !
Quel est le pays Européen qui détenait le plus
d'élevages de poules pondeuses en 2007 ?
Le plus de poules pondeuses ?
La Roumanie avec 2 951 970 élevages.
La France avec 73 670 000 poules pondeuses.
Varier le paramètre "Nombre de têtes".
34. Open data
Visualisateur : prenez la main !
Quel est le domaine d'activité en France le plus
sujet à des accidents du travail ?
35. Open data
Visualisateur : prenez la main !
Quel est le domaine d'activité en France le plus
sujet à des accidents du travail ?
La construction.
Nette amélioration dans l'agriculture en 2007.
Observer également avec la dimensions Pays.
36. Open data
Data Publica, c'est aussi...
Un blog sur l'actualité des données
http://www.data-publica.com/content/blog/data-news/
● Des articles d'analyse de jeu de données : Analyse
des résultats des primaires socialistes, Analyse des
données sur la délinquance,...
● Des entretiens avec des acteurs du domaine
37. Open data
Data Publica, c'est aussi...
Le "labs" et ses expériences
http://observatoire.data-publica.com/
Outil de mesure de l'impact des 10 candidats à la
présidentielle sur Twitter :
● Nombre de followers
● Analyse sémantique (text-mining)
● Bruit (nombre de tweets associés)
38. Open data
Data Publica, c'est aussi...
Le "labs" et ses expériences
http://www.data-publica.com/content/2012/03/voyage-dans-le-patrimoine-immobilier-de-letat/
Analyse et cartographie sur les biens immobiliers
détenus par l'État Français dans le monde.
39. Des questions ?
EMI - CFD
Mercredi 28 mars 2012
Thomas Dudouet
thomas.dudouet@data-publica.com
@tdudouet