Mieux travailler sur Excel pour exporter un fichier CSV propre : structure des données, contenu et présentation.
Cette présentation est une première base de travail. Vos avis sont les bienvenus !
2. Page 2 - Bonnes pratiques sur Excel
Sommaire
La qualité d’une donnée
Les étapes de publication
Bonnes pratiques sur Excel
Structure
Données
Présentation
3. Page 3 - Bonnes pratiques sur Excel
Contexte : la « qualité » d'une donnée
1. Données (non filtrées c'est-à-dire dégradées) en ligne quel que soit leur format
2. Données structurées (par exemple données tabulaires en CSV, XML,
Excel, …)
3. Données libres d'être exploitées juridiquement et techniquement
dans des formats non-propriétaires
(notamment pas Excel)
4. Une URL par jeu de données, de sorte que l'on
puisse pointer dessus
5. Lier les données à d'autres
personnes ou infos
pour fournir un contexte
à ces données
Échelle de qualité
définie en 2010 par
Tim Berners-Lee
4. Page 4 - Bonnes pratiques sur Excel
Les étapes de publication
Fichier Excel
Fichier(s) Excel « nettoyé(s) »
(structure, données, présentation)
Ajout ou reformatage des adresses
Filtre sur l’IDF pour les données
externes
Géocodage via API
OSM ou Google Map
+ corrections (environ
5% des données)
Fichier CSV
Contrôle, nettoyage des données
pour géocoder, …
Publication avec
les métadonnées
5. Page 5 - Bonnes pratiques sur Excel
Bonnes pratiques sur Excel : structure
Une feuille = un jeu de données
Un tableau par feuille
1 onglet = un jeu de données
Ou 1 jeu = fusion des onglets
Exemples
Recensement des équipement sportifs = 1 fichier redécoupé en
8 jeux de données (1 par département)
Domaines d’intérêt majeur (DIM) : équipements mi-lourds
financés en 2012 = 1 jeu de données reprenant l’ensemble des
onglets
6. Page 6 - Bonnes pratiques sur Excel
Bonnes pratiques sur Excel : structure
En-têtes sur la 1ère ligne (= titres de colonnes)
Pas de cellule vide dans les titres de colonnes
7. Page 7 - Bonnes pratiques sur Excel
Bonnes pratiques sur Excel : structure
Pas de cellule fusionnée (titres et contenu)
Attention aux lignes masquées !
elles s’affichent en CSV
Éviter les lignes ou colonnes vides
Attention aux données « orphelines » !
8. Page 8 - Bonnes pratiques sur Excel
Bonnes pratiques sur Excel : données
Indiquer des adresses quand cela est possible
Formater l'adresse en 3 champs mini (voie, cp, ville)
Indiquer les unités de mesures
(dans le fichier ou dans les métadonnées)
Préciser les dates (mois, année)
Pas de totaux ou sous-totaux
Attention aux formules "cassées" qu’il est parfois
difficile de corriger
9. Page 9 - Bonnes pratiques sur Excel
Bonnes pratiques sur Excel : présentation
Pas d’information transmise par la couleur
Dans le format CSV, ces données sont supprimées !
http://www.data.gouv.fr/DataSet/30382387?xtmc=frequentation+des+musees+de+france&xtcr=2
http://data.iledefrance.fr/explore/dataset/frequentation_des_musees_franciliens_entre_2006_et_2010#?tab=table
10. Page 9 - Bonnes pratiques sur Excel
Bonnes pratiques sur Excel : présentation
Pas d’information transmise par la couleur
Dans le format CSV, ces données sont supprimées !
http://www.data.gouv.fr/DataSet/30382387?xtmc=frequentation+des+musees+de+france&xtcr=2
http://data.iledefrance.fr/explore/dataset/frequentation_des_musees_franciliens_entre_2006_et_2010#?tab=table