Initié par un Googler en 2005, le format de données GTFS est supporté par une majorité des régies de transports en commun au travers le monde. Activement supporté par Google, il est à la base de nombreux outils utilisés au quotidien par les voyageurs du monde entier. Malgré tout ce format de données n'est pas exempt de défauts, et pose de nombreuses problématiques. Venez découvrir les spécificités de ce format de données, mais également les challenges à relever pour l'intégrer et l'exploiter. Les fails à éviter, ainsi qu'un retour d'expérience basé sur plusieurs tentatives d'architectures.
Kubernetes University, Cap sur l’orchestration Docker
Devoxx france 2015 - Intégrer et exploiter le format de données ouvert GTFS. Fails et succès, ce qui marche et ce qui ne marche pas !
1. @alexiskinsella#DevoxxGTFS
INTÉGRER ET EXPLOITER LE FORMAT DE
DONNÉES OUVERT GTFS. FAILS ET SUCCÈS,
CE QUI MARCHE ET CE QUI NE MARCHE PAS !
@alexiskinsella
Xebia, http://blog.xebia.fr
Alexis Kinsella
7. @alexiskinsella#DevoxxGTFS
Objectifs
Les flux de données GTFS permettent:
1. Aux agences de transport public de publier leur
données.
2. Aux développeurs d’écrire des applications qui
les consomment.
10. @alexiskinsella#DevoxxGTFS
Horaires temps réel
Le format de données est basé sur protobuf … Oui, c’est :)
La norme GTFS-realtime complète la norme GTFS.
Elle vient amender les données théoriques par des
données temps réel.
Le format de données est basé sur protobuf … Oui, c’est Google :)
15. @alexiskinsella#DevoxxGTFS
Disparité de l’accès aux données
Certains jeux de données sont en accès libre …
D’autres sont accessibles après inscription et authentification :/
Pour d’autres, il faut déjà les trouver !
16. @alexiskinsella#DevoxxGTFS
Disparité des jeux de données
Problèmes d’interprétation de la norme
Maturité des jeux de données assez inégale
Données sous forme de zip … Parfois même un zip dans un zip …
46. @alexiskinsella#DevoxxGTFS
Des atouts …
• Base de données relationnelle
• Insertion multi cores
• Support géo-spatial fortement amélioré avec
InnoDB en 5.7
• Très bonnes performances
62. @alexiskinsella#DevoxxGTFS
MySQL - Types des données
Réécrire les fichiers de données GTFS pour changer les clés
« varchar » ou « char » en clés de type « int »
68. @alexiskinsella#DevoxxGTFS
Solution
SSDB est une base de données en mode client / serveur
compatible avec le protocole Redis !
Replicable & load balançable
Avec un jeux d’instructions compatibles !
81. @alexiskinsella#DevoxxGTFS
Performances & Structures des données
Améliorer les structures de données exploitées.
Par exemple: Utiliser une taille fixe des structures de données en base, pour cela il
faut calculer la taille nécessaire à la création des tables
87. @alexiskinsella#DevoxxGTFS
Resources
• Open data stickers:
http://upload.wikimedia.org/wikipedia/commons/c/cc/Open_Da
ta_stickers.jpg
• Images de la série South Park, des films Inception & Austin
Powers
• http://en.wikipedia.org/wiki/Rage_comic
• http://www.iconarchive.com/show/flat-file-type-icons-by-
pelfusion/zip-icon.html
• Benchmark du site ssdb.io
• Quelques sources inconnues, désolé …
Hinweis der Redaktion
Le sigle GTFS signifie General Transit Feed Specification.
Le format de données GTFS a été normalisé par Google en 2005.
Chaque fichier modèle un aspect particulier des informations du transporteur:
stops, routes, trips, et autres données de planification
Différentes licences régissent l’utilisation des données GTFS. Elle varient d’un transporteur à l’autre et peuvent être spécifiques à certains transporteurs (SNCF, RATP, …).
On ne le dit pas assez, mais c’est important de lire le contenu des licences. Elles réservent parfois des surprises.
Pour accéder aux données GTFS du Grand Lyon, disponibles depuis février de cette année, il est nécessaire de s’inscrire puis de signer une licence : La licence engagée… Elle est très particulière car elle impose à son consommateur un droit de regard sur l’usage qu’en est fait des données, et pour garantir cela son producteur s’arroge le droit par la signature de la licence, un droit d’audit de votre système … Pensez en ce que vous voulez, mais je ne suis pas prêt à ouvrir l’accès de mes serveurs en l’échange de l’accès à des données d’intérêt public.
Notamment au niveau de la gestion des calendriers et exceptions aux calendriers