Wir haben eine Applikation entwickelt, um Gleislagefehler grafisch darzustellen und nach ihren Ursachen zu suchen, denn auch in Zeiten von Big Data bleibt das menschliche Gehirn eine der leistungsfähigsten Maschinen zur Mustererkennung.
Hierfür erhalten alle Strecken einen “Gefährdungskoeffizienten”, der aus den Angaben "Alter", "Leistungstonnen pro Tag" und "Züge pro Tag" mit einer frei wählbaren Gewichtung berechnet wird, und wer-den auf der Karte dementsprechend eingefärbt.
Auf diese Weise kann man die Daten interaktiv untersuchen. Unsere Ergebnisse: Die Daten der DB enthalten einige Inkonsistenzen und sind nicht ganz vollständig. Das Alter spielt für die Gleislagefehler eine untergeordnete Rolle, Leistungstonnen und Züge pro Tag schon eher.
2. Beispiel: Gleislagefehler, wo kommen sie her?
#dbhackathon | Die Vier M | Berlin, 08./09.05.2015 Quelle: http://de.wikipedia.org/wiki/Gleisverwerfung
3. Big Data: sichtbar gemacht
Mustererkennung mit menschlichem Gehirn
#dbhackathon | Die Vier M | Berlin, 08./09.05.2015
Quelle: http://commons.wikimedia.org/wiki/Fractal
4. Viele bislang ungenutzte Möglichkeiten:
räumliche & zeitliche Darstellung von Daten
Demo!
Karte mit interaktiver Handhabung, wie z.B. von Google Maps bekannt
Verschieben, Vergrößern, Anklicken für Details
Geografische Merkmale: Höhenlinien
OSM Infrastrukturdaten wie z.B. Gleise oder Brücken
Nachvollziehbarkeit räumlicher und zeitlicher Abläufe
Sofortige Veränderung der dargestellten Einflussgrößen
Hypothesen lassen sich visuell testen
Interaktion macht Spaß!
#dbhackathon | Die Vier M | Berlin, 08./09.05.2015
5. Ergebnisse
Die Datenlage
Für manche Strecken fehlen Leistungstonnen und Anzahl der Züge
Daten überlappen sich, unklare Zuordnung
Bedeutung der Spalte „In_Betrieb_ab“ (Alter=heute-Spalte) nicht klar
Abweichungen zwischen Karte und DB-Daten
Erkenntnisse
Alter: kein wesentlicher Einfluss auf Gleislagefehler
Leistungstonnen und Züge pro Tag schon eher
Summa summarum
Mehr Expertenwissen ist notwendig, um die Daten weiter auszuwerten
Interaktive grafische Darstellungen immer nötig
Beurteilung der Datenqualität
Überprüfung von menschlichen und algorithmischen Hypothesen
#dbhackathon | Die Vier M | Berlin, 08./09.05.2015
6. Technische Eigenschaften
Anwendung komplett in JavaScript
Fast komplett im Webbrowser, inkl. Datenauswertung, Client-Deployment entfällt
Moderne Webbrowser: hocheffiziente JavaScript-Verarbeitung
Dutzende von Millionen USD und EUR in Performanceverbesserung geflossen (Google, Apple, MS)
Ahead-of-Time Compiler, Geschwindigkeit kann Größenordnung von C++ oder Java erreichen
Entwickler muss natürlich effizienten Code machen: JavaScript ist nicht die Limitation
Server: 100 Zeilen Code, betriebssystemunabhängig ebenfalls JavaScript (Node.js)
keine Installation notwendig, portable Einzelordnerapplikation, optional als Dienst
Kartendaten: OpenStreetMap
Eingabeformate
CSV für Gleislagefehler und Regionalbereich Mitte, KML für Deutschlandnetz
Bisher: 50MB Daten (CSV+KML) beim Start in den Browser geladen, ca. 0,5 Sekunden
Optional: Binärdaten direkt im Browser, 200MB+ in 0.7 Sekunden (LAN vorausgesetzt)
Optional: Node.js Module für fast alle Datenbanken, Schnittstellen zu Drittsystemen
#dbhackathon | Die Vier M | Berlin, 08./09.05.2015
7. Vielen Dank für die
Aufmerksamkeit!
Fragen, Anregungen? Mail an michael.siebert2k@gmail.com !
#dbhackathon | Die Vier M | Berlin, 08./09.05.2015