LAKO Kreativpreis_2024_Startnummer_02_(LFS_LA).pdf
Datenqualität von Datenportalen
1. Cooperation OGD Österreich
SUB-AG
Qualitätssicherung auf Open Data Portalen
Johann Höchtl
Axel Polleres
Jürgen Umbrich
2. Mission Statement
Die Sub-Arbeitsgruppe Qualitätssicherung von Open Data
Portalen verbessert durch technische Maßnahmen und die
Erstellung von Leitfäden zur empfohlenen Praxis die
Datenqualität von Datensätzen und unterstützt durch
organisatorische und technische Maßnahmen den
Veröffentlichungsprozess, um in Zukunft höhere
Qualitätsniveaus und somit erhöhte Nutzbarkeit und
Nachhaltigkeit von offenen Daten zu erreichen.
3. Zielerreichung
1. Arbeitserleichterung: für DatenanbieterInnen bei
Veröffentlichung und Wartung
2. Messbare Datenqualität: In Vergleichen sind
österreichische Verwaltungsdaten im Bereich der Daten-
Qualität im vorderen Drittel
3. Vorbildsfunktion: internationale Anerkennung der
Qualitätsmaßnahmen als gute Praxis
4. Ziele (1)
Sammlung, Auswertung und Bereitstellung von nationalen und
internationalen Erfahrungswerten bei der Veröffentlichung
offener Daten
8. NICHT-Ziele
• Hürden zur Teilnahme an OGD
• Mehraufwand
• Das Rad neu Erfinden: Integration neuer
Komponenten in bestehende Lösungen
9. Identifizierte Datenprobleme (UK)
http://www.computerweekly.com/news/2240227682/Poor-data-quality-hindering-government-open-data-transparency-programme
• Encoding is introducing characters that cause data quality problems.
Various encoding methods are used randomly, including ASCII, ISO-
8859 and Windows formats
• Software such as Microsoft Excel is producing non-compliant UTF-8
exports, introducing flaws into the data where they need not exist
• Formatting of common information, such as data fields, was
different across different records
• Fields were continually added or removed
• Commas are added to records, causing problems with processing
and analysis, since many systems use commas to separate data
fields
• Analysis suggested a large amount of human error
10. Identifizierte Datenprobleme (AT)
https://github.com/the42/ogdat
• Nicht funktionierende URLs
http://data.linz.gv.at/katalog/population/wanderung/zuzug/2009/zuzug_2009.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00
http://data.linz.gv.at/katalog/population/wanderung/zuzug/2008/zuzug_2008.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00
http://data.linz.gv.at/katalog/population/wanderung/zuzug/2011/zuzug_2011.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00
http://data.linz.gv.at/katalog/population/wanderung/zuzug/2010/zuzug_2010.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00
http://data.linz.at/katalog/stadt/wohnungen/wohnraeume/2012/twoanzrg_2012.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:33:42.795532+00
http://data.linz.gv.at/ogd/katalog/politik_verwaltung/verwaltung/budget/2013/RA/ZRECHAB_2013.csv liefert nicht-OK Status-Code
'404' (Get) 2014-11-17 13:32:08.374879+00
• Probleme bei Metadatenbeschreibungen
Land Tirol
Feldwert vom Typ ÖNORM ISO 8601 TM_Primitive 'YYYY-MM-DDThh:mm:ss' erwartet, Wert entspricht aber nicht diesem Typ:
'2009-01-01'
Land Tirol JSON vom Typ 'Array of String' erwartet, es wurde jedoch ein einzelner Wert geliefert
Land Tirol kein Wert für Link angegeben (Länge 0)
Land Tirol Beschreibung enthält weniger als 20 Zeichen (sinnvolle Beschreibung?)
Land Tirol Zeichenkette mit Länge 0 an dieser Stelle nicht sinnvoll
Land Tirol Zeichenkette mit Länge 0 an dieser Stelle nicht sinnvoll
11. Nächste Schritte
• Sammlung nationaler und internationaler guter Erfahrung mit Open Data
• Maschinenlesbare Version der österreichischen Metadatenkonvention und
davon abgeleitete Formate
• Überprüfung der österreichischen Metadatenkonvention auf ihre
allgemeingültige Anwendbarkeit für andere Einsatzbereiche
• Implementierung / Erweiterung eines Plugins für CKAN
• Monitoring der Daten und Metadaten im Zeitverlauf
• Verbesserung der Suche auf Datenportalen
• Community-Portal, das Metadaten von data.gv.at und opendataportal.at
zusammenfasst mit erweiterten Funktionalitäten
Qualitätsvolle Prozesse und Vorgehensmodelle bei der Erhebung und der Bereitstellung der Daten beim Produzenten
Beiträge der Datenkonsumenten
Qualitätschecks bei der Eingabe von Daten und Metadaten am Datenportal
Monitoring der Datenqualität im Verlauf der Zeit, inhaltliche Überprüfungen
Von DatenkonsumentInnen betriebene Datenportale mit benutzerInnengenerierten Inhalten, welche es etwa erlauben, die bestehenden Daten in andere Formate zu konvertieren oder Metadaten anzureichern oder zu verbessern.