SlideShare ist ein Scribd-Unternehmen logo
Cooperation OGD Österreich 
SUB-AG 
Qualitätssicherung auf Open Data Portalen 
Johann Höchtl 
Axel Polleres 
Jürgen Umbrich
Mission Statement 
Die Sub-Arbeitsgruppe Qualitätssicherung von Open Data 
Portalen verbessert durch technische Maßnahmen und die 
Erstellung von Leitfäden zur empfohlenen Praxis die 
Datenqualität von Datensätzen und unterstützt durch 
organisatorische und technische Maßnahmen den 
Veröffentlichungsprozess, um in Zukunft höhere 
Qualitätsniveaus und somit erhöhte Nutzbarkeit und 
Nachhaltigkeit von offenen Daten zu erreichen.
Zielerreichung 
1. Arbeitserleichterung: für DatenanbieterInnen bei 
Veröffentlichung und Wartung 
2. Messbare Datenqualität: In Vergleichen sind 
österreichische Verwaltungsdaten im Bereich der Daten- 
Qualität im vorderen Drittel 
3. Vorbildsfunktion: internationale Anerkennung der 
Qualitätsmaßnahmen als gute Praxis
Ziele (1) 
Sammlung, Auswertung und Bereitstellung von nationalen und 
internationalen Erfahrungswerten bei der Veröffentlichung 
offener Daten
Ziele (2) 
Evaluierung, Konzeption und Implementierung von technischen 
Werkzeugen
Ziele (3) 
Handlungsempfehlungen 
http://opendataresearch.org/sites/default/files/posts/Common%20Assessment%20Workshop%20Report.pdf
Qualitätshebel – Big Picture
NICHT-Ziele 
• Hürden zur Teilnahme an OGD 
• Mehraufwand 
• Das Rad neu Erfinden: Integration neuer 
Komponenten in bestehende Lösungen
Identifizierte Datenprobleme (UK) 
http://www.computerweekly.com/news/2240227682/Poor-data-quality-hindering-government-open-data-transparency-programme 
• Encoding is introducing characters that cause data quality problems. 
Various encoding methods are used randomly, including ASCII, ISO- 
8859 and Windows formats 
• Software such as Microsoft Excel is producing non-compliant UTF-8 
exports, introducing flaws into the data where they need not exist 
• Formatting of common information, such as data fields, was 
different across different records 
• Fields were continually added or removed 
• Commas are added to records, causing problems with processing 
and analysis, since many systems use commas to separate data 
fields 
• Analysis suggested a large amount of human error
Identifizierte Datenprobleme (AT) 
https://github.com/the42/ogdat 
• Nicht funktionierende URLs 
http://data.linz.gv.at/katalog/population/wanderung/zuzug/2009/zuzug_2009.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00 
http://data.linz.gv.at/katalog/population/wanderung/zuzug/2008/zuzug_2008.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00 
http://data.linz.gv.at/katalog/population/wanderung/zuzug/2011/zuzug_2011.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00 
http://data.linz.gv.at/katalog/population/wanderung/zuzug/2010/zuzug_2010.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00 
http://data.linz.at/katalog/stadt/wohnungen/wohnraeume/2012/twoanzrg_2012.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:33:42.795532+00 
http://data.linz.gv.at/ogd/katalog/politik_verwaltung/verwaltung/budget/2013/RA/ZRECHAB_2013.csv liefert nicht-OK Status-Code 
'404' (Get) 2014-11-17 13:32:08.374879+00 
• Probleme bei Metadatenbeschreibungen 
Land Tirol 
Feldwert vom Typ ÖNORM ISO 8601 TM_Primitive 'YYYY-MM-DDThh:mm:ss' erwartet, Wert entspricht aber nicht diesem Typ: 
'2009-01-01' 
Land Tirol JSON vom Typ 'Array of String' erwartet, es wurde jedoch ein einzelner Wert geliefert 
Land Tirol kein Wert für Link angegeben (Länge 0) 
Land Tirol Beschreibung enthält weniger als 20 Zeichen (sinnvolle Beschreibung?) 
Land Tirol Zeichenkette mit Länge 0 an dieser Stelle nicht sinnvoll 
Land Tirol Zeichenkette mit Länge 0 an dieser Stelle nicht sinnvoll
Nächste Schritte 
• Sammlung nationaler und internationaler guter Erfahrung mit Open Data 
• Maschinenlesbare Version der österreichischen Metadatenkonvention und 
davon abgeleitete Formate 
• Überprüfung der österreichischen Metadatenkonvention auf ihre 
allgemeingültige Anwendbarkeit für andere Einsatzbereiche 
• Implementierung / Erweiterung eines Plugins für CKAN 
• Monitoring der Daten und Metadaten im Zeitverlauf 
• Verbesserung der Suche auf Datenportalen 
• Community-Portal, das Metadaten von data.gv.at und opendataportal.at 
zusammenfasst mit erweiterten Funktionalitäten
MITARBEIT GEWÜNSCHT 
Österreich wird international 
bei Open Data ganz vorne mit dabei sein!

Weitere ähnliche Inhalte

Ähnlich wie Datenqualität von Datenportalen

Elastic Stack: Grundlagen der zentralen Logdatenverwaltung (Webinar vom 15. A...
Elastic Stack: Grundlagen der zentralen Logdatenverwaltung (Webinar vom 15. A...Elastic Stack: Grundlagen der zentralen Logdatenverwaltung (Webinar vom 15. A...
Elastic Stack: Grundlagen der zentralen Logdatenverwaltung (Webinar vom 15. A...
NETWAYS
 
UBA Data Cube
UBA Data CubeUBA Data Cube
UBA Data Cube
Safe Software
 
Logstash: Open Source Log-Management (Webinar vom 20.02.2014)
Logstash: Open Source Log-Management (Webinar vom 20.02.2014)Logstash: Open Source Log-Management (Webinar vom 20.02.2014)
Logstash: Open Source Log-Management (Webinar vom 20.02.2014)
NETWAYS
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Martin Kaltenböck
 
Tools zur Diagnose von Weblogic Performanceengpässen und Fehlerzuständen
Tools zur Diagnose von Weblogic Performanceengpässen und FehlerzuständenTools zur Diagnose von Weblogic Performanceengpässen und Fehlerzuständen
Tools zur Diagnose von Weblogic Performanceengpässen und Fehlerzuständen
OPITZ CONSULTING Deutschland
 
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)
NETWAYS
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!
Harald Erb
 
Alltägliche SEO-Analysen mit den SEO Tools for Excel
Alltägliche SEO-Analysen mit den SEO Tools for ExcelAlltägliche SEO-Analysen mit den SEO Tools for Excel
Alltägliche SEO-Analysen mit den SEO Tools for Excel
Projecter GmbH
 
Datenmanagement 2.0: Active Datamanagement (ADM)
Datenmanagement 2.0: Active Datamanagement (ADM)Datenmanagement 2.0: Active Datamanagement (ADM)
Datenmanagement 2.0: Active Datamanagement (ADM)
topsoft - inspiring digital business
 
Zielsetzung, Entwicklung und Herausforderungen des “Kerndatensatz Forschung”
Zielsetzung, Entwicklung und Herausforderungen des “Kerndatensatz Forschung”Zielsetzung, Entwicklung und Herausforderungen des “Kerndatensatz Forschung”
Zielsetzung, Entwicklung und Herausforderungen des “Kerndatensatz Forschung”
Dr. Mathias Riechert
 
Repository Usage Statistics and the Open Research Analytics Service
Repository Usage Statistics and the Open Research Analytics ServiceRepository Usage Statistics and the Open Research Analytics Service
Repository Usage Statistics and the Open Research Analytics Service
OpenAIRE
 
The Best Business Software in Town - Wie agiles Requirements Engineering die ...
The Best Business Software in Town - Wie agiles Requirements Engineering die ...The Best Business Software in Town - Wie agiles Requirements Engineering die ...
The Best Business Software in Town - Wie agiles Requirements Engineering die ...
Christopher Schulz
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
Trivadis
 
MairDumont Switch to Elasticsearch
MairDumont Switch to ElasticsearchMairDumont Switch to Elasticsearch
MairDumont Switch to Elasticsearch
Big Data User Group Karlsruhe/Stuttgart
 
Splunk Webinar: Maschinendaten anreichern mit Informationen
Splunk Webinar: Maschinendaten anreichern mit InformationenSplunk Webinar: Maschinendaten anreichern mit Informationen
Splunk Webinar: Maschinendaten anreichern mit Informationen
Georg Knon
 
‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference
‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference
‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference
DataValueTalk
 
Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
Hendrik Kalb
 
Open Science: Flickschusterei in der digitalen Steinzeit
Open Science: Flickschusterei in der digitalen SteinzeitOpen Science: Flickschusterei in der digitalen Steinzeit
Open Science: Flickschusterei in der digitalen Steinzeit
Björn Brembs
 
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Hamburg University of Applied Sciences (HAW)
 
BizDataX Testdatenmanagement Konzepte
BizDataX Testdatenmanagement KonzepteBizDataX Testdatenmanagement Konzepte
BizDataX Testdatenmanagement Konzepte
Dragan Kinkela
 

Ähnlich wie Datenqualität von Datenportalen (20)

Elastic Stack: Grundlagen der zentralen Logdatenverwaltung (Webinar vom 15. A...
Elastic Stack: Grundlagen der zentralen Logdatenverwaltung (Webinar vom 15. A...Elastic Stack: Grundlagen der zentralen Logdatenverwaltung (Webinar vom 15. A...
Elastic Stack: Grundlagen der zentralen Logdatenverwaltung (Webinar vom 15. A...
 
UBA Data Cube
UBA Data CubeUBA Data Cube
UBA Data Cube
 
Logstash: Open Source Log-Management (Webinar vom 20.02.2014)
Logstash: Open Source Log-Management (Webinar vom 20.02.2014)Logstash: Open Source Log-Management (Webinar vom 20.02.2014)
Logstash: Open Source Log-Management (Webinar vom 20.02.2014)
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
 
Tools zur Diagnose von Weblogic Performanceengpässen und Fehlerzuständen
Tools zur Diagnose von Weblogic Performanceengpässen und FehlerzuständenTools zur Diagnose von Weblogic Performanceengpässen und Fehlerzuständen
Tools zur Diagnose von Weblogic Performanceengpässen und Fehlerzuständen
 
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!
 
Alltägliche SEO-Analysen mit den SEO Tools for Excel
Alltägliche SEO-Analysen mit den SEO Tools for ExcelAlltägliche SEO-Analysen mit den SEO Tools for Excel
Alltägliche SEO-Analysen mit den SEO Tools for Excel
 
Datenmanagement 2.0: Active Datamanagement (ADM)
Datenmanagement 2.0: Active Datamanagement (ADM)Datenmanagement 2.0: Active Datamanagement (ADM)
Datenmanagement 2.0: Active Datamanagement (ADM)
 
Zielsetzung, Entwicklung und Herausforderungen des “Kerndatensatz Forschung”
Zielsetzung, Entwicklung und Herausforderungen des “Kerndatensatz Forschung”Zielsetzung, Entwicklung und Herausforderungen des “Kerndatensatz Forschung”
Zielsetzung, Entwicklung und Herausforderungen des “Kerndatensatz Forschung”
 
Repository Usage Statistics and the Open Research Analytics Service
Repository Usage Statistics and the Open Research Analytics ServiceRepository Usage Statistics and the Open Research Analytics Service
Repository Usage Statistics and the Open Research Analytics Service
 
The Best Business Software in Town - Wie agiles Requirements Engineering die ...
The Best Business Software in Town - Wie agiles Requirements Engineering die ...The Best Business Software in Town - Wie agiles Requirements Engineering die ...
The Best Business Software in Town - Wie agiles Requirements Engineering die ...
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
MairDumont Switch to Elasticsearch
MairDumont Switch to ElasticsearchMairDumont Switch to Elasticsearch
MairDumont Switch to Elasticsearch
 
Splunk Webinar: Maschinendaten anreichern mit Informationen
Splunk Webinar: Maschinendaten anreichern mit InformationenSplunk Webinar: Maschinendaten anreichern mit Informationen
Splunk Webinar: Maschinendaten anreichern mit Informationen
 
‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference
‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference
‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference
 
Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
Kontextbasiertes Information Retrieval: Eine Systematik der Anwendungspotent...
 
Open Science: Flickschusterei in der digitalen Steinzeit
Open Science: Flickschusterei in der digitalen SteinzeitOpen Science: Flickschusterei in der digitalen Steinzeit
Open Science: Flickschusterei in der digitalen Steinzeit
 
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
Relevance Assessment Tool - Ein Werkzeug zum Design von Retrievaltests sowie ...
 
BizDataX Testdatenmanagement Konzepte
BizDataX Testdatenmanagement KonzepteBizDataX Testdatenmanagement Konzepte
BizDataX Testdatenmanagement Konzepte
 

Mehr von Johann Höchtl

Homomorphic encryption on Blockchain Principles
Homomorphic encryption on Blockchain PrinciplesHomomorphic encryption on Blockchain Principles
Homomorphic encryption on Blockchain Principles
Johann Höchtl
 
Performance-indicator based policy-making in Austria
Performance-indicator based policy-making in AustriaPerformance-indicator based policy-making in Austria
Performance-indicator based policy-making in Austria
Johann Höchtl
 
Datenqualität auf Offenen Datenportalen
Datenqualität auf Offenen DatenportalenDatenqualität auf Offenen Datenportalen
Datenqualität auf Offenen Datenportalen
Johann Höchtl
 
ADV FIWARE Workshop starring Docker and Virtualisation
ADV FIWARE Workshop starring Docker and VirtualisationADV FIWARE Workshop starring Docker and Virtualisation
ADV FIWARE Workshop starring Docker and Virtualisation
Johann Höchtl
 
Projektbeschreibung ADEQUATe
Projektbeschreibung ADEQUATeProjektbeschreibung ADEQUATe
Projektbeschreibung ADEQUATe
Johann Höchtl
 
Institutionalising open data quality - Processes Standards, Tools
Institutionalising open data quality - Processes Standards, ToolsInstitutionalising open data quality - Processes Standards, Tools
Institutionalising open data quality - Processes Standards, Tools
Johann Höchtl
 
Yound Coders Festival
Yound Coders FestivalYound Coders Festival
Yound Coders Festival
Johann Höchtl
 
Sind wir schon da?!
Sind wir schon da?!Sind wir schon da?!
Sind wir schon da?!
Johann Höchtl
 
Offener Haushalt – Transparenz in öffentlichen Haushalten
Offener Haushalt – Transparenz in öffentlichen HaushaltenOffener Haushalt – Transparenz in öffentlichen Haushalten
Offener Haushalt – Transparenz in öffentlichen Haushalten
Johann Höchtl
 
Open Government Data & offene Wirtschaftsdaten - Two of a Kind?
Open Government Data & offene Wirtschaftsdaten - Two of a Kind?Open Government Data & offene Wirtschaftsdaten - Two of a Kind?
Open Government Data & offene Wirtschaftsdaten - Two of a Kind?
Johann Höchtl
 
Elektronische Literaturverwaltung mit Zotero
Elektronische Literaturverwaltung mit ZoteroElektronische Literaturverwaltung mit Zotero
Elektronische Literaturverwaltung mit Zotero
Johann Höchtl
 
The Case of opendataportal.at
The Case of opendataportal.atThe Case of opendataportal.at
The Case of opendataportal.at
Johann Höchtl
 
From E-Government to Open Government
From E-Government to Open GovernmentFrom E-Government to Open Government
From E-Government to Open Government
Johann Höchtl
 
Smart Cities and Smart ICT
Smart Cities and Smart ICTSmart Cities and Smart ICT
Smart Cities and Smart ICT
Johann Höchtl
 
Evaluation of Open Government Data Implementation of City of Vienna
Evaluation of Open Government Data Implementation of City of ViennaEvaluation of Open Government Data Implementation of City of Vienna
Evaluation of Open Government Data Implementation of City of Vienna
Johann Höchtl
 
Costs of Closed Science
Costs of Closed ScienceCosts of Closed Science
Costs of Closed Science
Johann Höchtl
 
Smart Cities, Smart Regions and the Role of Open Data
Smart Cities, Smart Regions and the Role of Open DataSmart Cities, Smart Regions and the Role of Open Data
Smart Cities, Smart Regions and the Role of Open Data
Johann Höchtl
 
OGD for Culture and Art
OGD for Culture and ArtOGD for Culture and Art
OGD for Culture and Art
Johann Höchtl
 
Evaluierung der Open Government Data Umsetzung der Stadt Wien - Auszug
Evaluierung der Open Government Data Umsetzung der Stadt Wien - AuszugEvaluierung der Open Government Data Umsetzung der Stadt Wien - Auszug
Evaluierung der Open Government Data Umsetzung der Stadt Wien - Auszug
Johann Höchtl
 
Open Government Data DCAT Application Profile
Open Government Data DCAT Application ProfileOpen Government Data DCAT Application Profile
Open Government Data DCAT Application Profile
Johann Höchtl
 

Mehr von Johann Höchtl (20)

Homomorphic encryption on Blockchain Principles
Homomorphic encryption on Blockchain PrinciplesHomomorphic encryption on Blockchain Principles
Homomorphic encryption on Blockchain Principles
 
Performance-indicator based policy-making in Austria
Performance-indicator based policy-making in AustriaPerformance-indicator based policy-making in Austria
Performance-indicator based policy-making in Austria
 
Datenqualität auf Offenen Datenportalen
Datenqualität auf Offenen DatenportalenDatenqualität auf Offenen Datenportalen
Datenqualität auf Offenen Datenportalen
 
ADV FIWARE Workshop starring Docker and Virtualisation
ADV FIWARE Workshop starring Docker and VirtualisationADV FIWARE Workshop starring Docker and Virtualisation
ADV FIWARE Workshop starring Docker and Virtualisation
 
Projektbeschreibung ADEQUATe
Projektbeschreibung ADEQUATeProjektbeschreibung ADEQUATe
Projektbeschreibung ADEQUATe
 
Institutionalising open data quality - Processes Standards, Tools
Institutionalising open data quality - Processes Standards, ToolsInstitutionalising open data quality - Processes Standards, Tools
Institutionalising open data quality - Processes Standards, Tools
 
Yound Coders Festival
Yound Coders FestivalYound Coders Festival
Yound Coders Festival
 
Sind wir schon da?!
Sind wir schon da?!Sind wir schon da?!
Sind wir schon da?!
 
Offener Haushalt – Transparenz in öffentlichen Haushalten
Offener Haushalt – Transparenz in öffentlichen HaushaltenOffener Haushalt – Transparenz in öffentlichen Haushalten
Offener Haushalt – Transparenz in öffentlichen Haushalten
 
Open Government Data & offene Wirtschaftsdaten - Two of a Kind?
Open Government Data & offene Wirtschaftsdaten - Two of a Kind?Open Government Data & offene Wirtschaftsdaten - Two of a Kind?
Open Government Data & offene Wirtschaftsdaten - Two of a Kind?
 
Elektronische Literaturverwaltung mit Zotero
Elektronische Literaturverwaltung mit ZoteroElektronische Literaturverwaltung mit Zotero
Elektronische Literaturverwaltung mit Zotero
 
The Case of opendataportal.at
The Case of opendataportal.atThe Case of opendataportal.at
The Case of opendataportal.at
 
From E-Government to Open Government
From E-Government to Open GovernmentFrom E-Government to Open Government
From E-Government to Open Government
 
Smart Cities and Smart ICT
Smart Cities and Smart ICTSmart Cities and Smart ICT
Smart Cities and Smart ICT
 
Evaluation of Open Government Data Implementation of City of Vienna
Evaluation of Open Government Data Implementation of City of ViennaEvaluation of Open Government Data Implementation of City of Vienna
Evaluation of Open Government Data Implementation of City of Vienna
 
Costs of Closed Science
Costs of Closed ScienceCosts of Closed Science
Costs of Closed Science
 
Smart Cities, Smart Regions and the Role of Open Data
Smart Cities, Smart Regions and the Role of Open DataSmart Cities, Smart Regions and the Role of Open Data
Smart Cities, Smart Regions and the Role of Open Data
 
OGD for Culture and Art
OGD for Culture and ArtOGD for Culture and Art
OGD for Culture and Art
 
Evaluierung der Open Government Data Umsetzung der Stadt Wien - Auszug
Evaluierung der Open Government Data Umsetzung der Stadt Wien - AuszugEvaluierung der Open Government Data Umsetzung der Stadt Wien - Auszug
Evaluierung der Open Government Data Umsetzung der Stadt Wien - Auszug
 
Open Government Data DCAT Application Profile
Open Government Data DCAT Application ProfileOpen Government Data DCAT Application Profile
Open Government Data DCAT Application Profile
 

Datenqualität von Datenportalen

  • 1. Cooperation OGD Österreich SUB-AG Qualitätssicherung auf Open Data Portalen Johann Höchtl Axel Polleres Jürgen Umbrich
  • 2. Mission Statement Die Sub-Arbeitsgruppe Qualitätssicherung von Open Data Portalen verbessert durch technische Maßnahmen und die Erstellung von Leitfäden zur empfohlenen Praxis die Datenqualität von Datensätzen und unterstützt durch organisatorische und technische Maßnahmen den Veröffentlichungsprozess, um in Zukunft höhere Qualitätsniveaus und somit erhöhte Nutzbarkeit und Nachhaltigkeit von offenen Daten zu erreichen.
  • 3. Zielerreichung 1. Arbeitserleichterung: für DatenanbieterInnen bei Veröffentlichung und Wartung 2. Messbare Datenqualität: In Vergleichen sind österreichische Verwaltungsdaten im Bereich der Daten- Qualität im vorderen Drittel 3. Vorbildsfunktion: internationale Anerkennung der Qualitätsmaßnahmen als gute Praxis
  • 4. Ziele (1) Sammlung, Auswertung und Bereitstellung von nationalen und internationalen Erfahrungswerten bei der Veröffentlichung offener Daten
  • 5. Ziele (2) Evaluierung, Konzeption und Implementierung von technischen Werkzeugen
  • 6. Ziele (3) Handlungsempfehlungen http://opendataresearch.org/sites/default/files/posts/Common%20Assessment%20Workshop%20Report.pdf
  • 8. NICHT-Ziele • Hürden zur Teilnahme an OGD • Mehraufwand • Das Rad neu Erfinden: Integration neuer Komponenten in bestehende Lösungen
  • 9. Identifizierte Datenprobleme (UK) http://www.computerweekly.com/news/2240227682/Poor-data-quality-hindering-government-open-data-transparency-programme • Encoding is introducing characters that cause data quality problems. Various encoding methods are used randomly, including ASCII, ISO- 8859 and Windows formats • Software such as Microsoft Excel is producing non-compliant UTF-8 exports, introducing flaws into the data where they need not exist • Formatting of common information, such as data fields, was different across different records • Fields were continually added or removed • Commas are added to records, causing problems with processing and analysis, since many systems use commas to separate data fields • Analysis suggested a large amount of human error
  • 10. Identifizierte Datenprobleme (AT) https://github.com/the42/ogdat • Nicht funktionierende URLs http://data.linz.gv.at/katalog/population/wanderung/zuzug/2009/zuzug_2009.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00 http://data.linz.gv.at/katalog/population/wanderung/zuzug/2008/zuzug_2008.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00 http://data.linz.gv.at/katalog/population/wanderung/zuzug/2011/zuzug_2011.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00 http://data.linz.gv.at/katalog/population/wanderung/zuzug/2010/zuzug_2010.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00 http://data.linz.at/katalog/stadt/wohnungen/wohnraeume/2012/twoanzrg_2012.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:33:42.795532+00 http://data.linz.gv.at/ogd/katalog/politik_verwaltung/verwaltung/budget/2013/RA/ZRECHAB_2013.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-17 13:32:08.374879+00 • Probleme bei Metadatenbeschreibungen Land Tirol Feldwert vom Typ ÖNORM ISO 8601 TM_Primitive 'YYYY-MM-DDThh:mm:ss' erwartet, Wert entspricht aber nicht diesem Typ: '2009-01-01' Land Tirol JSON vom Typ 'Array of String' erwartet, es wurde jedoch ein einzelner Wert geliefert Land Tirol kein Wert für Link angegeben (Länge 0) Land Tirol Beschreibung enthält weniger als 20 Zeichen (sinnvolle Beschreibung?) Land Tirol Zeichenkette mit Länge 0 an dieser Stelle nicht sinnvoll Land Tirol Zeichenkette mit Länge 0 an dieser Stelle nicht sinnvoll
  • 11. Nächste Schritte • Sammlung nationaler und internationaler guter Erfahrung mit Open Data • Maschinenlesbare Version der österreichischen Metadatenkonvention und davon abgeleitete Formate • Überprüfung der österreichischen Metadatenkonvention auf ihre allgemeingültige Anwendbarkeit für andere Einsatzbereiche • Implementierung / Erweiterung eines Plugins für CKAN • Monitoring der Daten und Metadaten im Zeitverlauf • Verbesserung der Suche auf Datenportalen • Community-Portal, das Metadaten von data.gv.at und opendataportal.at zusammenfasst mit erweiterten Funktionalitäten
  • 12. MITARBEIT GEWÜNSCHT Österreich wird international bei Open Data ganz vorne mit dabei sein!

Hinweis der Redaktion

  1. Qualitätsvolle Prozesse und Vorgehensmodelle bei der Erhebung und der Bereitstellung der Daten beim Produzenten Beiträge der Datenkonsumenten Qualitätschecks bei der Eingabe von Daten und Metadaten am Datenportal Monitoring der Datenqualität im Verlauf der Zeit, inhaltliche Überprüfungen Von DatenkonsumentInnen betriebene Datenportale mit benutzerInnengenerierten Inhalten, welche es etwa erlauben,  die bestehenden Daten in andere Formate zu konvertieren oder Metadaten anzureichern oder zu verbessern.