Berliner Datenportal 2014
Dr. Wolfgang Both
Senatsverwaltung für Wirtschaft,
Technologie und Forschung, Berlin
Agenda
• Open Data Initiative Berlin
• Definition offene Daten
• Empfehlungen Lizenzmodelle
• Checkliste zur Auswahl von Daten
• Portalstatistik
Open Data Initiative Berlin
• 2010: Start der Aktivitäten, Apps4Berlin-Wettbewerb,
Online Voting, Vorstudie FhG FOKUS
• 2011: Pilotprojekt Open Data, Start des Datenportals,
politische Deklaration im Koalitionsvertrag
• 2012: Budget für Regelbetrieb, ressortübergreifende
Arbeitsgruppe
• 2013: Freischaltung Regelbetrieb, AG: Definition offene
Dokumente, Bewertung Lizenzmodelle, Abschlussbericht
• 2014: eGovernment-Gesetz in Vorbereitung, §13 zu
Open Data, 800 Datensätze im Datenportal
Relaunch Datenportal 2013
Ergebnisse der AG Open Data
• Abgestimmte Definition zu offenen Daten,
offenen Formaten und Metadaten
• Empfehlungen für Lizenz- und
Nutzungsbestimmungen
• Checkliste für die Publikation von
Datenbeständen
• Mitarbeit am eGovernment-Gesetz Berlin
• Entwicklung von Weiterbildungsmaßnahmen
• Zusammenfassung im Abschlussbericht
(http://www.berlin.de/projektzukunft/fileadmin/user_upload/pdf/sonsti
ges/Open_Data/AG_Open-Data_Abschlussbericht_2014.pdf)
Offene Daten
Offene Daten (in Anlehnung an die Open Definition)
Unter „offenen Daten“ versteht man sämtliche Datenbestände* der
öffentlichen Hand und anderer Institutionen, die im Interesse der
Allgemeinheit anlasslos unter definierten Nutzungsbedingungen zur
freien Nutzung, Weiterverbreitung und Weiterverwendung zugänglich
gemacht werden. Dies sind alle Daten und Dokumente, die eine
Behörde im Rahmen ihres öffentlichen Auftrages und ihrer
Zuständigkeit erstellt.
* Davon ausgenommen sind Daten mit Personenbezug, mit
Sicherheitsrelevanz sowie Geschäfts- und Betriebsgeheimnisse.
Ebenfalls ausgenommen sind (temporäre) Datenbestände, die der
Unterstützung interner Arbeitsabläufe dienen.
Rohdaten
Rohdaten, Primärdaten, Sekundärdaten
Unter Rohdaten (auch Primärdaten, Urdaten, Messwerte)
versteht man die direkt erfassten (Sensor) oder erhobenen
Daten ohne weitere Qualitätsprüfung oder Verarbeitung.
Sekundärdaten sind dagegen ersten
Verarbeitungsschritten (Sortierung, Qualitätsprüfung,
Eliminierung von Ausreißern oder Messfehlern,
Anonymisierung, …) unterworfen, ohne dass jedoch
zwingend eine Interpretation vorliegen muss. So sind
Daten der amtlichen Statistik meist anonymisierte
Mikrodaten, um aus Datenschutzgründen eine bestimmte
Kohorten- oder Raumgröße nicht zu unterschreiten.
Datensatz
Ein Datensatz fasst strukturierte Daten zu einem abgegrenzten
Sachverhalt zusammen. Dabei handelt es sich oftmals um
Zahlen(reihen), Codelisten oder ähnliches in Form einer Liste, Tabelle
oder Matrix. Ein Datensatz kann mit Primär- oder Sekundärdaten befüllt
sein. Er kann mit einem Kopf und/oder einer Legende zur
Beschreibung/Erläuterung des Inhalts versehen sein. Eine
Auswertung/Visualisierung ist mit einfachen statistischen Mitteln
möglich.
Zu einem Datensatz zählen immer auch eine oder mehrere digitale
Ressourcen, etwa Excel-, CSV- oder XML-Dateien. Unter „Ressource“
wird auch die programmierbare Schnittstelle (application programming
interface – API) eingeordnet, da über sie eine unmittelbare Anbindung
an einen Datensatz hergestellt wird.
Dokument
Ein „Dokument“ ist eine unstrukturierte (digital vorliegende)
Datei mit einer beliebigen Folge von Zeichenketten. In ihrer
adressatenspezifischen Aufbereitung stellen sie
Sekundärdaten dar. In Aufbau und Darstellung orientieren
sie sich am menschlichen Leser. Dazu zählen
insbesondere Texte, die ggf. mit Daten (in Form von
Tabellen oder Grafiken) angereichert sind. Diese
eingebetteten Datensätze können in den Metadaten eines
Dokuments zusätzlich beschrieben werden. Um eine
Maschinenlesbarkeit sicherzustellen, sind bestimmte
Datenformate zu verwenden. Zur Auswertung von
Dokumenten sind komplexe semantische Verfahren
erforderlich.
Metadaten
Metadaten sind Daten, die Informationen über die
Merkmale von Datensätzen oder Dokumenten enthalten
(aber nicht die Daten selbst). Im Bibliothekswesen enthält
der Metadatensatz eines Buches neben Autor und Titel
Angaben zu Verlag, Erscheinungsjahr, Auflage oder der
ISBN. Über einen Verweis (Signatur) kann das Objekt
lokalisiert werden. Der Verweis kann auch Informationen zu
einer Kategorie (Roman, Sachbuch, Reisebeschreibung,
Technik, …) enthalten. Dateien, die mit MS-Office-
Anwendungen erstellt wurden, enthalten ebenfalls
Metainformationen (Dateieigenschaften, wie Verfasser,
Datum, Änderung, Dateiname, Zeichenumfang, …).
Maschinenlesbarkeit
Ein wichtiges Kriterium für Offene Daten ist
die Maschinenlesbarkeit. Darunter wird
deren softwaregestützte Erkennung und
Verarbeitung in Prozessoren/Computern
verstanden. Hierzu zählen neben speziellen
Datenformaten auch Strichcode oder 2D-
Code.
Nutzungsrechte
• Im Sinne von „offenen Daten“ sind die
bereitgestellten Informationen frei in der
Weiterverwendung, -verarbeitung und
Verknüpfung.
• Frei auch im Sinne von Kostenfreiheit
• Wir empfehlen die Creative Commons
Lizenz einzusetzen. Berlin verbindet die
freie Nutzung (nur) mit der Auflage der
Quellennennung.
Publikation von Daten
Checkliste
• Fällt die Information in den öffentlichen
Auftrag der Einrichtung?
• Ist die Information in der freien Verfügung
der Einrichtung?
• Stehen einer Publikation rechtliche
Regelungen entgegen? (Datenschutz,
Geschäftsgeheimnis)
• Liegt die Information in einem offenen
Format vor? (sonst vorher umwandeln)
Weiterbildung
• Identifikation von Zielgruppen
– Führungskräfte
– Datenarbeiter
– Sachbearbeiter
• Erarbeitung spezifischer Weiterbildungs-
angebote mit der VAK
– Werkstattgespräch mit Führungskräften
– Ausbau der CMS-Imperia-Werkzeuge
– Schulung bei Office-Anwendungen (offene Formate)
Online Voting 2010
Besuchte Datenkategorien
0
500
1000
1500
2000
2500
3000
3500
4000
4500
Sept.13-März14
Wunsch- vs. besuchte
Datenkategorien
0
2
4
6
8
10
12
14
Voting 2010
Visits 2013
Datasets
Wahllokale zur Bundestagswahl 2013
Berliner Weihnachtsmärkte
Finanzamt-Atlas Berlin
Ortsteilgeometrien
Open Street Map Daten für Berlin
VBB Fahrplan 2014
VBB Fahrplan 2013
Liste der Vornamen
Berliner und Brandenburger Volks- und
Strassenfeste
Bundestagswahl 2013 nach Wahlbezirken
Bundestagswahl 2013 Berlin nach
Abgeordnetenhauswahlkreisen
Ergebnisse der Bundestagswahl 2013
Berlin
Liste der Stolpersteine
Bundestagswahl 2013 Berlin nach
Abgeordnetenhauswahlkreisen
Gesundheitsberichterstattung
Ausschreibungen BA Lichtenberg
3527
1978
1439
1317
1112
754
710
570
455
442
405
354
353
252
246
245
Sept.13 – March14
Suche nach …
99
92
76
61
59
59
44
42
36
24
23
23
17
16
16
14
LOR
GSI
wahl, wahlen, bundestagswahl, ~2013,
wahllokal, wahlergebnis
Einwohner, ~am Hauptwohnort
mietspiegel, berliner, 2013, spandau
haushalt, haushaltsplan
vbb
GTFS
beteiligungsbericht
weihnachtsmärkte
vornamen
bsr
standardlastprofil
fahrplan
Bezirke
wohndauer
Sept.13 – March14
Ausblick Open Data Berlin
• Berlin eGovernment- und
Organisationsgesetz in Vorbereitung, § 13
zu Open Data
• Erweiterung des Front-end Datenportal für
mobile Endgeräte
• Testung einfacher Visualisierungstools für
Datensätze
• Weitere Hackdays (GeoDaten, BSR-Daten)
Kontakt
Dr. Wolfgang Both
Senatsverwaltung für Wirtschaft,
Technologie und Forschung
Martin-Luther-Str. 105, D-10825 Berlin
Mail: wolfgang.both@senwtf.berlin.de
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both

BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both

  • 1.
    Berliner Datenportal 2014 Dr.Wolfgang Both Senatsverwaltung für Wirtschaft, Technologie und Forschung, Berlin
  • 2.
    Agenda • Open DataInitiative Berlin • Definition offene Daten • Empfehlungen Lizenzmodelle • Checkliste zur Auswahl von Daten • Portalstatistik
  • 3.
    Open Data InitiativeBerlin • 2010: Start der Aktivitäten, Apps4Berlin-Wettbewerb, Online Voting, Vorstudie FhG FOKUS • 2011: Pilotprojekt Open Data, Start des Datenportals, politische Deklaration im Koalitionsvertrag • 2012: Budget für Regelbetrieb, ressortübergreifende Arbeitsgruppe • 2013: Freischaltung Regelbetrieb, AG: Definition offene Dokumente, Bewertung Lizenzmodelle, Abschlussbericht • 2014: eGovernment-Gesetz in Vorbereitung, §13 zu Open Data, 800 Datensätze im Datenportal
  • 4.
  • 5.
    Ergebnisse der AGOpen Data • Abgestimmte Definition zu offenen Daten, offenen Formaten und Metadaten • Empfehlungen für Lizenz- und Nutzungsbestimmungen • Checkliste für die Publikation von Datenbeständen • Mitarbeit am eGovernment-Gesetz Berlin • Entwicklung von Weiterbildungsmaßnahmen • Zusammenfassung im Abschlussbericht (http://www.berlin.de/projektzukunft/fileadmin/user_upload/pdf/sonsti ges/Open_Data/AG_Open-Data_Abschlussbericht_2014.pdf)
  • 6.
    Offene Daten Offene Daten(in Anlehnung an die Open Definition) Unter „offenen Daten“ versteht man sämtliche Datenbestände* der öffentlichen Hand und anderer Institutionen, die im Interesse der Allgemeinheit anlasslos unter definierten Nutzungsbedingungen zur freien Nutzung, Weiterverbreitung und Weiterverwendung zugänglich gemacht werden. Dies sind alle Daten und Dokumente, die eine Behörde im Rahmen ihres öffentlichen Auftrages und ihrer Zuständigkeit erstellt. * Davon ausgenommen sind Daten mit Personenbezug, mit Sicherheitsrelevanz sowie Geschäfts- und Betriebsgeheimnisse. Ebenfalls ausgenommen sind (temporäre) Datenbestände, die der Unterstützung interner Arbeitsabläufe dienen.
  • 7.
    Rohdaten Rohdaten, Primärdaten, Sekundärdaten UnterRohdaten (auch Primärdaten, Urdaten, Messwerte) versteht man die direkt erfassten (Sensor) oder erhobenen Daten ohne weitere Qualitätsprüfung oder Verarbeitung. Sekundärdaten sind dagegen ersten Verarbeitungsschritten (Sortierung, Qualitätsprüfung, Eliminierung von Ausreißern oder Messfehlern, Anonymisierung, …) unterworfen, ohne dass jedoch zwingend eine Interpretation vorliegen muss. So sind Daten der amtlichen Statistik meist anonymisierte Mikrodaten, um aus Datenschutzgründen eine bestimmte Kohorten- oder Raumgröße nicht zu unterschreiten.
  • 8.
    Datensatz Ein Datensatz fasststrukturierte Daten zu einem abgegrenzten Sachverhalt zusammen. Dabei handelt es sich oftmals um Zahlen(reihen), Codelisten oder ähnliches in Form einer Liste, Tabelle oder Matrix. Ein Datensatz kann mit Primär- oder Sekundärdaten befüllt sein. Er kann mit einem Kopf und/oder einer Legende zur Beschreibung/Erläuterung des Inhalts versehen sein. Eine Auswertung/Visualisierung ist mit einfachen statistischen Mitteln möglich. Zu einem Datensatz zählen immer auch eine oder mehrere digitale Ressourcen, etwa Excel-, CSV- oder XML-Dateien. Unter „Ressource“ wird auch die programmierbare Schnittstelle (application programming interface – API) eingeordnet, da über sie eine unmittelbare Anbindung an einen Datensatz hergestellt wird.
  • 9.
    Dokument Ein „Dokument“ isteine unstrukturierte (digital vorliegende) Datei mit einer beliebigen Folge von Zeichenketten. In ihrer adressatenspezifischen Aufbereitung stellen sie Sekundärdaten dar. In Aufbau und Darstellung orientieren sie sich am menschlichen Leser. Dazu zählen insbesondere Texte, die ggf. mit Daten (in Form von Tabellen oder Grafiken) angereichert sind. Diese eingebetteten Datensätze können in den Metadaten eines Dokuments zusätzlich beschrieben werden. Um eine Maschinenlesbarkeit sicherzustellen, sind bestimmte Datenformate zu verwenden. Zur Auswertung von Dokumenten sind komplexe semantische Verfahren erforderlich.
  • 10.
    Metadaten Metadaten sind Daten,die Informationen über die Merkmale von Datensätzen oder Dokumenten enthalten (aber nicht die Daten selbst). Im Bibliothekswesen enthält der Metadatensatz eines Buches neben Autor und Titel Angaben zu Verlag, Erscheinungsjahr, Auflage oder der ISBN. Über einen Verweis (Signatur) kann das Objekt lokalisiert werden. Der Verweis kann auch Informationen zu einer Kategorie (Roman, Sachbuch, Reisebeschreibung, Technik, …) enthalten. Dateien, die mit MS-Office- Anwendungen erstellt wurden, enthalten ebenfalls Metainformationen (Dateieigenschaften, wie Verfasser, Datum, Änderung, Dateiname, Zeichenumfang, …).
  • 11.
    Maschinenlesbarkeit Ein wichtiges Kriteriumfür Offene Daten ist die Maschinenlesbarkeit. Darunter wird deren softwaregestützte Erkennung und Verarbeitung in Prozessoren/Computern verstanden. Hierzu zählen neben speziellen Datenformaten auch Strichcode oder 2D- Code.
  • 12.
    Nutzungsrechte • Im Sinnevon „offenen Daten“ sind die bereitgestellten Informationen frei in der Weiterverwendung, -verarbeitung und Verknüpfung. • Frei auch im Sinne von Kostenfreiheit • Wir empfehlen die Creative Commons Lizenz einzusetzen. Berlin verbindet die freie Nutzung (nur) mit der Auflage der Quellennennung.
  • 13.
    Publikation von Daten Checkliste •Fällt die Information in den öffentlichen Auftrag der Einrichtung? • Ist die Information in der freien Verfügung der Einrichtung? • Stehen einer Publikation rechtliche Regelungen entgegen? (Datenschutz, Geschäftsgeheimnis) • Liegt die Information in einem offenen Format vor? (sonst vorher umwandeln)
  • 14.
    Weiterbildung • Identifikation vonZielgruppen – Führungskräfte – Datenarbeiter – Sachbearbeiter • Erarbeitung spezifischer Weiterbildungs- angebote mit der VAK – Werkstattgespräch mit Führungskräften – Ausbau der CMS-Imperia-Werkzeuge – Schulung bei Office-Anwendungen (offene Formate)
  • 16.
  • 17.
  • 18.
  • 19.
    Datasets Wahllokale zur Bundestagswahl2013 Berliner Weihnachtsmärkte Finanzamt-Atlas Berlin Ortsteilgeometrien Open Street Map Daten für Berlin VBB Fahrplan 2014 VBB Fahrplan 2013 Liste der Vornamen Berliner und Brandenburger Volks- und Strassenfeste Bundestagswahl 2013 nach Wahlbezirken Bundestagswahl 2013 Berlin nach Abgeordnetenhauswahlkreisen Ergebnisse der Bundestagswahl 2013 Berlin Liste der Stolpersteine Bundestagswahl 2013 Berlin nach Abgeordnetenhauswahlkreisen Gesundheitsberichterstattung Ausschreibungen BA Lichtenberg 3527 1978 1439 1317 1112 754 710 570 455 442 405 354 353 252 246 245 Sept.13 – March14
  • 20.
    Suche nach … 99 92 76 61 59 59 44 42 36 24 23 23 17 16 16 14 LOR GSI wahl,wahlen, bundestagswahl, ~2013, wahllokal, wahlergebnis Einwohner, ~am Hauptwohnort mietspiegel, berliner, 2013, spandau haushalt, haushaltsplan vbb GTFS beteiligungsbericht weihnachtsmärkte vornamen bsr standardlastprofil fahrplan Bezirke wohndauer Sept.13 – March14
  • 21.
    Ausblick Open DataBerlin • Berlin eGovernment- und Organisationsgesetz in Vorbereitung, § 13 zu Open Data • Erweiterung des Front-end Datenportal für mobile Endgeräte • Testung einfacher Visualisierungstools für Datensätze • Weitere Hackdays (GeoDaten, BSR-Daten)
  • 22.
    Kontakt Dr. Wolfgang Both Senatsverwaltungfür Wirtschaft, Technologie und Forschung Martin-Luther-Str. 105, D-10825 Berlin Mail: wolfgang.both@senwtf.berlin.de