Ziel des Projektes Data Cube des Umweltbundesamt ist es, eine nachhaltige Lösung zu etablieren, mit der die „Daten zur Umwelt“ importiert, gespeichert und der Öffentlichkeit als interaktive Tabellen und Diagramme angeboten werden können. Zur Datenhaltung wird die Open Source Lösung .StatSuite genutzt, welches unter anderem auch von der OECD genutzt wird. Der heterogene Datenbestand der Daten zur Umwelt wird mithilfe der FME Technologie in den sogenannten SDMX Standard überführt, den die .StatSuite Lösung nutzt.
1. Für Mensch& Umwelt
Projekt Data Cube
Neue Perspektiven auf unsere Umweltdaten
Peak of Data Integration am 06.09.2023
Michel Frerk
Fachgebiet I 1.5
Nationale und internationale Umweltberichterstattung
2. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 2
1. Vorstellung „Daten zur Umwelt“und
Kontext des Projektes
2. Vorstellung des Data Explorers und
des Zusammenspielsmit der UBA-
Webseite
3. Projektaufbauund Phasen
4. Datenintegrationmit FME
5. Ausblick
Gliederung
3. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 3
1. Hintergrund – Wo kommt das Projekt her
Daten zur Umwelt
www.umweltbundesamt.de/daten
> 300
Daten-Artikel
und Indikatoren
> 50
Fachgebiete aus
dem UBA liefern
Daten und Texte
Die Daten zur Umwelt
4. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 4
2. Vorstellung des Projektes „Data Cube – Daten zur Umwelt“
• Mit dem Data Cube wollen
wir mehr Daten an die
Oberfläche bringen.
• Dafür fehlte bisher eine
Infrastruktur
• Es geht nicht darum interne
Fachverfahren abzulösen
Die Spitze des Eisberges
Abbildung: Eigene Darstellung auf Basis von "iceberg icons Iceberg icons created by
Nueng_wana - Flaticon
Excel, CSV auf Server-
Laufwerken
Fachverfahren ohne
Schnittstelle nach
außen
Datenbanken die von
Forschungsnehmern für
das UBA betrieben
werden
Daten zur Umwelt /Daten auf
UBA Webseite
Fachspezifische Portale
und Angebote des UBA
Geodaten
Datenbanken
Sonstige Fachdaten
5. Zielsetzungund Vision
06.09.2023 5
Ziel
Ein leistungsfähiges Systems schaffen, um Umweltdaten effizient und flexibel zu verwalten, zu
analysieren und Open Data konform zur Verfügung zu stellen.
Teil- und vollautomatisierte Datenimporte aus
einer Vielzahl von Quellen
Tools für die individuelle Datenexploration
und -bereitstellung über Schnittstellen
Zeitnahe Veröffentlichung von Dashboards für
Umweltthemen von besonderer politischer
Relevanz
Aktueller
Flexibler
Effizienter
Forschungsvorhaben
(FKZ: 3720 12 1010)
Auftragnehmer: con terra
GmbH
Projektlaufzeit: 2021 - 2023
2. Vorstellung des Projektes „Data Cube – Daten zur Umwelt“
/Projekt Data Cube – Daten zur Umwelt
6. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 6
Die Suchmaske
Vorstellung:Data Explorer des Data Cubes
Hinweis: Interne Testumgebung, entspricht noch nicht dem finalen Corporate Design
7. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 7
Suchergebnisse
Vorstellung:Data Explorer des Data Cubes
8. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 8
Ansichteines Dataflows:Filtern,Drill down, herunterladen,API
Zugriff,visualisieren
LIVE-DEMO - Vorstellung der Grundfunktionalitäten
10. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 10
Vom Data Cube zur Datenvisualisierung
Data Explorer
• Erkunden
• Herunterladen
• Teilen
• Visualisieren
Highcharts (Easychart
Editor
• Komplexe
Datenvisualisierung
• Dashboards
UBA Webseite
• Einbindungvon Tabellen
und Diagrammen in
Artikel,
Pressemitteilungen etc.
Weitere Portale
• Umwelt.info
11. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 11
Wie werdendie Daten in die UBA Webseiteintegriert?
Daten können als interaktive Tabellen oder Diagramme im Data Explorer vorkonfiguriert
werden und an verschiedenen Stellen in die UBA-Webseite eingebunden werden.
12. Phasen im Projekt
06.09.2023 / Projekt „Data Cube – Daten zur Umwelt“ 12
Anforderungs
-analyse Konzeption
Entwicklung u.
Daten-
integration
Inbetriebnahme
Entwicklung der
Schnittstellen zu
weiteren
Datenprojekten im
UBA
2021 2022 2024
2023
• Anforderungsanalyse (Bedarfserhebung mit verschiedenen Stakeholdern)
• Konzeption und Auswahl der technischen Komponenten auf der Grundlage der
Anforderungsanalyse
• Initiale Datenintegration verschiedener Datenquellen und Entwicklung
• Entwicklung der Schnittstellen zum Metadatenkatalog des UBA und zu umwelt.info
13. Auswahl der technischenGrundlage:Kern die .Stat Suite
06.09.2023 / Projekt „Data Cube – Daten zur Umwelt“ 13
Um welche Daten geht es?
Der Data Cube enthält (nur eine Teilmenge der Daten):
• Zeitreihen(statistische Daten, die regelmäßigfortgeschrieben
werden)
• mit Relevanz für die Umwelt
• Keine Geodaten,keine Forschungsdaten, keine Publikationen
Warum wir uns u.a. für .Stat Suite entschieden haben?
• Deckt viele Anforderungen ab – aber nicht alle
• Open Source
• Breite Verbreitung (siehe unten)
• Basiert auf dem SDMX-Standard
• Breite Entwickler- Community
Wer nutzt das (SDMX und/oder die .Stat Suite)noch?
z.B. OECD, UN, Eurostat, World Bank, IMF
14. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 14
SDMX steht für Statistical Data and Metadata eXchange (ISO 17369 ) und ist:
• Informationsmodell zur Beschreibung von Daten und Metadaten
• Standard für die automatisierte Datenkommunikation
• Architektur und Toolkit für den Austausch von Daten und Metadaten
In SDMX gibt es eine Trennung zwischen
• Daten (enthält die eigentlichen Beobachtungen)
• Strukturinformationen
SDMX Datenlassen sich gut weiterverarbeiten
Der SDMX-Standard
R SDMX
Python R EViews Stata Java .net …
pandaSDMX
R SDMX
readSDMX
Eviews-
SDMX
sdmxuse
SDMX Java
Suite
SDMX.net …
15. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 15
Datenintegration:Wie kommen die Datenin den Data Cube?
ENDE
START
Auswahl der Datensätze
(heterogene Datenquellen)
Bestimmung der
Dimensionen
Modellierung /
Harmonisierung
Erstellung von Code-Listen
u. Strukturellen Metadaten
in einem Git-Repository
Bearbeitung des pull requests
durch das Projektteam
-> Erzeugung der SDMX
Dateien mit FME
Qualitätssicherung
pull request
Daten im Data Cube
verfügbar
16. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 16
SchematischerWorkflowbei der Datenintegration
FME als zentrales Tool für die Datenintegration im Data Cube
Darstellung: conterra
18. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 18
Effizientere und aktuellere Datenbereitstellung
❖ mehr Perspektiven auf unsere Daten für uns und Bürgerinnen und Bürger
❖ Aktuellere Daten und die Möglichkeit schneller auf politische Bedarfe zu reagieren
(Dashboards etc.)
❖ Effiziente Datenintegration mit FME.
Analysefähige und offene Daten
❖ Bessere Möglichkeiten zur Datenanalyse - für uns und andere
❖ offene/maschinenlesbare Daten
Daten werden international anschlussfähig
❖ UBA Daten werden international anschlussfähig
❖ Mehrsprachigkeit (Deutsch / Englisch)
Nächste Schritte nach Projektende :
❖ Pilotbetrieb (geplant Anfang 2024)
❖ Evaluation mit Nutzenden (geplant Mitte 2024)
❖ Regelbetrieb (geplant Ende 2024)
❖ Weiterentwicklung u. fortlaufende Datenintegration
Fazit und Ausblick
19. Vielen Dank für Ihre
Aufmerksamkeit
Michel Frerk
michel.frerk@uba.de
www.uba.de/daten
20. Welche Datensollen in den Data Cube aufgenommenwerden?
06.09.2023 /Projekt Data Cube – Daten zur Umwelt 20
Der Data Cube enthält:
• Zeitreihen (statistische Daten, die regelmäßig fortgeschrieben werden)
• mit Relevanz für die Umwelt
22. 06.09.2023 /Projekt Data Cube – Daten zur Umwelt 22
3. Was ist ein Data Cube?
In einem Data Cube werden die Daten als Elemente eines mehrdimensionalen
Datenwürfels angeordnet. Die Dimensionen des Würfels beschreiben die Daten und
ermöglichen vielfältige Analysen.
Was ist ein Data Cube und wie funktionierter? (1)
Beispiel: Data Cube für THG-Emissionen (auf 3 Dimensionen vereinfacht)
❖ Der UBA-Data Cubewird
viele weitere
Dimensionen enthalten
❖ Nur ein Teil aller
Dimensionen ist für
jeden „Datensatz“ mit
Daten besetzt
Quelle: eigene Darstellung