Online-Veranstaltung
„Data Analytics zum Anfassen“
AGENDA
Motivation Daten-
aufbereitung
Daten-
analyse
Visuali-
sierung
Daten-
management
Anwen-
dungsfall
06
05
03
02
01 04
2
Datenanalyse: Wieso, weshalb, warum?
Motivation
Daten sind
überall
Bessere
Management-
Entscheidungen
treffen
Probleme
identifizieren &
Ursachen finden
Produktivität
steigern & Kosten
senken
Prozesse
optimieren &
bessere Produkte
schaffen
3
Datenanalyse
● Deskriptiv: Was passierte in der Vergangenheit?
● Diagnostisch: Warum passierte etwas?
● Prädiktiv: Was passiert zukünftig?
● Präskriptiv: Was ist das beste Vorgehen?
Vier verschiedene Arten
Basierend auf: https://insights.principa.co.za/4-types-of-data-analytics-descriptive-diagnostic-predictive-prescriptive
4
Datenanalyse
Prozessablauf
5
Prozess: 1.a Fragestellung definieren
Datenanalyse
Ziel: Geschäftsverständnis für Datenanalysten herstellen
1. Ausgehend von Problem/Frage
Problem/Frage im
Betriebsablauf oder
in der Produktion
vorhanden
Austausch
zwischen
Datenanalyst und
Fachpersonal
Sammlung der
relevanten Daten
zur Beantwortung
der Frage
6
Prozess: 1.b Fragestellung definieren
Datenanalyse
Ziel: Geschäftsverständnis für Datenanalysten herstellen
2. Ausgehend von vorhandenen Daten
Identifikation nicht
ausgewerteter
Datenquellen
Brainstorming bzgl.
brachliegender
Potenziale
Ableitung und
Definition der
Fragestellung
7
Prozess: 2. Datensammlung- & Aufbereitung
Datenanalyse
1. Temporär
o csv, xlsx
o json, xml
o Datenbank bzw. Datenbankzugang
o API
2. Regelmäßig
o Data Lake, Data Warehouse
o API
8
Prozess: 2. Datensammlung- & Aufbereitung
Datenanalyse
● Fehlende Daten
● Falsche Datenformate
9
Prozess: 2. Datensammlung- & Aufbereitung
Datenanalyse
● Falsche Formatierung
● Duplikate
10
Prozess: 2. Datensammlung- & Aufbereitung
Datenanalyse
● Fehler in Daten
● Feature Engineering
11
Prozess: 3. Explorative Datenanalyse
Datenanalyse
● Ziel: Finden von Mustern, Anomalien & Abhängigkeiten sowie Prüfung von Hypothesen & Annahmen
Parameter
Statistiken
Regressions-
analyse
Korrelations-
analyse
Faktoren-
analyse
Cluster-
analyse
Kohorten-
analyse
Zeitreihen-
analyse
12
Datenanalyse
Beispiel
Korrelations-
analyse
(Heatmap)
Prozess: 3.
Explorative
Datenanalyse
13
Datenanalyse
Beispiel
Korrelations-
analyse
(Pairplot)
Prozess: 3.
Explorative
Datenanalyse
14
Datenanalyse
Beispiel
Zeitreihenanalyse
Prozess: 3.
Explorative
Datenanalyse
15
Prozess: 3. Explorative Datenanalyse
Beispiel: Regressionsanalyse
Datenanalyse
16
Prozess: 4. Modellierung & Auswertung
Datenanalyse
● Deskriptive Statistik
● Schließende Statistik
o Konfidenzintervalle
o Statistischer Test
● Machine Learning
o Prognosemodelle
o Klassifikation
o Clustering
Basierend auf: https://sciencestruck.com/descriptive-vs-inferential-statistics
17
Prozess: 5. Visualisierung & Kommunikation
Datenanalyse
Auswahl und Verfeinerung der Diagramme
1. Einmalig: Bericht, Foliensatz
o Story gestützt mit aussagekräftigen Diagrammen
2. Regelmäßig: Dashboard
o Übersichtliche Darstellung
o Automatische Aktualisierung
à Datenmanagement
18
Beispiel: Daten einer Windkraftanlage
● Klasse: 2 MW
● Ort: nördliches Deutschland
● SCADA-Daten in 10-minütigen Intervallen
● Messungen von 2013 bis 2020
Datenanalyse
19
Datenanalyse
Beispiel: Daten einer Windkraftanlage
20
Beispiel
Beispiel: Daten einer Windkraftanlage
21
Beispiel
Beispiel: Daten einer Windkraftanlage
22
Beispiel
Beispiel: Daten einer Windkraftanlage
23
Beispiel
Beispiel: Daten einer Windkraftanlage
24
Beispiel
Beispiel: Daten einer Windkraftanlage
25
Von der Datenanalyse zum Datenmanagement
Datenmanagement
1. Fragestellung definieren
2. Datensammlung und
-aufbereitung
3. Explorative Datenanalyse
4. Modellierung und Auswertung
5. Visualisierung und Kommunikation
Geschäftsverständnis
a. Datenanbindung (Extract)
b. Aufbereitung (Transform)
c. Datenintegration (Load)
Data Warehouse / Data Lake
Business Intelligence Tools
26
Klassischer Data-Stack (ETL = Extract, Transform, Load)
Datenmanagement
Business Intelligence
Data Warehouse
Datenquellen ETL-Software
27
Moderner Data-Stack (ELT = Extract, Load, Transform)
Datenmanagement
Business Intelligence
Data Warehouse
Datenquellen EL(T)-Software Data Lake
28
Zielgruppe, Eigenschaften & Vorteile
Zielgruppe: Data Scientist
Kostengünstige Speicherung großer Datenmengen
Flache Architektur
Speicherung in unterschiedlichen Formaten
Aggregationsbedarf ist zum Zeitpunkt der Datenspeicherung unbekannt
Datenbasis für Data Warehousing
Daten aus Data Lake bieten Basis für Machine Learning
Data Lake
29
Zielgruppe, Eigenschaften & Vorteile
Data Warehouse
Zielgruppe: Data Analyst, Business Analyst
Grundgedanken:
1. Integration von Daten aus heterogenen Quellen
2. Trennung operativer von dispositiven Daten
● Enthält keine Roh- sondern verarbeitete Daten
● Unterstützt die Datenstandardisierung im Zeitalter von Big Data
Ziel: Daten so speichern, dass einfache Analysen möglich sind
30
Zielgruppe, Eigenschaften & Vorteile
Zielgruppe: Business Analyst, Business User
Auswertung und Darstellung elektronischer Daten
Abbildung verschiedener Anwendungsfälle, z. B.
● Liquiditätsprognose
● Leistungsmanagement
● Marketing
Erstellen und Teilen von Berichten oder Dashboards
Abruf gespeicherter Analysen mit aktuellen Daten
Automatisierte Benachrichtigungen bei Grenzwertüberschreitung
Business Intelligence
31
Hostingkosten: Prozessübersicht
Anwendungsfall
Business Intelligence
Data Warehouse
EL(T)-Software
Datenquellen
32
Hostingkosten: Datenquellen
Anwendungsfall
Benötigt Monitoring Daten aus
k8s-Cluster
Projektbezogene
Worklogs
Kosten Mitarbeiter Rechnungskosten
Hostingprovider
Explizit • Aggregiert über
Zeitraum und
Namespace
• Gesamte
Ressourcen
Arbeitsstunden der
Mitarbeiter pro
Projekt und Vorgang
Stundensatz aller
Mitarbeiter
Monatliche
Kostenabrechnung
Zugriff API API CSV CSV
Zielformat JSON JSON CSV CSV
33
EL(T)-Software
● Einfache Anbindung an verschiedene Quellen und Ziele
● Automatisierbare Ausführung von Datenpipelines
● Diverse Deployment-Möglichkeiten: Docker, Kubernetes, AWS, GCP
● Übersichtliches Web-Interface
● Basic Normalization
● Open source (alpha)
● Aktive Community
Anwendungsfall: Hostingkosten
34
● On-demand
● Einfache Datenanbindung
● Übersichtliches Web-Interface
● Hochverfügbarkeit
● Geringe Kosten bei geringer Datenmenge (< 10GB)
● Feingranulares Rechtemanagement + Service Accounts
● Job scheduling
Data Warehouse
Anwendungsfall: Hostingkosten
35
Anwendungsfall: Hostingkosten
Business Intelligence
● Intuitives Web-Interface
● Diverse Designmöglichkeiten
● kostenfrei
● Teilen von Dashboards und Weitervergabe von Rechten
● Data Blending für weitere Analysen
● Beispiel: Dashboard – Hostingkosten
36
Hostingkosten: Kostenübersicht
Anwendungsfall
Service Kosten
EL(T)-Software kostenfrei
Data Warehouse – Insertions 0,01€/200MB eingesetzte Daten, mit mind. 1KB/Zeile
Data Warehouse – Storage 10GB/Monat kostenfrei, danach 0,017€/GB
Data Warehouse – Query 1TB/Monat kostenfrei, danach 4,20€/TB
BI-Tool kostenfrei
Gesamt < 1,00€
37
worldiety GmbH | Marie-Curie-Straße 1 | 26129 Oldenburg | Deutschland
www.worldiety.de | info@worldiety.de| +49 (0) 441 559 770 0
daniel.schlitt@worldiety.de
Haben Sie Fragen?
ist für Sie da!
Dr. Daniel Schlitt
38
Quellenangaben
Quicksight: https://cruzstreet.com/quicksight-consulting/
Sisense: https://commons.wikimedia.org/wiki/File:Sisense_Logo.svg
PowerBI: https://commons.wikimedia.org/wiki/File:Power_bi_logo_black.svg
Mode: https://mode.com/
Tableau: https://commons.wikimedia.org/wiki/File:Tableau_Logo.png
Looker: https://looker.com/assets/img/images/homepage/looker_logo_meta_v0005.png
Qlik: https://github.com/qlik-oss
Jira: https://www.exasol.com/support/secure/AboutPage.jspa
Prometheus: https://vecta.io/symbols/92/brands-pj-pz/47/prometheus
Excel: https://de.wikipedia.org/wiki/Datei:Microsoft_Excel_Logo.svg
Airbyte: https://github.com/airbytehq/airbyte/blob/master/docs/.gitbook/assets/airbyte_horizontal_color_white-background.svg
Big Query: https://www.pikpng.com/downpngs/ibobwTh_google-big-query-logo-google-bigquery-logo-clipart/
Google Data Studio: https://baguette.engineering/blog/what-is-google-data-studio/
Azure Synapse: https://www.progress.com/odbc/microsoft-azure-synapse-analytics
IBM DB2: https://medium.com/mozilla-firefox-club/accessing-ibm-db2-database-using-python-c356a4a76bf3
Teradata: https://commons.wikimedia.org/wiki/File:Teradata_logo_2018.png
Amazon Redshift: https://blog.openbridge.com/ultimate-offer-get-powerful-amazon-redshift-for-free-19de97829707
PostgreSQL: https://wiki.postgresql.org/wiki/File:PostgreSQL_logo.3colors.svg
Snowflake: https://commons.wikimedia.org/wiki/File:Snowflake_Logo.svg
Bilder, Grafiken, Logos

worldiety GmbH - Datenanalyse

  • 1.
  • 2.
  • 3.
    2 Datenanalyse: Wieso, weshalb,warum? Motivation Daten sind überall Bessere Management- Entscheidungen treffen Probleme identifizieren & Ursachen finden Produktivität steigern & Kosten senken Prozesse optimieren & bessere Produkte schaffen
  • 4.
    3 Datenanalyse ● Deskriptiv: Waspassierte in der Vergangenheit? ● Diagnostisch: Warum passierte etwas? ● Prädiktiv: Was passiert zukünftig? ● Präskriptiv: Was ist das beste Vorgehen? Vier verschiedene Arten Basierend auf: https://insights.principa.co.za/4-types-of-data-analytics-descriptive-diagnostic-predictive-prescriptive
  • 5.
  • 6.
    5 Prozess: 1.a Fragestellungdefinieren Datenanalyse Ziel: Geschäftsverständnis für Datenanalysten herstellen 1. Ausgehend von Problem/Frage Problem/Frage im Betriebsablauf oder in der Produktion vorhanden Austausch zwischen Datenanalyst und Fachpersonal Sammlung der relevanten Daten zur Beantwortung der Frage
  • 7.
    6 Prozess: 1.b Fragestellungdefinieren Datenanalyse Ziel: Geschäftsverständnis für Datenanalysten herstellen 2. Ausgehend von vorhandenen Daten Identifikation nicht ausgewerteter Datenquellen Brainstorming bzgl. brachliegender Potenziale Ableitung und Definition der Fragestellung
  • 8.
    7 Prozess: 2. Datensammlung-& Aufbereitung Datenanalyse 1. Temporär o csv, xlsx o json, xml o Datenbank bzw. Datenbankzugang o API 2. Regelmäßig o Data Lake, Data Warehouse o API
  • 9.
    8 Prozess: 2. Datensammlung-& Aufbereitung Datenanalyse ● Fehlende Daten ● Falsche Datenformate
  • 10.
    9 Prozess: 2. Datensammlung-& Aufbereitung Datenanalyse ● Falsche Formatierung ● Duplikate
  • 11.
    10 Prozess: 2. Datensammlung-& Aufbereitung Datenanalyse ● Fehler in Daten ● Feature Engineering
  • 12.
    11 Prozess: 3. ExplorativeDatenanalyse Datenanalyse ● Ziel: Finden von Mustern, Anomalien & Abhängigkeiten sowie Prüfung von Hypothesen & Annahmen Parameter Statistiken Regressions- analyse Korrelations- analyse Faktoren- analyse Cluster- analyse Kohorten- analyse Zeitreihen- analyse
  • 13.
  • 14.
  • 15.
  • 16.
    15 Prozess: 3. ExplorativeDatenanalyse Beispiel: Regressionsanalyse Datenanalyse
  • 17.
    16 Prozess: 4. Modellierung& Auswertung Datenanalyse ● Deskriptive Statistik ● Schließende Statistik o Konfidenzintervalle o Statistischer Test ● Machine Learning o Prognosemodelle o Klassifikation o Clustering Basierend auf: https://sciencestruck.com/descriptive-vs-inferential-statistics
  • 18.
    17 Prozess: 5. Visualisierung& Kommunikation Datenanalyse Auswahl und Verfeinerung der Diagramme 1. Einmalig: Bericht, Foliensatz o Story gestützt mit aussagekräftigen Diagrammen 2. Regelmäßig: Dashboard o Übersichtliche Darstellung o Automatische Aktualisierung à Datenmanagement
  • 19.
    18 Beispiel: Daten einerWindkraftanlage ● Klasse: 2 MW ● Ort: nördliches Deutschland ● SCADA-Daten in 10-minütigen Intervallen ● Messungen von 2013 bis 2020 Datenanalyse
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
    25 Von der Datenanalysezum Datenmanagement Datenmanagement 1. Fragestellung definieren 2. Datensammlung und -aufbereitung 3. Explorative Datenanalyse 4. Modellierung und Auswertung 5. Visualisierung und Kommunikation Geschäftsverständnis a. Datenanbindung (Extract) b. Aufbereitung (Transform) c. Datenintegration (Load) Data Warehouse / Data Lake Business Intelligence Tools
  • 27.
    26 Klassischer Data-Stack (ETL= Extract, Transform, Load) Datenmanagement Business Intelligence Data Warehouse Datenquellen ETL-Software
  • 28.
    27 Moderner Data-Stack (ELT= Extract, Load, Transform) Datenmanagement Business Intelligence Data Warehouse Datenquellen EL(T)-Software Data Lake
  • 29.
    28 Zielgruppe, Eigenschaften &Vorteile Zielgruppe: Data Scientist Kostengünstige Speicherung großer Datenmengen Flache Architektur Speicherung in unterschiedlichen Formaten Aggregationsbedarf ist zum Zeitpunkt der Datenspeicherung unbekannt Datenbasis für Data Warehousing Daten aus Data Lake bieten Basis für Machine Learning Data Lake
  • 30.
    29 Zielgruppe, Eigenschaften &Vorteile Data Warehouse Zielgruppe: Data Analyst, Business Analyst Grundgedanken: 1. Integration von Daten aus heterogenen Quellen 2. Trennung operativer von dispositiven Daten ● Enthält keine Roh- sondern verarbeitete Daten ● Unterstützt die Datenstandardisierung im Zeitalter von Big Data Ziel: Daten so speichern, dass einfache Analysen möglich sind
  • 31.
    30 Zielgruppe, Eigenschaften &Vorteile Zielgruppe: Business Analyst, Business User Auswertung und Darstellung elektronischer Daten Abbildung verschiedener Anwendungsfälle, z. B. ● Liquiditätsprognose ● Leistungsmanagement ● Marketing Erstellen und Teilen von Berichten oder Dashboards Abruf gespeicherter Analysen mit aktuellen Daten Automatisierte Benachrichtigungen bei Grenzwertüberschreitung Business Intelligence
  • 32.
  • 33.
    32 Hostingkosten: Datenquellen Anwendungsfall Benötigt MonitoringDaten aus k8s-Cluster Projektbezogene Worklogs Kosten Mitarbeiter Rechnungskosten Hostingprovider Explizit • Aggregiert über Zeitraum und Namespace • Gesamte Ressourcen Arbeitsstunden der Mitarbeiter pro Projekt und Vorgang Stundensatz aller Mitarbeiter Monatliche Kostenabrechnung Zugriff API API CSV CSV Zielformat JSON JSON CSV CSV
  • 34.
    33 EL(T)-Software ● Einfache Anbindungan verschiedene Quellen und Ziele ● Automatisierbare Ausführung von Datenpipelines ● Diverse Deployment-Möglichkeiten: Docker, Kubernetes, AWS, GCP ● Übersichtliches Web-Interface ● Basic Normalization ● Open source (alpha) ● Aktive Community Anwendungsfall: Hostingkosten
  • 35.
    34 ● On-demand ● EinfacheDatenanbindung ● Übersichtliches Web-Interface ● Hochverfügbarkeit ● Geringe Kosten bei geringer Datenmenge (< 10GB) ● Feingranulares Rechtemanagement + Service Accounts ● Job scheduling Data Warehouse Anwendungsfall: Hostingkosten
  • 36.
    35 Anwendungsfall: Hostingkosten Business Intelligence ●Intuitives Web-Interface ● Diverse Designmöglichkeiten ● kostenfrei ● Teilen von Dashboards und Weitervergabe von Rechten ● Data Blending für weitere Analysen ● Beispiel: Dashboard – Hostingkosten
  • 37.
    36 Hostingkosten: Kostenübersicht Anwendungsfall Service Kosten EL(T)-Softwarekostenfrei Data Warehouse – Insertions 0,01€/200MB eingesetzte Daten, mit mind. 1KB/Zeile Data Warehouse – Storage 10GB/Monat kostenfrei, danach 0,017€/GB Data Warehouse – Query 1TB/Monat kostenfrei, danach 4,20€/TB BI-Tool kostenfrei Gesamt < 1,00€
  • 38.
    37 worldiety GmbH |Marie-Curie-Straße 1 | 26129 Oldenburg | Deutschland www.worldiety.de | info@worldiety.de| +49 (0) 441 559 770 0 daniel.schlitt@worldiety.de Haben Sie Fragen? ist für Sie da! Dr. Daniel Schlitt
  • 39.
    38 Quellenangaben Quicksight: https://cruzstreet.com/quicksight-consulting/ Sisense: https://commons.wikimedia.org/wiki/File:Sisense_Logo.svg PowerBI:https://commons.wikimedia.org/wiki/File:Power_bi_logo_black.svg Mode: https://mode.com/ Tableau: https://commons.wikimedia.org/wiki/File:Tableau_Logo.png Looker: https://looker.com/assets/img/images/homepage/looker_logo_meta_v0005.png Qlik: https://github.com/qlik-oss Jira: https://www.exasol.com/support/secure/AboutPage.jspa Prometheus: https://vecta.io/symbols/92/brands-pj-pz/47/prometheus Excel: https://de.wikipedia.org/wiki/Datei:Microsoft_Excel_Logo.svg Airbyte: https://github.com/airbytehq/airbyte/blob/master/docs/.gitbook/assets/airbyte_horizontal_color_white-background.svg Big Query: https://www.pikpng.com/downpngs/ibobwTh_google-big-query-logo-google-bigquery-logo-clipart/ Google Data Studio: https://baguette.engineering/blog/what-is-google-data-studio/ Azure Synapse: https://www.progress.com/odbc/microsoft-azure-synapse-analytics IBM DB2: https://medium.com/mozilla-firefox-club/accessing-ibm-db2-database-using-python-c356a4a76bf3 Teradata: https://commons.wikimedia.org/wiki/File:Teradata_logo_2018.png Amazon Redshift: https://blog.openbridge.com/ultimate-offer-get-powerful-amazon-redshift-for-free-19de97829707 PostgreSQL: https://wiki.postgresql.org/wiki/File:PostgreSQL_logo.3colors.svg Snowflake: https://commons.wikimedia.org/wiki/File:Snowflake_Logo.svg Bilder, Grafiken, Logos