SlideShare ist ein Scribd-Unternehmen logo
1 von 39
Downloaden Sie, um offline zu lesen
Online-Veranstaltung
„Data Analytics zum Anfassen“
AGENDA
Motivation Daten-
aufbereitung
Daten-
analyse
Visuali-
sierung
Daten-
management
Anwen-
dungsfall
06
05
03
02
01 04
2
Datenanalyse: Wieso, weshalb, warum?
Motivation
Daten sind
überall
Bessere
Management-
Entscheidungen
treffen
Probleme
identifizieren &
Ursachen finden
Produktivität
steigern & Kosten
senken
Prozesse
optimieren &
bessere Produkte
schaffen
3
Datenanalyse
● Deskriptiv: Was passierte in der Vergangenheit?
● Diagnostisch: Warum passierte etwas?
● Prädiktiv: Was passiert zukünftig?
● Präskriptiv: Was ist das beste Vorgehen?
Vier verschiedene Arten
Basierend auf: https://insights.principa.co.za/4-types-of-data-analytics-descriptive-diagnostic-predictive-prescriptive
4
Datenanalyse
Prozessablauf
5
Prozess: 1.a Fragestellung definieren
Datenanalyse
Ziel: Geschäftsverständnis für Datenanalysten herstellen
1. Ausgehend von Problem/Frage
Problem/Frage im
Betriebsablauf oder
in der Produktion
vorhanden
Austausch
zwischen
Datenanalyst und
Fachpersonal
Sammlung der
relevanten Daten
zur Beantwortung
der Frage
6
Prozess: 1.b Fragestellung definieren
Datenanalyse
Ziel: Geschäftsverständnis für Datenanalysten herstellen
2. Ausgehend von vorhandenen Daten
Identifikation nicht
ausgewerteter
Datenquellen
Brainstorming bzgl.
brachliegender
Potenziale
Ableitung und
Definition der
Fragestellung
7
Prozess: 2. Datensammlung- & Aufbereitung
Datenanalyse
1. Temporär
o csv, xlsx
o json, xml
o Datenbank bzw. Datenbankzugang
o API
2. Regelmäßig
o Data Lake, Data Warehouse
o API
8
Prozess: 2. Datensammlung- & Aufbereitung
Datenanalyse
● Fehlende Daten
● Falsche Datenformate
9
Prozess: 2. Datensammlung- & Aufbereitung
Datenanalyse
● Falsche Formatierung
● Duplikate
10
Prozess: 2. Datensammlung- & Aufbereitung
Datenanalyse
● Fehler in Daten
● Feature Engineering
11
Prozess: 3. Explorative Datenanalyse
Datenanalyse
● Ziel: Finden von Mustern, Anomalien & Abhängigkeiten sowie Prüfung von Hypothesen & Annahmen
Parameter
Statistiken
Regressions-
analyse
Korrelations-
analyse
Faktoren-
analyse
Cluster-
analyse
Kohorten-
analyse
Zeitreihen-
analyse
12
Datenanalyse
Beispiel
Korrelations-
analyse
(Heatmap)
Prozess: 3.
Explorative
Datenanalyse
13
Datenanalyse
Beispiel
Korrelations-
analyse
(Pairplot)
Prozess: 3.
Explorative
Datenanalyse
14
Datenanalyse
Beispiel
Zeitreihenanalyse
Prozess: 3.
Explorative
Datenanalyse
15
Prozess: 3. Explorative Datenanalyse
Beispiel: Regressionsanalyse
Datenanalyse
16
Prozess: 4. Modellierung & Auswertung
Datenanalyse
● Deskriptive Statistik
● Schließende Statistik
o Konfidenzintervalle
o Statistischer Test
● Machine Learning
o Prognosemodelle
o Klassifikation
o Clustering
Basierend auf: https://sciencestruck.com/descriptive-vs-inferential-statistics
17
Prozess: 5. Visualisierung & Kommunikation
Datenanalyse
Auswahl und Verfeinerung der Diagramme
1. Einmalig: Bericht, Foliensatz
o Story gestützt mit aussagekräftigen Diagrammen
2. Regelmäßig: Dashboard
o Übersichtliche Darstellung
o Automatische Aktualisierung
à Datenmanagement
18
Beispiel: Daten einer Windkraftanlage
● Klasse: 2 MW
● Ort: nördliches Deutschland
● SCADA-Daten in 10-minütigen Intervallen
● Messungen von 2013 bis 2020
Datenanalyse
19
Datenanalyse
Beispiel: Daten einer Windkraftanlage
20
Beispiel
Beispiel: Daten einer Windkraftanlage
21
Beispiel
Beispiel: Daten einer Windkraftanlage
22
Beispiel
Beispiel: Daten einer Windkraftanlage
23
Beispiel
Beispiel: Daten einer Windkraftanlage
24
Beispiel
Beispiel: Daten einer Windkraftanlage
25
Von der Datenanalyse zum Datenmanagement
Datenmanagement
1. Fragestellung definieren
2. Datensammlung und
-aufbereitung
3. Explorative Datenanalyse
4. Modellierung und Auswertung
5. Visualisierung und Kommunikation
Geschäftsverständnis
a. Datenanbindung (Extract)
b. Aufbereitung (Transform)
c. Datenintegration (Load)
Data Warehouse / Data Lake
Business Intelligence Tools
26
Klassischer Data-Stack (ETL = Extract, Transform, Load)
Datenmanagement
Business Intelligence
Data Warehouse
Datenquellen ETL-Software
27
Moderner Data-Stack (ELT = Extract, Load, Transform)
Datenmanagement
Business Intelligence
Data Warehouse
Datenquellen EL(T)-Software Data Lake
28
Zielgruppe, Eigenschaften & Vorteile
Zielgruppe: Data Scientist
Kostengünstige Speicherung großer Datenmengen
Flache Architektur
Speicherung in unterschiedlichen Formaten
Aggregationsbedarf ist zum Zeitpunkt der Datenspeicherung unbekannt
Datenbasis für Data Warehousing
Daten aus Data Lake bieten Basis für Machine Learning
Data Lake
29
Zielgruppe, Eigenschaften & Vorteile
Data Warehouse
Zielgruppe: Data Analyst, Business Analyst
Grundgedanken:
1. Integration von Daten aus heterogenen Quellen
2. Trennung operativer von dispositiven Daten
● Enthält keine Roh- sondern verarbeitete Daten
● Unterstützt die Datenstandardisierung im Zeitalter von Big Data
Ziel: Daten so speichern, dass einfache Analysen möglich sind
30
Zielgruppe, Eigenschaften & Vorteile
Zielgruppe: Business Analyst, Business User
Auswertung und Darstellung elektronischer Daten
Abbildung verschiedener Anwendungsfälle, z. B.
● Liquiditätsprognose
● Leistungsmanagement
● Marketing
Erstellen und Teilen von Berichten oder Dashboards
Abruf gespeicherter Analysen mit aktuellen Daten
Automatisierte Benachrichtigungen bei Grenzwertüberschreitung
Business Intelligence
31
Hostingkosten: Prozessübersicht
Anwendungsfall
Business Intelligence
Data Warehouse
EL(T)-Software
Datenquellen
32
Hostingkosten: Datenquellen
Anwendungsfall
Benötigt Monitoring Daten aus
k8s-Cluster
Projektbezogene
Worklogs
Kosten Mitarbeiter Rechnungskosten
Hostingprovider
Explizit • Aggregiert über
Zeitraum und
Namespace
• Gesamte
Ressourcen
Arbeitsstunden der
Mitarbeiter pro
Projekt und Vorgang
Stundensatz aller
Mitarbeiter
Monatliche
Kostenabrechnung
Zugriff API API CSV CSV
Zielformat JSON JSON CSV CSV
33
EL(T)-Software
● Einfache Anbindung an verschiedene Quellen und Ziele
● Automatisierbare Ausführung von Datenpipelines
● Diverse Deployment-Möglichkeiten: Docker, Kubernetes, AWS, GCP
● Übersichtliches Web-Interface
● Basic Normalization
● Open source (alpha)
● Aktive Community
Anwendungsfall: Hostingkosten
34
● On-demand
● Einfache Datenanbindung
● Übersichtliches Web-Interface
● Hochverfügbarkeit
● Geringe Kosten bei geringer Datenmenge (< 10GB)
● Feingranulares Rechtemanagement + Service Accounts
● Job scheduling
Data Warehouse
Anwendungsfall: Hostingkosten
35
Anwendungsfall: Hostingkosten
Business Intelligence
● Intuitives Web-Interface
● Diverse Designmöglichkeiten
● kostenfrei
● Teilen von Dashboards und Weitervergabe von Rechten
● Data Blending für weitere Analysen
● Beispiel: Dashboard – Hostingkosten
36
Hostingkosten: Kostenübersicht
Anwendungsfall
Service Kosten
EL(T)-Software kostenfrei
Data Warehouse – Insertions 0,01€/200MB eingesetzte Daten, mit mind. 1KB/Zeile
Data Warehouse – Storage 10GB/Monat kostenfrei, danach 0,017€/GB
Data Warehouse – Query 1TB/Monat kostenfrei, danach 4,20€/TB
BI-Tool kostenfrei
Gesamt < 1,00€
37
worldiety GmbH | Marie-Curie-Straße 1 | 26129 Oldenburg | Deutschland
www.worldiety.de | info@worldiety.de| +49 (0) 441 559 770 0
daniel.schlitt@worldiety.de
Haben Sie Fragen?
ist für Sie da!
Dr. Daniel Schlitt
38
Quellenangaben
Quicksight: https://cruzstreet.com/quicksight-consulting/
Sisense: https://commons.wikimedia.org/wiki/File:Sisense_Logo.svg
PowerBI: https://commons.wikimedia.org/wiki/File:Power_bi_logo_black.svg
Mode: https://mode.com/
Tableau: https://commons.wikimedia.org/wiki/File:Tableau_Logo.png
Looker: https://looker.com/assets/img/images/homepage/looker_logo_meta_v0005.png
Qlik: https://github.com/qlik-oss
Jira: https://www.exasol.com/support/secure/AboutPage.jspa
Prometheus: https://vecta.io/symbols/92/brands-pj-pz/47/prometheus
Excel: https://de.wikipedia.org/wiki/Datei:Microsoft_Excel_Logo.svg
Airbyte: https://github.com/airbytehq/airbyte/blob/master/docs/.gitbook/assets/airbyte_horizontal_color_white-background.svg
Big Query: https://www.pikpng.com/downpngs/ibobwTh_google-big-query-logo-google-bigquery-logo-clipart/
Google Data Studio: https://baguette.engineering/blog/what-is-google-data-studio/
Azure Synapse: https://www.progress.com/odbc/microsoft-azure-synapse-analytics
IBM DB2: https://medium.com/mozilla-firefox-club/accessing-ibm-db2-database-using-python-c356a4a76bf3
Teradata: https://commons.wikimedia.org/wiki/File:Teradata_logo_2018.png
Amazon Redshift: https://blog.openbridge.com/ultimate-offer-get-powerful-amazon-redshift-for-free-19de97829707
PostgreSQL: https://wiki.postgresql.org/wiki/File:PostgreSQL_logo.3colors.svg
Snowflake: https://commons.wikimedia.org/wiki/File:Snowflake_Logo.svg
Bilder, Grafiken, Logos

Weitere ähnliche Inhalte

Was ist angesagt?

ISD2016_Solution_L_Müller
ISD2016_Solution_L_MüllerISD2016_Solution_L_Müller
ISD2016_Solution_L_MüllerInfoSocietyDays
 
SEPA - Kunden im Blick?
SEPA - Kunden im Blick?SEPA - Kunden im Blick?
SEPA - Kunden im Blick?Marco Geuer
 
Der digitale Kreditprozess
Der digitale KreditprozessDer digitale Kreditprozess
Der digitale KreditprozessPPI AG
 
Produktionsalanyse as a Service
Produktionsalanyse as a ServiceProduktionsalanyse as a Service
Produktionsalanyse as a ServiceLineMetrics
 
Strategische Optimierung der Betriebsfunktionen in der Versicherung
Strategische Optimierung der Betriebsfunktionen in der VersicherungStrategische Optimierung der Betriebsfunktionen in der Versicherung
Strategische Optimierung der Betriebsfunktionen in der VersicherungMichael Danisch
 
InfoSocietyDays2016_Referat_Thomas_Berger
InfoSocietyDays2016_Referat_Thomas_BergerInfoSocietyDays2016_Referat_Thomas_Berger
InfoSocietyDays2016_Referat_Thomas_BergerInfoSocietyDays
 
Exzellenz im Zahlungsverkehr Consulting und Produkte
Exzellenz im Zahlungsverkehr Consulting und Produkte Exzellenz im Zahlungsverkehr Consulting und Produkte
Exzellenz im Zahlungsverkehr Consulting und Produkte PPI AG
 
ISD2016_SolutionC_Erwin_Ochsner
ISD2016_SolutionC_Erwin_OchsnerISD2016_SolutionC_Erwin_Ochsner
ISD2016_SolutionC_Erwin_OchsnerInfoSocietyDays
 
InfoSocietyDays2016_Norbert_Ender
InfoSocietyDays2016_Norbert_EnderInfoSocietyDays2016_Norbert_Ender
InfoSocietyDays2016_Norbert_EnderInfoSocietyDays
 
Exzellenz im Zahlungsverkehr Consulting und Produkte
Exzellenz im Zahlungsverkehr Consulting und ProdukteExzellenz im Zahlungsverkehr Consulting und Produkte
Exzellenz im Zahlungsverkehr Consulting und ProduktePPI AG
 
Ing. Nikolaus A. Proske (d.velop)
Ing.  Nikolaus A. Proske (d.velop)Ing.  Nikolaus A. Proske (d.velop)
Ing. Nikolaus A. Proske (d.velop)Praxistage
 
Elektronische Identifikation - Digitale Identitäten
Elektronische Identifikation - Digitale IdentitätenElektronische Identifikation - Digitale Identitäten
Elektronische Identifikation - Digitale IdentitätenPPI AG
 
PPI AG Kurzportrait
PPI AG KurzportraitPPI AG Kurzportrait
PPI AG KurzportraitPPI AG
 
ISD2016_SolutionJ_Nina_Klingler
ISD2016_SolutionJ_Nina_KlinglerISD2016_SolutionJ_Nina_Klingler
ISD2016_SolutionJ_Nina_KlinglerInfoSocietyDays
 
InfoSocietyDays2016_Referat_Gérald-_Strub
InfoSocietyDays2016_Referat_Gérald-_StrubInfoSocietyDays2016_Referat_Gérald-_Strub
InfoSocietyDays2016_Referat_Gérald-_StrubInfoSocietyDays
 
ISD2016_SolutionJ_Alexander_Mestre
ISD2016_SolutionJ_Alexander_MestreISD2016_SolutionJ_Alexander_Mestre
ISD2016_SolutionJ_Alexander_MestreInfoSocietyDays
 
Dr. Oswald Kessler (BM.I SU-ZMR)
Dr. Oswald Kessler (BM.I SU-ZMR)Dr. Oswald Kessler (BM.I SU-ZMR)
Dr. Oswald Kessler (BM.I SU-ZMR)Praxistage
 
InfoSocietyDays2016_Beat_Kobler
InfoSocietyDays2016_Beat_KoblerInfoSocietyDays2016_Beat_Kobler
InfoSocietyDays2016_Beat_KoblerInfoSocietyDays
 

Was ist angesagt? (20)

ISD2016_Solution_L_Müller
ISD2016_Solution_L_MüllerISD2016_Solution_L_Müller
ISD2016_Solution_L_Müller
 
SEPA - Kunden im Blick?
SEPA - Kunden im Blick?SEPA - Kunden im Blick?
SEPA - Kunden im Blick?
 
Der digitale Kreditprozess
Der digitale KreditprozessDer digitale Kreditprozess
Der digitale Kreditprozess
 
Produktionsalanyse as a Service
Produktionsalanyse as a ServiceProduktionsalanyse as a Service
Produktionsalanyse as a Service
 
Strategische Optimierung der Betriebsfunktionen in der Versicherung
Strategische Optimierung der Betriebsfunktionen in der VersicherungStrategische Optimierung der Betriebsfunktionen in der Versicherung
Strategische Optimierung der Betriebsfunktionen in der Versicherung
 
InfoSocietyDays2016_Referat_Thomas_Berger
InfoSocietyDays2016_Referat_Thomas_BergerInfoSocietyDays2016_Referat_Thomas_Berger
InfoSocietyDays2016_Referat_Thomas_Berger
 
Exzellenz im Zahlungsverkehr Consulting und Produkte
Exzellenz im Zahlungsverkehr Consulting und Produkte Exzellenz im Zahlungsverkehr Consulting und Produkte
Exzellenz im Zahlungsverkehr Consulting und Produkte
 
ISD2016_SolutionC_Erwin_Ochsner
ISD2016_SolutionC_Erwin_OchsnerISD2016_SolutionC_Erwin_Ochsner
ISD2016_SolutionC_Erwin_Ochsner
 
InfoSocietyDays2016_Norbert_Ender
InfoSocietyDays2016_Norbert_EnderInfoSocietyDays2016_Norbert_Ender
InfoSocietyDays2016_Norbert_Ender
 
Exzellenz im Zahlungsverkehr Consulting und Produkte
Exzellenz im Zahlungsverkehr Consulting und ProdukteExzellenz im Zahlungsverkehr Consulting und Produkte
Exzellenz im Zahlungsverkehr Consulting und Produkte
 
SolutionC_Elias_Mayer
SolutionC_Elias_MayerSolutionC_Elias_Mayer
SolutionC_Elias_Mayer
 
Ing. Nikolaus A. Proske (d.velop)
Ing.  Nikolaus A. Proske (d.velop)Ing.  Nikolaus A. Proske (d.velop)
Ing. Nikolaus A. Proske (d.velop)
 
Elektronische Identifikation - Digitale Identitäten
Elektronische Identifikation - Digitale IdentitätenElektronische Identifikation - Digitale Identitäten
Elektronische Identifikation - Digitale Identitäten
 
SolutionM_Urs_Fischer
SolutionM_Urs_FischerSolutionM_Urs_Fischer
SolutionM_Urs_Fischer
 
PPI AG Kurzportrait
PPI AG KurzportraitPPI AG Kurzportrait
PPI AG Kurzportrait
 
ISD2016_SolutionJ_Nina_Klingler
ISD2016_SolutionJ_Nina_KlinglerISD2016_SolutionJ_Nina_Klingler
ISD2016_SolutionJ_Nina_Klingler
 
InfoSocietyDays2016_Referat_Gérald-_Strub
InfoSocietyDays2016_Referat_Gérald-_StrubInfoSocietyDays2016_Referat_Gérald-_Strub
InfoSocietyDays2016_Referat_Gérald-_Strub
 
ISD2016_SolutionJ_Alexander_Mestre
ISD2016_SolutionJ_Alexander_MestreISD2016_SolutionJ_Alexander_Mestre
ISD2016_SolutionJ_Alexander_Mestre
 
Dr. Oswald Kessler (BM.I SU-ZMR)
Dr. Oswald Kessler (BM.I SU-ZMR)Dr. Oswald Kessler (BM.I SU-ZMR)
Dr. Oswald Kessler (BM.I SU-ZMR)
 
InfoSocietyDays2016_Beat_Kobler
InfoSocietyDays2016_Beat_KoblerInfoSocietyDays2016_Beat_Kobler
InfoSocietyDays2016_Beat_Kobler
 

Ähnlich wie worldiety GmbH - Datenanalyse

BARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen KannBARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen KannDataValueTalk
 
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Spark Summit
 
14. SEA Stammtisch: KNIME Vortrag von David Zurek und Mateusz Rychlewski
14. SEA Stammtisch: KNIME Vortrag von David Zurek und Mateusz Rychlewski14. SEA Stammtisch: KNIME Vortrag von David Zurek und Mateusz Rychlewski
14. SEA Stammtisch: KNIME Vortrag von David Zurek und Mateusz RychlewskiPeakAce
 
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...CONOGY GmbH
 
Folien2 spss watson roadshow_predictive
Folien2 spss watson roadshow_predictiveFolien2 spss watson roadshow_predictive
Folien2 spss watson roadshow_predictiveClara Ogwuazor Mbamalu
 
Clickstream Analysis with Spark
Clickstream Analysis with Spark Clickstream Analysis with Spark
Clickstream Analysis with Spark Josef Adersberger
 
Clickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real TimeClickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real TimeQAware GmbH
 
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...Precisely
 
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnenTweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnenit-novum
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rMarcel Franke
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern
 
SDIC'16 - Best Practices für Smart Data Projekte
SDIC'16 - Best Practices für Smart Data ProjekteSDIC'16 - Best Practices für Smart Data Projekte
SDIC'16 - Best Practices für Smart Data ProjekteSmart Data Innovation Lab
 
Tochtergesellschaften in die Konzern ERP-Welt integrieren
Tochtergesellschaften in die Konzern ERP-Welt integrierenTochtergesellschaften in die Konzern ERP-Welt integrieren
Tochtergesellschaften in die Konzern ERP-Welt integrierenall4cloud GmbH & Co. KG
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesOPITZ CONSULTING Deutschland
 
05 präsentation der siegerarbeit
05 präsentation der siegerarbeit05 präsentation der siegerarbeit
05 präsentation der siegerarbeitICV_eV
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business IntelligenceDataLion
 
Erfolgsfaktoren einer datengetriebenen Customer-Care-Optimierung
Erfolgsfaktoren einer datengetriebenen Customer-Care-OptimierungErfolgsfaktoren einer datengetriebenen Customer-Care-Optimierung
Erfolgsfaktoren einer datengetriebenen Customer-Care-Optimierunginovex GmbH
 
TOC Netzwerktagung - "HiSpeed Data Analytics"
TOC Netzwerktagung - "HiSpeed Data Analytics"TOC Netzwerktagung - "HiSpeed Data Analytics"
TOC Netzwerktagung - "HiSpeed Data Analytics"Marco Geuer
 
Process Mining: Konzept und Anwendung
Process Mining: Konzept und AnwendungProcess Mining: Konzept und Anwendung
Process Mining: Konzept und AnwendungMichael Groeschel
 
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...SQL Projekt AG
 

Ähnlich wie worldiety GmbH - Datenanalyse (20)

BARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen KannBARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen Kann
 
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
 
14. SEA Stammtisch: KNIME Vortrag von David Zurek und Mateusz Rychlewski
14. SEA Stammtisch: KNIME Vortrag von David Zurek und Mateusz Rychlewski14. SEA Stammtisch: KNIME Vortrag von David Zurek und Mateusz Rychlewski
14. SEA Stammtisch: KNIME Vortrag von David Zurek und Mateusz Rychlewski
 
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
 
Folien2 spss watson roadshow_predictive
Folien2 spss watson roadshow_predictiveFolien2 spss watson roadshow_predictive
Folien2 spss watson roadshow_predictive
 
Clickstream Analysis with Spark
Clickstream Analysis with Spark Clickstream Analysis with Spark
Clickstream Analysis with Spark
 
Clickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real TimeClickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real Time
 
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
 
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnenTweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und Knacknüsse
 
SDIC'16 - Best Practices für Smart Data Projekte
SDIC'16 - Best Practices für Smart Data ProjekteSDIC'16 - Best Practices für Smart Data Projekte
SDIC'16 - Best Practices für Smart Data Projekte
 
Tochtergesellschaften in die Konzern ERP-Welt integrieren
Tochtergesellschaften in die Konzern ERP-Welt integrierenTochtergesellschaften in die Konzern ERP-Welt integrieren
Tochtergesellschaften in die Konzern ERP-Welt integrieren
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
 
05 präsentation der siegerarbeit
05 präsentation der siegerarbeit05 präsentation der siegerarbeit
05 präsentation der siegerarbeit
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business Intelligence
 
Erfolgsfaktoren einer datengetriebenen Customer-Care-Optimierung
Erfolgsfaktoren einer datengetriebenen Customer-Care-OptimierungErfolgsfaktoren einer datengetriebenen Customer-Care-Optimierung
Erfolgsfaktoren einer datengetriebenen Customer-Care-Optimierung
 
TOC Netzwerktagung - "HiSpeed Data Analytics"
TOC Netzwerktagung - "HiSpeed Data Analytics"TOC Netzwerktagung - "HiSpeed Data Analytics"
TOC Netzwerktagung - "HiSpeed Data Analytics"
 
Process Mining: Konzept und Anwendung
Process Mining: Konzept und AnwendungProcess Mining: Konzept und Anwendung
Process Mining: Konzept und Anwendung
 
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...
 

worldiety GmbH - Datenanalyse

  • 3. 2 Datenanalyse: Wieso, weshalb, warum? Motivation Daten sind überall Bessere Management- Entscheidungen treffen Probleme identifizieren & Ursachen finden Produktivität steigern & Kosten senken Prozesse optimieren & bessere Produkte schaffen
  • 4. 3 Datenanalyse ● Deskriptiv: Was passierte in der Vergangenheit? ● Diagnostisch: Warum passierte etwas? ● Prädiktiv: Was passiert zukünftig? ● Präskriptiv: Was ist das beste Vorgehen? Vier verschiedene Arten Basierend auf: https://insights.principa.co.za/4-types-of-data-analytics-descriptive-diagnostic-predictive-prescriptive
  • 6. 5 Prozess: 1.a Fragestellung definieren Datenanalyse Ziel: Geschäftsverständnis für Datenanalysten herstellen 1. Ausgehend von Problem/Frage Problem/Frage im Betriebsablauf oder in der Produktion vorhanden Austausch zwischen Datenanalyst und Fachpersonal Sammlung der relevanten Daten zur Beantwortung der Frage
  • 7. 6 Prozess: 1.b Fragestellung definieren Datenanalyse Ziel: Geschäftsverständnis für Datenanalysten herstellen 2. Ausgehend von vorhandenen Daten Identifikation nicht ausgewerteter Datenquellen Brainstorming bzgl. brachliegender Potenziale Ableitung und Definition der Fragestellung
  • 8. 7 Prozess: 2. Datensammlung- & Aufbereitung Datenanalyse 1. Temporär o csv, xlsx o json, xml o Datenbank bzw. Datenbankzugang o API 2. Regelmäßig o Data Lake, Data Warehouse o API
  • 9. 8 Prozess: 2. Datensammlung- & Aufbereitung Datenanalyse ● Fehlende Daten ● Falsche Datenformate
  • 10. 9 Prozess: 2. Datensammlung- & Aufbereitung Datenanalyse ● Falsche Formatierung ● Duplikate
  • 11. 10 Prozess: 2. Datensammlung- & Aufbereitung Datenanalyse ● Fehler in Daten ● Feature Engineering
  • 12. 11 Prozess: 3. Explorative Datenanalyse Datenanalyse ● Ziel: Finden von Mustern, Anomalien & Abhängigkeiten sowie Prüfung von Hypothesen & Annahmen Parameter Statistiken Regressions- analyse Korrelations- analyse Faktoren- analyse Cluster- analyse Kohorten- analyse Zeitreihen- analyse
  • 16. 15 Prozess: 3. Explorative Datenanalyse Beispiel: Regressionsanalyse Datenanalyse
  • 17. 16 Prozess: 4. Modellierung & Auswertung Datenanalyse ● Deskriptive Statistik ● Schließende Statistik o Konfidenzintervalle o Statistischer Test ● Machine Learning o Prognosemodelle o Klassifikation o Clustering Basierend auf: https://sciencestruck.com/descriptive-vs-inferential-statistics
  • 18. 17 Prozess: 5. Visualisierung & Kommunikation Datenanalyse Auswahl und Verfeinerung der Diagramme 1. Einmalig: Bericht, Foliensatz o Story gestützt mit aussagekräftigen Diagrammen 2. Regelmäßig: Dashboard o Übersichtliche Darstellung o Automatische Aktualisierung à Datenmanagement
  • 19. 18 Beispiel: Daten einer Windkraftanlage ● Klasse: 2 MW ● Ort: nördliches Deutschland ● SCADA-Daten in 10-minütigen Intervallen ● Messungen von 2013 bis 2020 Datenanalyse
  • 26. 25 Von der Datenanalyse zum Datenmanagement Datenmanagement 1. Fragestellung definieren 2. Datensammlung und -aufbereitung 3. Explorative Datenanalyse 4. Modellierung und Auswertung 5. Visualisierung und Kommunikation Geschäftsverständnis a. Datenanbindung (Extract) b. Aufbereitung (Transform) c. Datenintegration (Load) Data Warehouse / Data Lake Business Intelligence Tools
  • 27. 26 Klassischer Data-Stack (ETL = Extract, Transform, Load) Datenmanagement Business Intelligence Data Warehouse Datenquellen ETL-Software
  • 28. 27 Moderner Data-Stack (ELT = Extract, Load, Transform) Datenmanagement Business Intelligence Data Warehouse Datenquellen EL(T)-Software Data Lake
  • 29. 28 Zielgruppe, Eigenschaften & Vorteile Zielgruppe: Data Scientist Kostengünstige Speicherung großer Datenmengen Flache Architektur Speicherung in unterschiedlichen Formaten Aggregationsbedarf ist zum Zeitpunkt der Datenspeicherung unbekannt Datenbasis für Data Warehousing Daten aus Data Lake bieten Basis für Machine Learning Data Lake
  • 30. 29 Zielgruppe, Eigenschaften & Vorteile Data Warehouse Zielgruppe: Data Analyst, Business Analyst Grundgedanken: 1. Integration von Daten aus heterogenen Quellen 2. Trennung operativer von dispositiven Daten ● Enthält keine Roh- sondern verarbeitete Daten ● Unterstützt die Datenstandardisierung im Zeitalter von Big Data Ziel: Daten so speichern, dass einfache Analysen möglich sind
  • 31. 30 Zielgruppe, Eigenschaften & Vorteile Zielgruppe: Business Analyst, Business User Auswertung und Darstellung elektronischer Daten Abbildung verschiedener Anwendungsfälle, z. B. ● Liquiditätsprognose ● Leistungsmanagement ● Marketing Erstellen und Teilen von Berichten oder Dashboards Abruf gespeicherter Analysen mit aktuellen Daten Automatisierte Benachrichtigungen bei Grenzwertüberschreitung Business Intelligence
  • 33. 32 Hostingkosten: Datenquellen Anwendungsfall Benötigt Monitoring Daten aus k8s-Cluster Projektbezogene Worklogs Kosten Mitarbeiter Rechnungskosten Hostingprovider Explizit • Aggregiert über Zeitraum und Namespace • Gesamte Ressourcen Arbeitsstunden der Mitarbeiter pro Projekt und Vorgang Stundensatz aller Mitarbeiter Monatliche Kostenabrechnung Zugriff API API CSV CSV Zielformat JSON JSON CSV CSV
  • 34. 33 EL(T)-Software ● Einfache Anbindung an verschiedene Quellen und Ziele ● Automatisierbare Ausführung von Datenpipelines ● Diverse Deployment-Möglichkeiten: Docker, Kubernetes, AWS, GCP ● Übersichtliches Web-Interface ● Basic Normalization ● Open source (alpha) ● Aktive Community Anwendungsfall: Hostingkosten
  • 35. 34 ● On-demand ● Einfache Datenanbindung ● Übersichtliches Web-Interface ● Hochverfügbarkeit ● Geringe Kosten bei geringer Datenmenge (< 10GB) ● Feingranulares Rechtemanagement + Service Accounts ● Job scheduling Data Warehouse Anwendungsfall: Hostingkosten
  • 36. 35 Anwendungsfall: Hostingkosten Business Intelligence ● Intuitives Web-Interface ● Diverse Designmöglichkeiten ● kostenfrei ● Teilen von Dashboards und Weitervergabe von Rechten ● Data Blending für weitere Analysen ● Beispiel: Dashboard – Hostingkosten
  • 37. 36 Hostingkosten: Kostenübersicht Anwendungsfall Service Kosten EL(T)-Software kostenfrei Data Warehouse – Insertions 0,01€/200MB eingesetzte Daten, mit mind. 1KB/Zeile Data Warehouse – Storage 10GB/Monat kostenfrei, danach 0,017€/GB Data Warehouse – Query 1TB/Monat kostenfrei, danach 4,20€/TB BI-Tool kostenfrei Gesamt < 1,00€
  • 38. 37 worldiety GmbH | Marie-Curie-Straße 1 | 26129 Oldenburg | Deutschland www.worldiety.de | info@worldiety.de| +49 (0) 441 559 770 0 daniel.schlitt@worldiety.de Haben Sie Fragen? ist für Sie da! Dr. Daniel Schlitt
  • 39. 38 Quellenangaben Quicksight: https://cruzstreet.com/quicksight-consulting/ Sisense: https://commons.wikimedia.org/wiki/File:Sisense_Logo.svg PowerBI: https://commons.wikimedia.org/wiki/File:Power_bi_logo_black.svg Mode: https://mode.com/ Tableau: https://commons.wikimedia.org/wiki/File:Tableau_Logo.png Looker: https://looker.com/assets/img/images/homepage/looker_logo_meta_v0005.png Qlik: https://github.com/qlik-oss Jira: https://www.exasol.com/support/secure/AboutPage.jspa Prometheus: https://vecta.io/symbols/92/brands-pj-pz/47/prometheus Excel: https://de.wikipedia.org/wiki/Datei:Microsoft_Excel_Logo.svg Airbyte: https://github.com/airbytehq/airbyte/blob/master/docs/.gitbook/assets/airbyte_horizontal_color_white-background.svg Big Query: https://www.pikpng.com/downpngs/ibobwTh_google-big-query-logo-google-bigquery-logo-clipart/ Google Data Studio: https://baguette.engineering/blog/what-is-google-data-studio/ Azure Synapse: https://www.progress.com/odbc/microsoft-azure-synapse-analytics IBM DB2: https://medium.com/mozilla-firefox-club/accessing-ibm-db2-database-using-python-c356a4a76bf3 Teradata: https://commons.wikimedia.org/wiki/File:Teradata_logo_2018.png Amazon Redshift: https://blog.openbridge.com/ultimate-offer-get-powerful-amazon-redshift-for-free-19de97829707 PostgreSQL: https://wiki.postgresql.org/wiki/File:PostgreSQL_logo.3colors.svg Snowflake: https://commons.wikimedia.org/wiki/File:Snowflake_Logo.svg Bilder, Grafiken, Logos