1. KIT – University of the State of Baden-Wuerttemberg and
National Research Center of the Helmholtz Association
Smart Data Innovation Lab
www.kit.edu
SDI-X
13.10.2016
Best Practices für Smart Data Projekte
Dr.-Ing. Markus Scholz, Data Scientist SDSC-BW/SDIL
KIT, TECO, Prof. Beigl, Markus.Scholz@kit.edu
2. 2
SDI-X
Motivation: Exponentiell wachsendes Datenvolumen soll zeitnah
verarbeitet werden
Ziel: Unterstützung datengetriebener Innovation in Forschung
und Anwendung durch geeignete
Best Practice-Prozesse
Best Practice-Werkzeuge
Best Practice-Betriebskonzepte
Smart Data Innovation Lab (SDIL)
Überblick (SDI-X)
3. 3
SDI-X
Effizient durchführbar
Erzeugt belastbare Ergebnisse
Ist nachvollziehbar / wartbar
Ist reproduzierbar
Smart Data Innovation Lab (SDIL)
Best Practice-Prozesse I: Anforderungen an SD Analyse
Ähnliche Anforderungen wie an Softwareentwicklung Anfang der 90iger
4. 4
SDI-X
Modelle für den Analyseprozess (z.B. CRISP-DM)
Technische Handlungsempfehlungen auf Basis von
Datencharakteristiken (z.B. Dimension vs. Datensätze)
Technischen Fragestellungen (z.B. Anomaliedetektion)
Tools für technische Aspekte der Analyse
Integration
Vorverarbeitung, Algorithmen, Online/Offline-Evaluation
Dokumentation
Versionierung
Smart Data Innovation Lab (SDIL)
Best Practice-Prozesse II: Werkzeuge für die Analyse
5. 5
SDI-XSmart Data Innovation Lab (SDIL)
Beispiel Prozess: CRISP-DM Datenanalyseprozess
Allgemeine Vorgehensweise ohne spezifische Handlungsempfehlung
(z.B. Was bedeutet „Data Preparation“ für eine bestimmte Fragestellung?)
6. 6
SDI-XSmart Data Innovation Lab (SDIL)
Beispiel techn. Best Practices: Azure Cheatsheet
Domain-unabhängige, Datencharakteristik-bezogene techn. Empfehlungen
7. 7
SDI-X
Business
Understanding
Data
Understanding
... Evaluation
Smart Data Innovation Lab (SDIL)
Mehrschichtige Sicht auf die Smart Data Analyse
Technische Empfehlungen
Analyseprozessmodell (CRISP-DM)
Analyse-Entwurfsmuster für spezifische Problemstellung/Domäne
Software Tools,
Analysewerkzeuge SAP
HANA
IBM
Watson
SAG
Terracotta
Python, R,
etc.
Cheatsheets
Tutorials
Courses
8. 8
SDI-X
Business
Understanding
Data
Understanding
... Evaluation
Smart Data Innovation Lab (SDIL)
Mehrschichtige Sicht auf die Smart Data Analyse
SDI-X
Technische Empfehlungen
Analyseprozessmodell (CRISP-DM)
Analyse-Entwurfsmuster gg. spezifische Problemstellung/Domäne
Software Tools,
Analysewerkzeuge SAP
HANA
IBM
Watson
SAG
Terracotta
Python, R,
etc.
Cheatsheets
Tutorials
Courses
9. 9
SDI-X
Analyse durchgeführter und laufender Projekte durch
Fragebögen an Datenanalysten
Konsolidierung der Datenanalysebögen
Extraktion und Kategorisierung der Analysen
Entwicklung Analyse-Entwurfsmuster in Code und Dokumentation
Analyse-Entwurfsmuster: Mehrschichtige und verzweigte Abbildungen des
Analyseprozesses enthalten z.T. auch technische Handlungsempfehlungen
Smart Data Innovation Lab (SDIL)
Ansatz von SDI-X I
11. 11
SDI-X
Identifikation wichtiger Einflüsse auf eine Zielvariable (Einflüsse)
Anwendung
Beeinflussende Merkmale identifizieren
Z.B. Merkmale die bei einer Auftragsverzögerung relevant sind
Extraktion von Regeln für die Zielgröße (Regeln)
Anwendung
Wie ist der Einfluss der Merkmale auf die Zielgröße (Verständnis)
Vorhersage einer Zielgröße
Z.B. Wie wahrscheinlich ist die Kündigung eines Abos
Intrinsische Datenstruktur ableiten (Struktur)
Anwendung
Unbekannte Zusammenhänge entdecken
Z.B. Identifikation von Kundengruppen
Ableitung von Prozessen (Prozesse)
Z.B. Wie exakt werden Prozesse im Unternehmen umgesetzt
Smart Data Innovation Lab (SDIL)
Kategorisierung typ. Zielstellungen
12. 12
SDI-X
Best Practice-Process setzt sich zusammen aus nachvollziehbaren
Einzelentscheidungen mit vordefinierten Berechnungschritten
Smart Data Innovation Lab (SDIL)
SDI-X Best-Practice Prozess – Work in Progress
EinflüsseZielstellung Regeln Struktur Prozesse
Anforderungen
(aus Anwendung)
Verarbeitungskette
(Vorverarbeitung,
Algorithmen,
Evaluation
+ tech.Empfehlungen)
…
Hohe Genauigkeit
Gute Interpretierbarkeit
Onlineverfahren
Methode 1
Methode 2
Methode 3
…
Hohe Robustheit
…
13. 13
SDI-X
SDI-X: Best-Practices für Smart Data Prozesse, Tools, Betrieb
Heutige Smart Data Analyse hat ähnliche Herausforderung wie
frühe SW-Entwicklung
Z.B. dadurch dass Werkzeuge sehr allgemein gehalten sind
Potential in Zielstellung-bezogenen Best-Practices
(„Smart Data Analyse Entwurfsmuster“)
Umsetzung von Anforderungen an die Smart Data Analyse
Schnellerer Transfer von Analyse-Knowhow
Neue USP für existierende Analysesoftware
Data Scientist wird effizienter aber nicht ersetzt
Smart Data Innovation Lab (SDIL)
Zusammenfassung und Schlussfolgerung
14. 14
SDI-X
DANKE FÜR IHRE AUFMERKSAMKEIT
Dr.-Ing. Markus Scholz
TECO/KIT
Vincenz-Priessnitz-Str.1
76137 Karlsruhe
0721-608-41713
Markus.Scholz@kit.edu / scholz@teco.edu
Smart Data Innovation Lab (SDIL)