SDIC'16 - Best Practices für Smart Data Projekte

98 Aufrufe

Veröffentlicht am

Best Practices für Smart Data Projekte;
Dr. Markus Scholz, Karlsruhe Institute of Technology, TECO;
1st Smart Data Innovation Conference (SDIC'16)

Veröffentlicht in: Daten & Analysen
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
98
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
0
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

SDIC'16 - Best Practices für Smart Data Projekte

  1. 1. KIT – University of the State of Baden-Wuerttemberg and National Research Center of the Helmholtz Association Smart Data Innovation Lab www.kit.edu SDI-X 13.10.2016 Best Practices für Smart Data Projekte Dr.-Ing. Markus Scholz, Data Scientist SDSC-BW/SDIL KIT, TECO, Prof. Beigl, Markus.Scholz@kit.edu
  2. 2. 2 SDI-X Motivation: Exponentiell wachsendes Datenvolumen soll zeitnah verarbeitet werden Ziel: Unterstützung datengetriebener Innovation in Forschung und Anwendung durch geeignete Best Practice-Prozesse Best Practice-Werkzeuge Best Practice-Betriebskonzepte Smart Data Innovation Lab (SDIL) Überblick (SDI-X)
  3. 3. 3 SDI-X Effizient durchführbar Erzeugt belastbare Ergebnisse Ist nachvollziehbar / wartbar Ist reproduzierbar Smart Data Innovation Lab (SDIL) Best Practice-Prozesse I: Anforderungen an SD Analyse Ähnliche Anforderungen wie an Softwareentwicklung Anfang der 90iger
  4. 4. 4 SDI-X Modelle für den Analyseprozess (z.B. CRISP-DM) Technische Handlungsempfehlungen auf Basis von Datencharakteristiken (z.B. Dimension vs. Datensätze) Technischen Fragestellungen (z.B. Anomaliedetektion) Tools für technische Aspekte der Analyse Integration Vorverarbeitung, Algorithmen, Online/Offline-Evaluation Dokumentation Versionierung Smart Data Innovation Lab (SDIL) Best Practice-Prozesse II: Werkzeuge für die Analyse
  5. 5. 5 SDI-XSmart Data Innovation Lab (SDIL) Beispiel Prozess: CRISP-DM Datenanalyseprozess Allgemeine Vorgehensweise ohne spezifische Handlungsempfehlung (z.B. Was bedeutet „Data Preparation“ für eine bestimmte Fragestellung?)
  6. 6. 6 SDI-XSmart Data Innovation Lab (SDIL) Beispiel techn. Best Practices: Azure Cheatsheet Domain-unabhängige, Datencharakteristik-bezogene techn. Empfehlungen
  7. 7. 7 SDI-X Business Understanding Data Understanding ... Evaluation Smart Data Innovation Lab (SDIL) Mehrschichtige Sicht auf die Smart Data Analyse Technische Empfehlungen Analyseprozessmodell (CRISP-DM) Analyse-Entwurfsmuster für spezifische Problemstellung/Domäne Software Tools, Analysewerkzeuge SAP HANA IBM Watson SAG Terracotta Python, R, etc. Cheatsheets Tutorials Courses
  8. 8. 8 SDI-X Business Understanding Data Understanding ... Evaluation Smart Data Innovation Lab (SDIL) Mehrschichtige Sicht auf die Smart Data Analyse SDI-X Technische Empfehlungen Analyseprozessmodell (CRISP-DM) Analyse-Entwurfsmuster gg. spezifische Problemstellung/Domäne Software Tools, Analysewerkzeuge SAP HANA IBM Watson SAG Terracotta Python, R, etc. Cheatsheets Tutorials Courses
  9. 9. 9 SDI-X Analyse durchgeführter und laufender Projekte durch Fragebögen an Datenanalysten Konsolidierung der Datenanalysebögen Extraktion und Kategorisierung der Analysen  Entwicklung Analyse-Entwurfsmuster in Code und Dokumentation Analyse-Entwurfsmuster: Mehrschichtige und verzweigte Abbildungen des Analyseprozesses enthalten z.T. auch technische Handlungsempfehlungen Smart Data Innovation Lab (SDIL) Ansatz von SDI-X I
  10. 10. 10 SDI-XSmart Data Innovation Lab (SDIL) Ansatz von SDI-X II
  11. 11. 11 SDI-X Identifikation wichtiger Einflüsse auf eine Zielvariable (Einflüsse) Anwendung Beeinflussende Merkmale identifizieren Z.B. Merkmale die bei einer Auftragsverzögerung relevant sind Extraktion von Regeln für die Zielgröße (Regeln) Anwendung Wie ist der Einfluss der Merkmale auf die Zielgröße (Verständnis) Vorhersage einer Zielgröße Z.B. Wie wahrscheinlich ist die Kündigung eines Abos Intrinsische Datenstruktur ableiten (Struktur) Anwendung Unbekannte Zusammenhänge entdecken Z.B. Identifikation von Kundengruppen Ableitung von Prozessen (Prozesse) Z.B. Wie exakt werden Prozesse im Unternehmen umgesetzt Smart Data Innovation Lab (SDIL) Kategorisierung typ. Zielstellungen
  12. 12. 12 SDI-X Best Practice-Process setzt sich zusammen aus nachvollziehbaren Einzelentscheidungen mit vordefinierten Berechnungschritten Smart Data Innovation Lab (SDIL) SDI-X Best-Practice Prozess – Work in Progress EinflüsseZielstellung Regeln Struktur Prozesse Anforderungen (aus Anwendung) Verarbeitungskette (Vorverarbeitung, Algorithmen, Evaluation + tech.Empfehlungen) … Hohe Genauigkeit Gute Interpretierbarkeit Onlineverfahren Methode 1 Methode 2 Methode 3 … Hohe Robustheit …
  13. 13. 13 SDI-X SDI-X: Best-Practices für Smart Data Prozesse, Tools, Betrieb Heutige Smart Data Analyse hat ähnliche Herausforderung wie frühe SW-Entwicklung Z.B. dadurch dass Werkzeuge sehr allgemein gehalten sind Potential in Zielstellung-bezogenen Best-Practices („Smart Data Analyse Entwurfsmuster“) Umsetzung von Anforderungen an die Smart Data Analyse Schnellerer Transfer von Analyse-Knowhow Neue USP für existierende Analysesoftware Data Scientist wird effizienter aber nicht ersetzt Smart Data Innovation Lab (SDIL) Zusammenfassung und Schlussfolgerung
  14. 14. 14 SDI-X DANKE FÜR IHRE AUFMERKSAMKEIT Dr.-Ing. Markus Scholz TECO/KIT Vincenz-Priessnitz-Str.1 76137 Karlsruhe 0721-608-41713 Markus.Scholz@kit.edu / scholz@teco.edu Smart Data Innovation Lab (SDIL)

×