AGILES DATA MINING 
MIT DATA VAULT 2.0 
TimoCirkel, Michael Olschimke 
Dörffler & Partner GmbH
Vorstellung 
Hintergrund 
Beispiel 
Fazit 
AGENDA 
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 2
VORSTELLUNG 
Agiles Data Mining mit Data Vault 2.0 
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 3
TIMO CIRKEL 
BI-Consultant 
Certified Data Vault 2.0 Practitioner 
Analyse von Versicherungsnehmern 
Spezialisiert auf...
MICHAEL OLSCHIMKE 
Senior BI-Consultant 
Certified Data Vault 2.0 Practitioner 
Offizieller Data Vault 2.0 Trainer in E...
• Mittelständisches 
Beratungsunternehmen 
• Offizieller Partner von Dan 
Linstedt in Europa 
• Beratung, Schulungen, Umse...
HINTERGRUND 
Agiles Data Mining mit Data Vault 2.0 
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 7
DATA MINING PROJEKT BEI DER VGH 
KFZ-Versicherung 
Kundensegmentierung 
Ein erster Data Mining Pilot, daher: 
Keine ko...
• Extrahieren von 
Informationen und 
Mustern aus 
vorhandenen Daten 
• Vier (große) 
Kategorien: 
• Segmentierung 
• Klas...
DATA VAULT 2.0 MODELLIERUNG 
Surrogate 
Key 
Business 
Keys 
Foreign Keys 
Descriptors 
Eigene Darstellung in Anlehnung an...
DATA VAULT 2.0 VORGEHENSWEISE 
Data Vault 
2.0 
Vorgehens-weise 
Six 
Sigma 
TQM 
Scrum CMMI 
PMP 
SDLC 
02.12.2014 Agiles...
DATA VAULT 2.0 VORGEHENSWEISE FÜR DATA MINING 
Vorteile 
• Agile Projektplanung für DWH Projekte 
• Automatisierung und Ge...
CRISP-DM 
Eigene Darstellung in Anlehnung an Chapman, et. al., 2000 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 13
PROZESSMODELL 
Prozessmodell – VGH Kundensegmentierung 
ivv KTC D & P 
Daten in Data Vault 
Modell speichern 
Daten abzieh...
RAPIDMINER 
 Java-basierte 
Data-Mining- 
Software 
 Eines der 
meistgenutzten 
Data-Mining- 
Werkzeuge 
 Bietet 
 Umg...
BEISPIEL 
Agiles Data Mining mit Data Vault 2.0 
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 16
BEISPIEL 
 AdventureWorks-Datenbank 
 Szenario: 
Werbekampagne für ein neues Fahrrad 
 Identifikation der Zielgruppe 
...
Agiles Data Mining mit Data Vault 2.0 18 
10066 Datensätze 
Attribute 
Marital 
Status 
Gender 
Yearly 
Income 
Total 
Chi...
ITERATION 1: DATA VAULT 2.0 MODELL 
English 
Education 
Numbers Cars 
Owned 
Gender 
Marital Status 
Sat 
Customer 
Hub 
C...
ITERATION 1: RAPIDMINER PROZESS 
Datenbeschaffung 
Datenvorbereitung 
Modellierung 
02.12.2014 Agiles Data Mining mit Data...
ITERATION 1: DECISIONTREE MODELL 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 21
ITERATION 1: ERGEBNISSE 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 22
ITERATION 2: DATA VAULT 2.0 MODELL 
English 
Education 
Numbers Cars 
Owned 
Gender 
Marital Status 
Sat 
Customer 
Hub 
C...
ITERATION 2: RAPIDMINER PROZESS 
Datenbeschaffung 
Aufbereitung Modellierung 
02.12.2014 Agiles Data Mining mit Data Vault...
ITERATION 2: ERGEBNISSE 
+4.01% 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 25
ITERATION 3: DATA VAULT 2.0 MODELL 
English 
Education 
Numbers Cars 
Owned 
Gender 
Marital Status 
Sat 
Customer 
Hub 
C...
ITERATION 3: RAPIDMINER PROZESS 
Datenbeschaffung 
Aufbereitung Modellierung 
02.12.2014 Agiles Data Mining mit Data Vault...
ITERATION 3: ERGEBNISSE 
+0.12% 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 28
FAZIT 
Agiles Data Mining mit Data Vault 2.0 
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 29
FAZIT 
 Data Vault ist ein flexibles Datenmodell, mit sehr guter 
Unterstützung für agiles Projektvorgehen 
 Data Vault ...
WEITERFÜHRENDE INFORMATIONEN 
Erscheint 
2015 
verfügbar 
www.doerffler.com www.datavault.de www.learndatavault.com 
Ersch...
Give us Feedback 
Agiles Data Mining mit Data Vault 2.0 32 
http://goo.gl/lGO4ZE 
Source: vasilijonline.com 
02.12.2014
Nächste SlideShare
Wird geladen in …5
×

Agiles Data Mining mit Data Vault 2.0

1.205 Aufrufe

Veröffentlicht am

Unsere Präsentation auf der MID Insight 2014 bei der wir ein agiles Vorgehen für Data Mining Projekte gezeigt haben welches Data Vault 2.0 Konzepte verwendet hat. Mit Live-Demo in RapidMiner.

Veröffentlicht in: Daten & Analysen
0 Kommentare
2 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.205
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
36
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
2
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • In dieser slides nur die logos austauschen. Zum ausprobieren neuer designs /diskutieren haben wir keine zeit
  • Kurz auf das DM Projekt bei der VGH eingehen.
    Auf den BI Spektrum Artikel hinweisen
    Ziele des Projekts
    Verwendete Tools. CRISP-DM verwendet. Etc.
    Ggf. Weitere slides aufmachen

    Namen der Versicherung nennen?
    Keine konkreten Vorgaben
    Attribute entwickeln sich über Zeit
    Begriff „Kunde“ zunächst nicht genau definiert
    Nur Privatkunden oder auch Firmen?
    Versicherungsnehmer oder Fahrzeughalter?
    Welche Vertragsarten?
    Wie werden „gute“ Kunden bestimmt?
  • Hubs, Links, Satelliten Kurz erklärt mit VDV. Schau in den Ordner Sources, dort kannst du dich bedienen.
  • Wir können keine Daten und Erkenntnisse der VGH präsentieren
    Daher Ausweichen auf AdventureWorks
    Setup aus Buch übernommen
  • Kurz auf adenture works dw eingehen
    Background informationen
    Modell der relevanten Tabellen
    25 attribute, 500k datensätze
  • Auf das erste DV Modell eingehen.
  • Demo in rapidminer
    Auch auf measures eingehen (accuracy, oder precision/recall).
    Am besten grafisch in RM darstellen.
  • Scatter matrix
    Confusion matrix (performance matrix)
  • Auf die änderungen am DV modell eingehen. Zeigen wie das dann aussieht.
    Änderungen nachvollziehbar machen (über animationen)
  • Demo in rapidminer
    Auch auf measures eingehen (accuracy, oder precision/recall).
    Am besten grafisch in RM darstellen.
  • Auf die änderungen am DV modell eingehen. Zeigen wie das dann aussieht.
    Änderungen nachvollziehbar machen (über animationen)
  • Demo in rapidminer
    Auch auf measures eingehen (accuracy, oder precision/recall).
    Am besten grafisch in RM darstellen.
  • Was sind die vorteile vom ansatz?
    Bezug auf das VGH projekt nehmen, aber auch auf die demo
  • TBC: link überarbeiten (mache ich)
  • Agiles Data Mining mit Data Vault 2.0

    1. 1. AGILES DATA MINING MIT DATA VAULT 2.0 TimoCirkel, Michael Olschimke Dörffler & Partner GmbH
    2. 2. Vorstellung Hintergrund Beispiel Fazit AGENDA Agiles 02.12.2014 Data Mining mit Data Vault 2.0 2
    3. 3. VORSTELLUNG Agiles Data Mining mit Data Vault 2.0 Agiles 02.12.2014 Data Mining mit Data Vault 2.0 3
    4. 4. TIMO CIRKEL BI-Consultant Certified Data Vault 2.0 Practitioner Analyse von Versicherungsnehmern Spezialisiert auf CRM, Softwareentwicklung, DWH Automatisierung Branchen: Versicherungen, Versorger B.Sc. Wirtschaftsinformatik 02.12.2014 Agiles Data Mining mit Data Vault 2.0 4
    5. 5. MICHAEL OLSCHIMKE Senior BI-Consultant Certified Data Vault 2.0 Practitioner Offizieller Data Vault 2.0 Trainer in Europa Lehrkraft Hochschule Hannover Spezialisiert auf Data Vault 2.0, Data Mining, CRM, Projektmanagement Branchen: Versicherung, Automobil, Handel, Öffentlicher Sektor, Non-Profits 02.12.2014 Agiles Data Mining mit Data Vault 2.0 5
    6. 6. • Mittelständisches Beratungsunternehmen • Offizieller Partner von Dan Linstedt in Europa • Beratung, Schulungen, Umsetzung • Branchen: • Versicherungen • Automobil • Banken • Handel • Pharma • Telekommunikation DÖRFFLER & PARTNER GMBH 02.12.2014 Agiles Data Mining mit Data Vault 2.0 6
    7. 7. HINTERGRUND Agiles Data Mining mit Data Vault 2.0 Agiles 02.12.2014 Data Mining mit Data Vault 2.0 7
    8. 8. DATA MINING PROJEKT BEI DER VGH KFZ-Versicherung Kundensegmentierung Ein erster Data Mining Pilot, daher: Keine konkreten Vorgaben Zielvorstellung entwickelt sich Agiles Projektvorgehen Enge Zusammenarbeit mit Fachbereich 02.12.2014 Agiles Data Mining mit Data Vault 2.0 8
    9. 9. • Extrahieren von Informationen und Mustern aus vorhandenen Daten • Vier (große) Kategorien: • Segmentierung • Klassifikation • Vorhersage • Assoziation • Vielzahl an Algorithmen und Verfahren verfügbar DATA MINING PROJEKTE „Der Begriff Data Mining […] beschreibt die Extraktion implizit vorhandenen, nicht trivialen und nützlichen Wissens aus großen, dynamischen, relativ komplex strukturierten Datenbeständen.“ Datenbank Anwendung Anwender Data-Mining- Techniken Aussagen, Regeln & Informationen Data Dictionary Fachwissen 02.12.2014 Agiles Data Mining mit Data Vault 2.0 9
    10. 10. DATA VAULT 2.0 MODELLIERUNG Surrogate Key Business Keys Foreign Keys Descriptors Eigene Darstellung in Anlehnung an Linstedt, 2014 02.12.2014 Agiles Data Mining mit Data Vault 2.0 10
    11. 11. DATA VAULT 2.0 VORGEHENSWEISE Data Vault 2.0 Vorgehens-weise Six Sigma TQM Scrum CMMI PMP SDLC 02.12.2014 Agiles Data Mining mit Data Vault 2.0 11
    12. 12. DATA VAULT 2.0 VORGEHENSWEISE FÜR DATA MINING Vorteile • Agile Projektplanung für DWH Projekte • Automatisierung und Generierung • Schnelle Anpassung von Modelländerungen • Inkrementielles Erweitern des Modells = inkrementielles Kostenmanagement • Zielgerichtete Auslieferung = zweiwöchige Sprints • Vorhersagbare und messbare Ergebnisse Nachteile • Fokus auf Laden von Rohdaten und Produzieren der Informationen • Wenig Ansatzpunkte für Data Mining • Viele Konzepte nicht notwendig für Data Mining Projekte • Schwierige Skalierbarkeit von Data Mining Projekten bezüglichTeamgröße 02.12.2014 Agiles Data Mining mit Data Vault 2.0 12
    13. 13. CRISP-DM Eigene Darstellung in Anlehnung an Chapman, et. al., 2000 02.12.2014 Agiles Data Mining mit Data Vault 2.0 13
    14. 14. PROZESSMODELL Prozessmodell – VGH Kundensegmentierung ivv KTC D & P Daten in Data Vault Modell speichern Daten abziehen Algorithmus auswählen Segmentierung ausführen Ergebnis erzielt? Ja Ergebnis präsentieren Ergebnis ok? Ende Ja Start Gütefunktion erarbeiten SQL-Query erstellen Relevante VN-Attribute ermitteln Nein Formel ok? Ja Nein Algorithmen erforschen Nein Geeigneter Algorithmus gefunden? Ja Nein 02.12.2014 Agiles Data Mining mit Data Vault 2.0 14
    15. 15. RAPIDMINER  Java-basierte Data-Mining- Software  Eines der meistgenutzten Data-Mining- Werkzeuge  Bietet  Umgebung für Ablaufsteuerung  Große Anzahl Algorithmen  Große Auswahl von Datenquellen Overall Corporate Consultants Academics NGO / Gov’t © 2012 Rexer Analytics 02.12.2014 Agiles Data Mining mit Data Vault 2.0 15
    16. 16. BEISPIEL Agiles Data Mining mit Data Vault 2.0 Agiles 02.12.2014 Data Mining mit Data Vault 2.0 16
    17. 17. BEISPIEL  AdventureWorks-Datenbank  Szenario: Werbekampagne für ein neues Fahrrad  Identifikation der Zielgruppe  Lösungsmethode:  Entscheidungsbaumverfahren Relevante Attribute in mehreren Iterationen identifizieren Lachev, 2005, S. 238ff Einfaches Beispiel 02.12.2014 Agiles Data Mining mit Data Vault 2.0 17
    18. 18. Agiles Data Mining mit Data Vault 2.0 18 10066 Datensätze Attribute Marital Status Gender Yearly Income Total Children Education Number Cars Owned Commute Distance Occupation House Owner Flag Age
    19. 19. ITERATION 1: DATA VAULT 2.0 MODELL English Education Numbers Cars Owned Gender Marital Status Sat Customer Hub Customer Customer Key Commute Distance Age House Owner Flag English Occupation Sat Category Product Category 02.12.2014 Agiles Data Mining mit Data Vault 2.0 19
    20. 20. ITERATION 1: RAPIDMINER PROZESS Datenbeschaffung Datenvorbereitung Modellierung 02.12.2014 Agiles Data Mining mit Data Vault 2.0 20
    21. 21. ITERATION 1: DECISIONTREE MODELL 02.12.2014 Agiles Data Mining mit Data Vault 2.0 21
    22. 22. ITERATION 1: ERGEBNISSE 02.12.2014 Agiles Data Mining mit Data Vault 2.0 22
    23. 23. ITERATION 2: DATA VAULT 2.0 MODELL English Education Numbers Cars Owned Gender Marital Status Sat Customer Hub Customer Sat Customer Income Customer Key Commute Distance Age House Owner Flag English Occupation Sat Customer Children Sat Category Total Children Yearly Income Product Category 02.12.2014 Agiles Data Mining mit Data Vault 2.0 23
    24. 24. ITERATION 2: RAPIDMINER PROZESS Datenbeschaffung Aufbereitung Modellierung 02.12.2014 Agiles Data Mining mit Data Vault 2.0 24
    25. 25. ITERATION 2: ERGEBNISSE +4.01% 02.12.2014 Agiles Data Mining mit Data Vault 2.0 25
    26. 26. ITERATION 3: DATA VAULT 2.0 MODELL English Education Numbers Cars Owned Gender Marital Status Sat Customer Hub Customer Sat Customer Income Customer Key Commute Distance Age House Owner Flag English Occupation Sat Customer Children Sat Category Total Children Yearly Income Product Category Commute Distance Miles CSat Customer Distance 02.12.2014 Agiles Data Mining mit Data Vault 2.0 26
    27. 27. ITERATION 3: RAPIDMINER PROZESS Datenbeschaffung Aufbereitung Modellierung 02.12.2014 Agiles Data Mining mit Data Vault 2.0 27
    28. 28. ITERATION 3: ERGEBNISSE +0.12% 02.12.2014 Agiles Data Mining mit Data Vault 2.0 28
    29. 29. FAZIT Agiles Data Mining mit Data Vault 2.0 Agiles 02.12.2014 Data Mining mit Data Vault 2.0 29
    30. 30. FAZIT  Data Vault ist ein flexibles Datenmodell, mit sehr guter Unterstützung für agiles Projektvorgehen  Data Vault Modellierung stellt keine weitere Hürde dar Weitere Attribute können jederzeit hinzugefügt werden  Nachvollziehbarkeit der Änderungen  Keine Änderungen an bestehenden Objekten nötig  Prozesse können iterativ erweitert und umgebaut werden  Vorhandene Prozesse weiterhin lauffähig und können jederzeit wiederholt werden  Business Vault: transparente Datenaufbereitung 02.12.2014 Agiles Data Mining mit Data Vault 2.0 30
    31. 31. WEITERFÜHRENDE INFORMATIONEN Erscheint 2015 verfügbar www.doerffler.com www.datavault.de www.learndatavault.com Erscheint 2015 02.12.2014 Agiles Data Mining mit Data Vault 2.0 31
    32. 32. Give us Feedback Agiles Data Mining mit Data Vault 2.0 32 http://goo.gl/lGO4ZE Source: vasilijonline.com 02.12.2014

    ×