Unsere Präsentation auf der MID Insight 2014 bei der wir ein agiles Vorgehen für Data Mining Projekte gezeigt haben welches Data Vault 2.0 Konzepte verwendet hat. Mit Live-Demo in RapidMiner.
3. VORSTELLUNG
Agiles Data Mining mit Data Vault 2.0
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 3
4. TIMO CIRKEL
BI-Consultant
Certified Data Vault 2.0 Practitioner
Analyse von Versicherungsnehmern
Spezialisiert auf CRM, Softwareentwicklung,
DWH Automatisierung
Branchen: Versicherungen, Versorger
B.Sc. Wirtschaftsinformatik
02.12.2014 Agiles Data Mining mit Data Vault 2.0 4
5. MICHAEL OLSCHIMKE
Senior BI-Consultant
Certified Data Vault 2.0 Practitioner
Offizieller Data Vault 2.0 Trainer in Europa
Lehrkraft Hochschule Hannover
Spezialisiert auf Data Vault 2.0, Data Mining,
CRM, Projektmanagement
Branchen: Versicherung, Automobil, Handel,
Öffentlicher Sektor, Non-Profits
02.12.2014 Agiles Data Mining mit Data Vault 2.0 5
6. • Mittelständisches
Beratungsunternehmen
• Offizieller Partner von Dan
Linstedt in Europa
• Beratung, Schulungen, Umsetzung
• Branchen:
• Versicherungen
• Automobil
• Banken
• Handel
• Pharma
• Telekommunikation
DÖRFFLER & PARTNER GMBH
02.12.2014 Agiles Data Mining mit Data Vault 2.0 6
7. HINTERGRUND
Agiles Data Mining mit Data Vault 2.0
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 7
8. DATA MINING PROJEKT BEI DER VGH
KFZ-Versicherung
Kundensegmentierung
Ein erster Data Mining Pilot, daher:
Keine konkreten Vorgaben
Zielvorstellung entwickelt sich
Agiles Projektvorgehen
Enge Zusammenarbeit mit Fachbereich
02.12.2014 Agiles Data Mining mit Data Vault 2.0 8
9. • Extrahieren von
Informationen und
Mustern aus
vorhandenen Daten
• Vier (große)
Kategorien:
• Segmentierung
• Klassifikation
• Vorhersage
• Assoziation
• Vielzahl an
Algorithmen und
Verfahren verfügbar
DATA MINING PROJEKTE
„Der Begriff Data Mining […]
beschreibt die Extraktion implizit
vorhandenen, nicht trivialen und
nützlichen Wissens aus großen,
dynamischen, relativ komplex
strukturierten Datenbeständen.“
Datenbank
Anwendung
Anwender
Data-Mining-
Techniken
Aussagen, Regeln &
Informationen
Data Dictionary
Fachwissen
02.12.2014 Agiles Data Mining mit Data Vault 2.0 9
10. DATA VAULT 2.0 MODELLIERUNG
Surrogate
Key
Business
Keys
Foreign Keys
Descriptors
Eigene Darstellung in Anlehnung an Linstedt, 2014
02.12.2014 Agiles Data Mining mit Data Vault 2.0 10
11. DATA VAULT 2.0 VORGEHENSWEISE
Data Vault
2.0
Vorgehens-weise
Six
Sigma
TQM
Scrum CMMI
PMP
SDLC
02.12.2014 Agiles Data Mining mit Data Vault 2.0 11
12. DATA VAULT 2.0 VORGEHENSWEISE FÜR DATA MINING
Vorteile
• Agile Projektplanung für DWH Projekte
• Automatisierung und Generierung
• Schnelle Anpassung von Modelländerungen
• Inkrementielles Erweitern des Modells =
inkrementielles Kostenmanagement
• Zielgerichtete Auslieferung = zweiwöchige Sprints
• Vorhersagbare und messbare Ergebnisse
Nachteile
• Fokus auf Laden von Rohdaten und Produzieren
der Informationen
• Wenig Ansatzpunkte für Data Mining
• Viele Konzepte nicht notwendig für Data Mining
Projekte
• Schwierige Skalierbarkeit von Data Mining
Projekten bezüglichTeamgröße
02.12.2014 Agiles Data Mining mit Data Vault 2.0 12
13. CRISP-DM
Eigene Darstellung in Anlehnung an Chapman, et. al., 2000
02.12.2014 Agiles Data Mining mit Data Vault 2.0 13
14. PROZESSMODELL
Prozessmodell – VGH Kundensegmentierung
ivv KTC D & P
Daten in Data Vault
Modell speichern
Daten abziehen
Algorithmus
auswählen
Segmentierung
ausführen
Ergebnis erzielt?
Ja
Ergebnis
präsentieren
Ergebnis ok?
Ende
Ja
Start
Gütefunktion
erarbeiten
SQL-Query erstellen
Relevante VN-Attribute
ermitteln
Nein Formel ok?
Ja
Nein
Algorithmen
erforschen
Nein
Geeigneter
Algorithmus
gefunden?
Ja
Nein
02.12.2014 Agiles Data Mining mit Data Vault 2.0 14
16. BEISPIEL
Agiles Data Mining mit Data Vault 2.0
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 16
17. BEISPIEL
AdventureWorks-Datenbank
Szenario:
Werbekampagne für ein neues Fahrrad
Identifikation der Zielgruppe
Lösungsmethode:
Entscheidungsbaumverfahren
Relevante Attribute in mehreren Iterationen
identifizieren
Lachev, 2005, S. 238ff
Einfaches
Beispiel
02.12.2014 Agiles Data Mining mit Data Vault 2.0 17
18. Agiles Data Mining mit Data Vault 2.0 18
10066 Datensätze
Attribute
Marital
Status
Gender
Yearly
Income
Total
Children
Education
Number Cars
Owned
Commute
Distance
Occupation
House Owner
Flag
Age
19. ITERATION 1: DATA VAULT 2.0 MODELL
English
Education
Numbers Cars
Owned
Gender
Marital Status
Sat
Customer
Hub
Customer
Customer Key
Commute
Distance
Age
House Owner
Flag
English
Occupation
Sat Category
Product
Category
02.12.2014 Agiles Data Mining mit Data Vault 2.0 19
20. ITERATION 1: RAPIDMINER PROZESS
Datenbeschaffung
Datenvorbereitung
Modellierung
02.12.2014 Agiles Data Mining mit Data Vault 2.0 20
23. ITERATION 2: DATA VAULT 2.0 MODELL
English
Education
Numbers Cars
Owned
Gender
Marital Status
Sat
Customer
Hub
Customer
Sat Customer
Income
Customer Key
Commute
Distance
Age
House Owner
Flag
English
Occupation
Sat Customer
Children
Sat Category
Total
Children
Yearly
Income
Product
Category
02.12.2014 Agiles Data Mining mit Data Vault 2.0 23
24. ITERATION 2: RAPIDMINER PROZESS
Datenbeschaffung
Aufbereitung Modellierung
02.12.2014 Agiles Data Mining mit Data Vault 2.0 24
26. ITERATION 3: DATA VAULT 2.0 MODELL
English
Education
Numbers Cars
Owned
Gender
Marital Status
Sat
Customer
Hub
Customer
Sat Customer
Income
Customer Key
Commute
Distance
Age
House Owner
Flag
English
Occupation
Sat Customer
Children
Sat Category
Total
Children
Yearly
Income
Product
Category
Commute
Distance Miles
CSat Customer
Distance
02.12.2014 Agiles Data Mining mit Data Vault 2.0 26
27. ITERATION 3: RAPIDMINER PROZESS
Datenbeschaffung
Aufbereitung Modellierung
02.12.2014 Agiles Data Mining mit Data Vault 2.0 27
29. FAZIT
Agiles Data Mining mit Data Vault 2.0
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 29
30. FAZIT
Data Vault ist ein flexibles Datenmodell, mit sehr guter
Unterstützung für agiles Projektvorgehen
Data Vault Modellierung stellt keine weitere Hürde dar
Weitere Attribute können jederzeit hinzugefügt werden
Nachvollziehbarkeit der Änderungen
Keine Änderungen an bestehenden Objekten nötig
Prozesse können iterativ erweitert und umgebaut
werden
Vorhandene Prozesse weiterhin lauffähig und können
jederzeit wiederholt werden
Business Vault: transparente Datenaufbereitung
02.12.2014 Agiles Data Mining mit Data Vault 2.0 30
31. WEITERFÜHRENDE INFORMATIONEN
Erscheint
2015
verfügbar
www.doerffler.com www.datavault.de www.learndatavault.com
Erscheint
2015
02.12.2014 Agiles Data Mining mit Data Vault 2.0 31
32. Give us Feedback
Agiles Data Mining mit Data Vault 2.0 32
http://goo.gl/lGO4ZE
Source: vasilijonline.com
02.12.2014
Hinweis der Redaktion
In dieser slides nur die logos austauschen. Zum ausprobieren neuer designs /diskutieren haben wir keine zeit
Kurz auf das DM Projekt bei der VGH eingehen.
Auf den BI Spektrum Artikel hinweisen
Ziele des Projekts
Verwendete Tools. CRISP-DM verwendet. Etc.
Ggf. Weitere slides aufmachen
Namen der Versicherung nennen?
Keine konkreten Vorgaben
Attribute entwickeln sich über Zeit
Begriff „Kunde“ zunächst nicht genau definiert
Nur Privatkunden oder auch Firmen?
Versicherungsnehmer oder Fahrzeughalter?
Welche Vertragsarten?
Wie werden „gute“ Kunden bestimmt?
Hubs, Links, Satelliten Kurz erklärt mit VDV. Schau in den Ordner Sources, dort kannst du dich bedienen.
Wir können keine Daten und Erkenntnisse der VGH präsentieren
Daher Ausweichen auf AdventureWorks
Setup aus Buch übernommen
Kurz auf adenture works dw eingehen
Background informationen
Modell der relevanten Tabellen
25 attribute, 500k datensätze
Auf das erste DV Modell eingehen.
Demo in rapidminer
Auch auf measures eingehen (accuracy, oder precision/recall).
Am besten grafisch in RM darstellen.