DataVault 2.0 – DAD – SDLC – OSS
DDVUG 2014, Torsten Glunde
Juni 2014
Vorstellung Torsten Glunde
• Eigentümer, Managing Consultant bei
Alligator Company (6 Mitarbeiter)
• 10+ Jahre Erfahrung in BI
• Certified Data Vault 2.0 Practitioner
• Member of the Boulder BI Brain Trust
• Open Source Liebhaber
2
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
Agenda
• Einleitung
• Wofür benötigen wir Werkzeuge zur Automation um
Agile zu werden?
• DV2.0 Solutions und OSS Tools
• Requirements
• Continuous Integration
• Automation
• Zusammenfassung
3
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
Einleitung – Was liefert DV 2.0
4
Methodik
Implementation
Architektur
Model
•Konsistent
•Wiederholbar
•Muster
•Automation
•Skalierbarkeit
•Fault-Tolerance
•Managed Self-Service-BI
•De-Coupling
•NoSQL Unterstützung
•Scale-free Architecture
•Basiert auf Hub & Spoke
•Set-Logik + MPP
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
Einleitung – Was liefert DV 2.0
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
5
Die Methodik
• Requirements
• Disciplined Agile Delivery als Vorgehensmodell
• PPM, Six Sigma, TQM, CMMI, KPA und KPI
• Technical Numbering, Function Point & Risk
Management
Die Implementierung
• Generation und Automation
• Einfache Muster für ETL
• Optimiert für Ladeperformanz (MD5 hashes)
• Datenvirtualisierung
Einleitung – Was ist DAD?
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
6
Disciplined Agile Delivery
• SCRUM +
• Verwertbare Ergebnisse anstatt „nur“ potentiell auslieferbar
• Erweiterung des SCRUM Lifecycles um die Auslieferung von
Releases
• Verallgemeinerung der Methoden – auch bezüglich des
Vokabulars
• Beinhaltet explizite Strategien zur Governance
• Flexible Prozesse – „Process Goal Diagram“ – Anpassungen
und Skalierung
 Unternehmensweite Methoden benötigen mehr Flexibilität und
Robustheit
Scott Ambler, Disciplined Agile Consortium
http://DisciplinedAgileConsortium.org
http://DiscipinedAgileDelivery.com
Inception Construction Transition
Wofür SDLC? Wozu DAD?
Warum OSS?
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
7
OSS
• Lizenzkosten für BI-Tools sind hoch (oftmals auch gerade für
notwendige Features für Agilität)
• Lizenzkosten sind eine Einstiegsbarriere – gerade für KMUs
• Offene Systeme
• Keine Abhängigkeit vom Support
DataVault 2.0 Methodik von Dan Linstedt liefert
• Agile Vorgehensweise
• Automatisches, generiertes ETL processing, Wiederholbarkeit
• Schnelle Anpassbarkeit bei Modelländerungen
• Inkrementell  Kostenkontrolle
• 2 Wochen Iterationen
• Vorhersagbare und messbare Ergebnisse
Wofür SDLC? Wozu DAD?
Warum OSS?
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
8
SDLC
• Methoden und Tools aus der Softwareentwicklung sind
verfügbar und erprobt
• Continuous Integration, Unit Testing, Acceptance Testing
• Diese Werkzeuge ermöglichen
• EDWH und BI delivery liefert auch „nur“ Software
Backend 80% Frontend 20%
Frontend 50%Backend 50%Ziel:
IST:
Disclaimer
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
9
• DataVault != Agile
• Werkzeuge != Agile
• OSS != Agile
• Prozesse != Agile
 Das einzige, was zählt sind die
Menschen
 Werkzeuge, DataVault, DAD und
OSS können dazu beitragen
Warum ist AgileBI schwierig?
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
10
Sind zwei Wochen zu kurz?
Continuous Integration birgt Herausforderungen im EDWH
• Test Automation – Datenmengen und Veränderung
• Build Automation – klassische BI Tools liefern keine Versionierung  Versionierung der
Exportartefakte
• Release Automation – klassische BI Tools liefern teileweise keine oder teure Automation für das
Deployment
Anforderungsaufnahme
• Unbekannte Datenanforderungen
• Business Keys unbekannt / ändern sich
• Unternehmen kennt die eigenen Dateninhalte nicht
• Scoping
Akzeptanz
• SLAs definieren wer ist wofür verantwortlich
• Dokumentation – was wird geliefert?
 Datenprobleme können nur über EIM gelöst werden!
 Akzeptanz kann durch Transparenz im agilen Prozess erhöht werden
 Automation für SDLC und Test kann mit OSS Technologie und Vorarbeit verbessert werden
Inception Construction Transition
Ready?
Deploy?
Test?
Release?
AgileBI mit DV2.0 - DWA
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
11
Raw
Vault
Business
Vault
Generator
Metadata
Data Model, Parameter, Templates
Virtualization
Star Schema View
Persisted
Star Schema, Cube, …
ETL / ELT
B(x)
Stage FrontendQuelle
V
i
e
w
Verwendung von
• DWA - Data Warehouse Automatisierung und
• Data Virtualisierung (Views)
 Reduktion von ETL Aufwänden durch z.B. BIDSHelper und BIML
 Prototyping und Exploration erhöht Geschwindigkeit und Transparenz
AgileBI mit DV2.0 Testing
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
12
Raw
Vault
Business
Vault
Generator
Metadata
Virtualization
Star Schema View
Persisted
Star Schema, Cube, …
ETL / ELT
B(x)
Stage FrontendQuelle
Testrepository
Quelldaten
Testdaten
Testcases
ACIT
Quell-Target-Abgleich
ACIT – Automated, Continuous
Integration Testing
V
i
e
w
Prototyping, Exploration
User Acceptance
Datenabgleich
AgileBI mit DV2.0 OSS Tools
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
13
Raw
Vault
Business
Vault
Generator
Metadata
Virtualization
Star Schema View
Persisted
Star Schema, Cube, …
ETL / ELT
B(x)
Stage FrontendQuelle
Testrepository
Quelldaten
Testdaten
Testcases
ACIT
Quell-Target-Abgleich
ACIT – Automated, Continuous
Integration Testing
V
i
e
w
Prototyping, Exploration
User Acceptance
Datenabgleich
DBUnit
Flyway
Jailer
Selenium
DBUnit
Flyway
Jailer
Jenkins
Nächtl. Build
und Test
BIDSHelper
BIML
(MSSQL)
OSS Werkzeuge für AgileBI
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
14
DWA – Data Warehouse Automation
• BIDSHelper, BIMLScript  https://bidshelper.codeplex.com/
Testautomation
• Jailer (DBUnit, Liquibase)  http://jailer.sourceforge.net/
• DBUnit  http://www.dbunit.org/
• Flyway  http://flywaydb.org/
• Selenium  http://docs.seleniumhq.org/
Continuous Integration / Build Automation
• Jenkins  http://jenkins-ci.org/
Release
• Subversion  https://subversion.apache.org/
• GIT  http://git-scm.com/download
Modeling
• SQL Power Architect  http://www.sqlpower.ca/page/architect
Transparenz und Akzeptanz
• DataCleaner  http://datacleaner.org/
• Wiki  z.B. https://www.mediawiki.org/wiki/MediaWiki
Delivery
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
15
Inception
Iteration
1. Scoping Iteration
2. Modellierung / Anpassen der Metadaten
3. Generierung der DDL-Skripte
4. Generierung der ETL Prozesse in Stage und
RawVault
5. Business Vault Implementations
6. Frontend Implementation
7. Testing
Transition
Erfahrungen mit AgileBI
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
16
Erfahrung AgileBI
• Grundvoraussetzung ist die Readyness der Organisation
• Offenheit im Umgang mit fehlerhaften Daten
• Sichtbarkeit von Daten wird erhöht  Gewünscht
• Erwartungshaltung managen  Milestones
• Was wird wann geliefert ohne konkreten, langwierigen Projektplan
• Wieviel kann in zwei Wochen geliefert werden?
• Wieviel Dokumentation wird geliefert?
• Bevor man agil liefern kann (Iteration-0)
- Performance Baseline Tests für die Infrastruktur
- Sourcecontrol, Test Automation, Build Automation, Deployment Automation
müssen fertig sein
- Datengetrieben bedeutet dass Inhalte klar definiert/modelliert sein müssen 
klare Vorgaben wie Anforderungen definiert werden  Workshops
Future
• DWH Automation mit Data Vault ermöglicht auch in komplexeren und schneller
verändebaren Umfeldern und mit hohen Datenmengen AgileBI erfolgreich zu
etablieren
• Metadaten für Automatisierung und Informationen sollten zusammengefasst werden
(CWM, BIML)  Automatisierung der Automatisierung
Zusammenfassung
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
17
Automation der SDLC Prozesse (Test, Lieferung, Release)
• Wiederholbarkeit
• Geschwindigkeit
• Flexibilität durch Verwendung von Metadaten
Planung und Anforderungen
• Scoping ist wichtig – wie schneide ich meine Anforderungen, so dass sie in 2
Wochen passen
• Virtualisierung von Rohdaten
• Virtualisierung zur Reduktion von Beladungen im Anfang
Automation im Data Vault
• reduziert Aufwände vor dem DataVault
• Iteratives Prototyping wird vereinfacht
 SDLC als standardisierte Produktauslieferung mit Automatisierung und
kurzen Entwicklungszyklen
 DV2.0 und quelloffene Werkzeuge befördern diese Entwicklung
 Technische Lösung ist noch mit Aufwand verbunden, der aber geringer wird
je mehr auf Metadaten gesetzt wird
Vielen Dank für Ihre Aufmerksamkeit!
Fragen?
18
@tglunde
Torsten Glunde
mailto:t.glunde(at)alligator-company.de
Weitere Netzwerke:
https://www.xing.com/profile/Torsten_Glunde
https://www.linkedin.com/pub/torsten-glunde/8/aba/97
Torsten Glunde, Alligator Company
DDVUG, Juni 2014

Dv 20 sdlc_oss_automation

  • 1.
    DataVault 2.0 –DAD – SDLC – OSS DDVUG 2014, Torsten Glunde Juni 2014
  • 2.
    Vorstellung Torsten Glunde •Eigentümer, Managing Consultant bei Alligator Company (6 Mitarbeiter) • 10+ Jahre Erfahrung in BI • Certified Data Vault 2.0 Practitioner • Member of the Boulder BI Brain Trust • Open Source Liebhaber 2 Torsten Glunde, Alligator Company DDVUG, Juni 2014
  • 3.
    Agenda • Einleitung • Wofürbenötigen wir Werkzeuge zur Automation um Agile zu werden? • DV2.0 Solutions und OSS Tools • Requirements • Continuous Integration • Automation • Zusammenfassung 3 Torsten Glunde, Alligator Company DDVUG, Juni 2014
  • 4.
    Einleitung – Wasliefert DV 2.0 4 Methodik Implementation Architektur Model •Konsistent •Wiederholbar •Muster •Automation •Skalierbarkeit •Fault-Tolerance •Managed Self-Service-BI •De-Coupling •NoSQL Unterstützung •Scale-free Architecture •Basiert auf Hub & Spoke •Set-Logik + MPP Torsten Glunde, Alligator Company DDVUG, Juni 2014
  • 5.
    Einleitung – Wasliefert DV 2.0 Torsten Glunde, Alligator Company DDVUG, Juni 2014 5 Die Methodik • Requirements • Disciplined Agile Delivery als Vorgehensmodell • PPM, Six Sigma, TQM, CMMI, KPA und KPI • Technical Numbering, Function Point & Risk Management Die Implementierung • Generation und Automation • Einfache Muster für ETL • Optimiert für Ladeperformanz (MD5 hashes) • Datenvirtualisierung
  • 6.
    Einleitung – Wasist DAD? Torsten Glunde, Alligator Company DDVUG, Juni 2014 6 Disciplined Agile Delivery • SCRUM + • Verwertbare Ergebnisse anstatt „nur“ potentiell auslieferbar • Erweiterung des SCRUM Lifecycles um die Auslieferung von Releases • Verallgemeinerung der Methoden – auch bezüglich des Vokabulars • Beinhaltet explizite Strategien zur Governance • Flexible Prozesse – „Process Goal Diagram“ – Anpassungen und Skalierung  Unternehmensweite Methoden benötigen mehr Flexibilität und Robustheit Scott Ambler, Disciplined Agile Consortium http://DisciplinedAgileConsortium.org http://DiscipinedAgileDelivery.com Inception Construction Transition
  • 7.
    Wofür SDLC? WozuDAD? Warum OSS? Torsten Glunde, Alligator Company DDVUG, Juni 2014 7 OSS • Lizenzkosten für BI-Tools sind hoch (oftmals auch gerade für notwendige Features für Agilität) • Lizenzkosten sind eine Einstiegsbarriere – gerade für KMUs • Offene Systeme • Keine Abhängigkeit vom Support DataVault 2.0 Methodik von Dan Linstedt liefert • Agile Vorgehensweise • Automatisches, generiertes ETL processing, Wiederholbarkeit • Schnelle Anpassbarkeit bei Modelländerungen • Inkrementell  Kostenkontrolle • 2 Wochen Iterationen • Vorhersagbare und messbare Ergebnisse
  • 8.
    Wofür SDLC? WozuDAD? Warum OSS? Torsten Glunde, Alligator Company DDVUG, Juni 2014 8 SDLC • Methoden und Tools aus der Softwareentwicklung sind verfügbar und erprobt • Continuous Integration, Unit Testing, Acceptance Testing • Diese Werkzeuge ermöglichen • EDWH und BI delivery liefert auch „nur“ Software Backend 80% Frontend 20% Frontend 50%Backend 50%Ziel: IST:
  • 9.
    Disclaimer Torsten Glunde, AlligatorCompany DDVUG, Juni 2014 9 • DataVault != Agile • Werkzeuge != Agile • OSS != Agile • Prozesse != Agile  Das einzige, was zählt sind die Menschen  Werkzeuge, DataVault, DAD und OSS können dazu beitragen
  • 10.
    Warum ist AgileBIschwierig? Torsten Glunde, Alligator Company DDVUG, Juni 2014 10 Sind zwei Wochen zu kurz? Continuous Integration birgt Herausforderungen im EDWH • Test Automation – Datenmengen und Veränderung • Build Automation – klassische BI Tools liefern keine Versionierung  Versionierung der Exportartefakte • Release Automation – klassische BI Tools liefern teileweise keine oder teure Automation für das Deployment Anforderungsaufnahme • Unbekannte Datenanforderungen • Business Keys unbekannt / ändern sich • Unternehmen kennt die eigenen Dateninhalte nicht • Scoping Akzeptanz • SLAs definieren wer ist wofür verantwortlich • Dokumentation – was wird geliefert?  Datenprobleme können nur über EIM gelöst werden!  Akzeptanz kann durch Transparenz im agilen Prozess erhöht werden  Automation für SDLC und Test kann mit OSS Technologie und Vorarbeit verbessert werden Inception Construction Transition Ready? Deploy? Test? Release?
  • 11.
    AgileBI mit DV2.0- DWA Torsten Glunde, Alligator Company DDVUG, Juni 2014 11 Raw Vault Business Vault Generator Metadata Data Model, Parameter, Templates Virtualization Star Schema View Persisted Star Schema, Cube, … ETL / ELT B(x) Stage FrontendQuelle V i e w Verwendung von • DWA - Data Warehouse Automatisierung und • Data Virtualisierung (Views)  Reduktion von ETL Aufwänden durch z.B. BIDSHelper und BIML  Prototyping und Exploration erhöht Geschwindigkeit und Transparenz
  • 12.
    AgileBI mit DV2.0Testing Torsten Glunde, Alligator Company DDVUG, Juni 2014 12 Raw Vault Business Vault Generator Metadata Virtualization Star Schema View Persisted Star Schema, Cube, … ETL / ELT B(x) Stage FrontendQuelle Testrepository Quelldaten Testdaten Testcases ACIT Quell-Target-Abgleich ACIT – Automated, Continuous Integration Testing V i e w Prototyping, Exploration User Acceptance Datenabgleich
  • 13.
    AgileBI mit DV2.0OSS Tools Torsten Glunde, Alligator Company DDVUG, Juni 2014 13 Raw Vault Business Vault Generator Metadata Virtualization Star Schema View Persisted Star Schema, Cube, … ETL / ELT B(x) Stage FrontendQuelle Testrepository Quelldaten Testdaten Testcases ACIT Quell-Target-Abgleich ACIT – Automated, Continuous Integration Testing V i e w Prototyping, Exploration User Acceptance Datenabgleich DBUnit Flyway Jailer Selenium DBUnit Flyway Jailer Jenkins Nächtl. Build und Test BIDSHelper BIML (MSSQL)
  • 14.
    OSS Werkzeuge fürAgileBI Torsten Glunde, Alligator Company DDVUG, Juni 2014 14 DWA – Data Warehouse Automation • BIDSHelper, BIMLScript  https://bidshelper.codeplex.com/ Testautomation • Jailer (DBUnit, Liquibase)  http://jailer.sourceforge.net/ • DBUnit  http://www.dbunit.org/ • Flyway  http://flywaydb.org/ • Selenium  http://docs.seleniumhq.org/ Continuous Integration / Build Automation • Jenkins  http://jenkins-ci.org/ Release • Subversion  https://subversion.apache.org/ • GIT  http://git-scm.com/download Modeling • SQL Power Architect  http://www.sqlpower.ca/page/architect Transparenz und Akzeptanz • DataCleaner  http://datacleaner.org/ • Wiki  z.B. https://www.mediawiki.org/wiki/MediaWiki
  • 15.
    Delivery Torsten Glunde, AlligatorCompany DDVUG, Juni 2014 15 Inception Iteration 1. Scoping Iteration 2. Modellierung / Anpassen der Metadaten 3. Generierung der DDL-Skripte 4. Generierung der ETL Prozesse in Stage und RawVault 5. Business Vault Implementations 6. Frontend Implementation 7. Testing Transition
  • 16.
    Erfahrungen mit AgileBI TorstenGlunde, Alligator Company DDVUG, Juni 2014 16 Erfahrung AgileBI • Grundvoraussetzung ist die Readyness der Organisation • Offenheit im Umgang mit fehlerhaften Daten • Sichtbarkeit von Daten wird erhöht  Gewünscht • Erwartungshaltung managen  Milestones • Was wird wann geliefert ohne konkreten, langwierigen Projektplan • Wieviel kann in zwei Wochen geliefert werden? • Wieviel Dokumentation wird geliefert? • Bevor man agil liefern kann (Iteration-0) - Performance Baseline Tests für die Infrastruktur - Sourcecontrol, Test Automation, Build Automation, Deployment Automation müssen fertig sein - Datengetrieben bedeutet dass Inhalte klar definiert/modelliert sein müssen  klare Vorgaben wie Anforderungen definiert werden  Workshops Future • DWH Automation mit Data Vault ermöglicht auch in komplexeren und schneller verändebaren Umfeldern und mit hohen Datenmengen AgileBI erfolgreich zu etablieren • Metadaten für Automatisierung und Informationen sollten zusammengefasst werden (CWM, BIML)  Automatisierung der Automatisierung
  • 17.
    Zusammenfassung Torsten Glunde, AlligatorCompany DDVUG, Juni 2014 17 Automation der SDLC Prozesse (Test, Lieferung, Release) • Wiederholbarkeit • Geschwindigkeit • Flexibilität durch Verwendung von Metadaten Planung und Anforderungen • Scoping ist wichtig – wie schneide ich meine Anforderungen, so dass sie in 2 Wochen passen • Virtualisierung von Rohdaten • Virtualisierung zur Reduktion von Beladungen im Anfang Automation im Data Vault • reduziert Aufwände vor dem DataVault • Iteratives Prototyping wird vereinfacht  SDLC als standardisierte Produktauslieferung mit Automatisierung und kurzen Entwicklungszyklen  DV2.0 und quelloffene Werkzeuge befördern diese Entwicklung  Technische Lösung ist noch mit Aufwand verbunden, der aber geringer wird je mehr auf Metadaten gesetzt wird
  • 18.
    Vielen Dank fürIhre Aufmerksamkeit! Fragen? 18 @tglunde Torsten Glunde mailto:t.glunde(at)alligator-company.de Weitere Netzwerke: https://www.xing.com/profile/Torsten_Glunde https://www.linkedin.com/pub/torsten-glunde/8/aba/97 Torsten Glunde, Alligator Company DDVUG, Juni 2014