Analytical Sandboxing :  Data-Warehousing und Datenanalysen  im Spannungsfeld zwischen  Revisionssicherheit und agiler Dat...
12.01.10 <ul><li>Vorstellung des GKV Spitzenverbandes </li></ul><ul><li>Ziele DWH/BI </li></ul><ul><li>Umsetzungsstrategie...
<ul><li>…  ist die zentrale Interessenvertretung aller gesetzlichen  Krankenkassen auf Bundesebene </li></ul><ul><li>…  ve...
Gesetzliche Aufgaben 12.01.10 <ul><li>Vergütungsvereinbarungen  für den ambulanten und stationären Sektor </li></ul><ul><l...
12.01.10 <ul><li>Schnelle Herstellung der Analysefähigkeit </li></ul><ul><li>Hoher Autonomiegrad </li></ul><ul><li>Hohe Pe...
12.01.10 <ul><li>Schnelle Entscheidung für DWH- und BI-Anbieter </li></ul><ul><li>Systemaufbau bis Weihnachten 2008 -> Sta...
12.01.10 Nutzer-Typen und Nutzer-Anzahl Zahl der Mitarbeiter/-innen des GKV-SV zum 01.11.2009 (in 2010):  177  (192) Nutze...
12.01.10 Meilensteine 2008   2009 05 06 07 08 09 10 11 12 01 02 03 04 05 Erstellung IT Gesamtkonzept                      ...
12.01.10 Die Entscheidung pro SAS <ul><li>Schnelle Handlungsfähigkeit der Mitarbeiter in den Bereichen Vertragsanalyse und...
Datenschutz 12.01.10 <ul><li>Erhöhte Anforderungen an den Datenschutz (Stichwort: Sozialdaten) </li></ul><ul><li>Gesetzlic...
Teradata DWH Schichtenmodell 12.01.10
12.01.10 ‚ DWH-LOAD‘ Das ETLT- und Metadatenframework des GKV SV <ul><li>Ziele:  </li></ul><ul><li>Revisionssichere Verarb...
12.01.10 Datenlieferungen Morbi-RSA Beispiel: Diagnosedaten (‚SA 600‘) <ul><li>DWH-LOAD: Wann wurde welche Datei von welch...
12.01.10 Revisionssicheres Laden und Prüfen von Morbi-RSA-Diagnosedaten (SA600)  am Beispiel eines Ladejobs mit 680 Mio. D...
12.01.10 Beispiele für Anforderungen der Fachabteilungen:  Ad-Hoc-Analysen und F&E <ul><li>Es wird ‚mal eben‘ der Zugriff ...
12.01.10 Teradata-Landkarte
12.01.10 Abgrenzung DWH/Sandbox: Die Teradata-Landkarte
12.01.10 Die Wege in die Teradata DB
12.01.10 DWH = Certified Truth DWH Sandbox Versionierung Nachvollziehbarkeit Reproduzierbarkeit Archivierung Integration
12.01.10 Verbindungen der Sandbox mit dem DWH   (Beispiele)
12.01.10 Verbindungen des DWH mit der Sandbox   (Beispiele)
12.01.10 Verbindungen von Sandbox mit Sandbox
12.01.10 The Rules ….  <ul><li>‚ alle‘ Rechte in eigenem Bereich der DB => eigener Admin (Rechtevergabe, Indizierung, Impo...
12.01.10 Sonstige Besonderheiten <ul><li>Power-User (mit Sandbox-Know-How) müssen ggf. länger auf die Realisierung ‚ihre‘ ...
12.01.10 Resümee + + = 
12.01.10 Von Haupt- und Nebenwirkungen <ul><li>Der GKV SV verfügt über eine solide, bedarfsorientierte, ausbaubare, innova...
12.01.10 Vielen Dank für Ihre Aufmerksamkeit! Matthias Kleinschmidt GKV Spitzenverband Mittelstrasse 51 10117 Berlin Tel: ...
Nächste SlideShare
Wird geladen in …5
×

Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zwischen Revisionssicherheit und agiler Datenanalyse - Matthias Kleinschmidt

2.409 Aufrufe

Veröffentlicht am

Veröffentlicht in: Gesundheit & Medizin
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.409
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
546
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zwischen Revisionssicherheit und agiler Datenanalyse - Matthias Kleinschmidt

  1. 1. Analytical Sandboxing : Data-Warehousing und Datenanalysen im Spannungsfeld zwischen Revisionssicherheit und agiler Datenanalyse 3rd Workshop on Business Intelligence Competence Centers for Business Intelligence TUD Business Intelligence Research e.V. Dresden, 06.11.2009
  2. 2. 12.01.10 <ul><li>Vorstellung des GKV Spitzenverbandes </li></ul><ul><li>Ziele DWH/BI </li></ul><ul><li>Umsetzungsstrategie </li></ul><ul><li>Meilensteine </li></ul><ul><li>Architektur des DWH / Datenschutz </li></ul><ul><li>Zentrale Bausteine </li></ul><ul><li>Nutzung und Verbreitung </li></ul><ul><li>Resümee </li></ul><ul><li>Next Steps </li></ul>Themenübersicht
  3. 3. <ul><li>… ist die zentrale Interessenvertretung aller gesetzlichen Krankenkassen auf Bundesebene </li></ul><ul><li>… vertritt damit mittelbar die Interessen von über 70 Mio. gesetzlich Versicherten und ihrer Arbeitgeber </li></ul><ul><li>… steht für Wettbewerb im Gesundheitswesen ein, um damit die Versorgung qualitativ hochwertig und wirtschaftlich weiterzuentwickeln </li></ul><ul><li>… ist - bezogen auf den Wettbewerb unter den 186 Krankenkassen – selbst wettbewerbsneutral </li></ul>12.01.10 Der GKV-Spitzenverband …
  4. 4. Gesetzliche Aufgaben 12.01.10 <ul><li>Vergütungsvereinbarungen für den ambulanten und stationären Sektor </li></ul><ul><li>Festsetzung der Festbeträge für Arznei-, Heil- und Hilfsmittel </li></ul><ul><li>Schaffung einer Datenbasis für den Risikostrukturausgleich (RSA) </li></ul><ul><li>Finanzcontrolling der Krankenkassen in Zusammenhang mit Insolvenzfähigkeit und finanziellen Hilfen </li></ul><ul><li>Durchführung von Benchmarkings </li></ul><ul><li>Festlegungen zur Beitragsbemessung z. B. für freiwillig Versicherte </li></ul><ul><li>Vertretung der Krankenkassenseite im G-BA </li></ul><ul><li>Begleiten von Gesetzgebungsverfahren durch Stellungnahmen, Anhörungen und Politikberatung </li></ul>Der GKV-Spitzenverband übernimmt per Gesetz alle wettbewerbsneutralen Aufgaben für die gesetzliche Kranken- und Pflegeversicherung, dazu zählen u.a.: … über 160 Aufgaben
  5. 5. 12.01.10 <ul><li>Schnelle Herstellung der Analysefähigkeit </li></ul><ul><li>Hoher Autonomiegrad </li></ul><ul><li>Hohe Performance </li></ul><ul><li>Hohe Verfügbarkeit und Auswertungsflexibilität </li></ul><ul><li>integrierte Auswertungen </li></ul><ul><li>Qualität und Zeit ist Geld: </li></ul><ul><li>Qualitätsgesicherte, revisionssichere Daten/Datenhaltung </li></ul><ul><li>Hohe Datensicherheit </li></ul><ul><li>Hoher Automatisierungsgrad </li></ul><ul><li>Know-How-Aufbau zu SQL und Analysetools in Fachabteilungen (Teradata+SAS) </li></ul><ul><li>Mandantenfähigkeit (externe User) </li></ul><ul><li>Revisionssichere Verarbeitung </li></ul><ul><li>Schlanke Administration </li></ul><ul><li>Optimale Unterstützung zeitkritischer Datenprozesse </li></ul>Ziele im Bereich DWH/BI
  6. 6. 12.01.10 <ul><li>Schnelle Entscheidung für DWH- und BI-Anbieter </li></ul><ul><li>Systemaufbau bis Weihnachten 2008 -> Stadium: ‚Ready-to-get-data‘ </li></ul><ul><li>Entscheidung für die Entwicklung eines eigenen ETLT- und Metadaten-Frameworks (‚DWH-Load‘) </li></ul><ul><li>Parallele Erstellung der Feinkonzepte (z.B. Architektur, ETLT-Prozess, Migration, Backup, Recovery) </li></ul><ul><li>Schnelle Einrichtung und von ‚Analytical Sandboxen‘ für die Bereiche Vertragsanalysen und RSA/Morbi-RSA </li></ul><ul><li>‚ Analytical Sandboxen‘ erlauben das eigenverantwortliches Laden und Auswerten der Fachabteilungen bei paralleler Entwicklung von finalen Ladestrecken </li></ul><ul><li>Bereits qualifizierte Power-User ‚versorgen‘ die Kollegen mit Auswertungen bis zur eigenen Qualifizierung in Teradata/SAS bzw. bis zur Bereitstellung von SAS BI </li></ul>Umsetzungsstrategie
  7. 7. 12.01.10 Nutzer-Typen und Nutzer-Anzahl Zahl der Mitarbeiter/-innen des GKV-SV zum 01.11.2009 (in 2010): 177 (192) Nutzer 2010 + 5 + 5 + 5 + 100 Verfügbare Tools SAS BI + Nutzer SAS Enterprise Guide + Nutzer Teradata Utilities + SAS Base + Analytical Sandbox Nutzer-Typ Normaler Nutzer Analyst Fortgeschritten Power-User Nutzer 07/2009 0 20 10 5
  8. 8. 12.01.10 Meilensteine 2008 2009 05 06 07 08 09 10 11 12 01 02 03 04 05 Erstellung IT Gesamtkonzept                           Sizing der Rohdatenmenge                           Entscheidung für ein zentrales, integriertes, relationales DB-System + Anschaffung eines Statistik- und BI-Tools                           Kurzfassung Anforderungskatalog für DWH-DB und BI                           Entscheidung Anschaffung SAS-BI                           Installation SAS EPG lokal für 3 Power-User                           Beschluss Vorstandssitzung zum Ausbau des Teradata-DWH der ITSG                           Projekt Kick-Off                           Empfehlung des Ausschusses Finanzen und Organisation                           Anlieferung TD-Hardware                           Entscheidung für Entwicklung eines eigenen ETLT-und Metadaten-Frameworks (DWH-Load)                           Vorstellung der des Sandbox-Konzeptes                           1. DWH Ausbaustufe 1: Ready-to-Get-Data                           Ladestrecke SA40 und SA111 in Produktion (ohne DWH-Load)                           SAS Umgebung im Echtbetrieb (inkl. TD-Anbindung)                           Teradata Sandbox-User Schulung                           SAS-User-Schulung                           2. DWH-Ausbaustufe: DWH-Load in Produktion                           Ladestrecke IK im Dauereinsatz                          
  9. 9. 12.01.10 Die Entscheidung pro SAS <ul><li>Schnelle Handlungsfähigkeit der Mitarbeiter in den Bereichen Vertragsanalyse und Risikostrukturausgleich </li></ul><ul><ul><li>Durchweg SAS-Know How vorhanden </li></ul></ul><ul><ul><li>80% kannten auch andere Werkzeuge, aber SAS bevorzugt </li></ul></ul><ul><li>Preis-Leistungsverhältnis </li></ul><ul><li>Hohe Verbreitung und gute Referenzen im Umfeld GKV-Umfeld (BVA, WidO, DAK, BITMARCK u.a.) </li></ul><ul><li>Teradata-Integration (zukünftig insbesondere Regressionsrechnungen) </li></ul>
  10. 10. Datenschutz 12.01.10 <ul><li>Erhöhte Anforderungen an den Datenschutz (Stichwort: Sozialdaten) </li></ul><ul><li>Gesetzliche Vorgaben zu verfahrens- bzw. zweckgebundener Verwendung der Daten </li></ul><ul><li>Verbandsinterne Zugriffsbeschränkungen </li></ul><ul><li>Herstellung einer Mandatenfähigkeit und Schaffung von gesicherten Zugriff für zukünftige externe User </li></ul>
  11. 11. Teradata DWH Schichtenmodell 12.01.10
  12. 12. 12.01.10 ‚ DWH-LOAD‘ Das ETLT- und Metadatenframework des GKV SV <ul><li>Ziele: </li></ul><ul><li>Revisionssichere Verarbeitung von Daten </li></ul><ul><li>Definition eines transparenten, modularen Standardprozesses zur Vereinfachung des Job-Managements in der Administration </li></ul><ul><li>Sicherung von Datenkonsistenz, hoher Performance, Nachvollziehbarkeit, Reproduzierbarkeit, Wiederverwendbarkeit und Monitoring </li></ul>
  13. 13. 12.01.10 Datenlieferungen Morbi-RSA Beispiel: Diagnosedaten (‚SA 600‘) <ul><li>DWH-LOAD: Wann wurde welche Datei von welchem Lieferanten für welche Kasse in welcher Zeile mit welchen Inhalt und ggf. welchen Fehler über welche Ladestrecke und welche UNIX-Prozess von wem geladen. </li></ul><ul><li>ca. 1,6 Milliarden ärztliche Einzeldiagnosen von 70 Mio. Versicherten auf Qualität prüfen: </li></ul><ul><ul><li>13 Fehlertypen </li></ul></ul><ul><ul><li>Dublettenprüfung und Test auf referentielle Integrität </li></ul></ul><ul><li>Geschwindigkeit ist kein Selbstzweck! </li></ul><ul><li>Sehr enges Zeitfenster für Annahmen, Prüfung, möglichem Dateiaustausch, erneuter Prüfung und Weiterleitung im Zusammenspiel mit den Datenlieferanten </li></ul>
  14. 14. 12.01.10 Revisionssicheres Laden und Prüfen von Morbi-RSA-Diagnosedaten (SA600) am Beispiel eines Ladejobs mit 680 Mio. Datensätzen und 44 Gigabyte Dateigröße 227.000 Datensätzen bzw. 15 Megabyte pro Sekunde
  15. 15. 12.01.10 Beispiele für Anforderungen der Fachabteilungen: Ad-Hoc-Analysen und F&E <ul><li>Es wird ‚mal eben‘ der Zugriff auf ‚frisch erhaltene‘ Daten benötigt </li></ul><ul><li>Bereinigen, Verändern und Ergänzen von Daten aus dem DWH für ein neues ärztliches Vergütungsmodell </li></ul><ul><li>Neue Geo-Daten sollen auf Qualität und Nutzbarkeit getestet werden </li></ul><ul><li>Generierung von Zusatzinformationen durch Analyse und Transformation von Daten und Integration der Ergebnisse ins DWH </li></ul>Lösung: Analytical Sandbox
  16. 16. 12.01.10 Teradata-Landkarte
  17. 17. 12.01.10 Abgrenzung DWH/Sandbox: Die Teradata-Landkarte
  18. 18. 12.01.10 Die Wege in die Teradata DB
  19. 19. 12.01.10 DWH = Certified Truth DWH Sandbox Versionierung Nachvollziehbarkeit Reproduzierbarkeit Archivierung Integration
  20. 20. 12.01.10 Verbindungen der Sandbox mit dem DWH (Beispiele)
  21. 21. 12.01.10 Verbindungen des DWH mit der Sandbox (Beispiele)
  22. 22. 12.01.10 Verbindungen von Sandbox mit Sandbox
  23. 23. 12.01.10 The Rules …. <ul><li>‚ alle‘ Rechte in eigenem Bereich der DB => eigener Admin (Rechtevergabe, Indizierung, Import, Makros, Anlegen von Views ggf. auch DBs) </li></ul><ul><li>direkter Datei-Upload in die Sandbox vom lokalen Client/PC/Notebook </li></ul><ul><li>im Volumen begrenzt (ca. ein Terabyte) </li></ul><ul><li>Liberale Handhabung bei der Bereitstellung der Teradata Utilities (TTU) </li></ul><ul><li>Produktion/DWH hat Performance-Vorrang </li></ul><ul><li>keine User-Defined-Functions oder Stored Procedures (bzw. nur ‚auf Antrag‘) </li></ul><ul><li>Zugriff von Sandbox auf das DWH, aber nicht umgekehrt </li></ul><ul><li>begrenzter Lebenszyklus der Daten (mit Frühwarnsystem und Überführungsmöglichkeit ins DWH) </li></ul><ul><li>keine offiziellen Reports mit Sandbox-Daten </li></ul><ul><li>Nutzer verantwortet Ressourcen der Sandbox, deren Inhalte und die Ergebnisse </li></ul><ul><li>Sicherung = ja | Archivierung = nur ‚auf Antrag‘ </li></ul><ul><li>automatische Statistics </li></ul><ul><li>regelmäßiges Reporting über Nutzung und Ressourcen </li></ul>
  24. 24. 12.01.10 Sonstige Besonderheiten <ul><li>Power-User (mit Sandbox-Know-How) müssen ggf. länger auf die Realisierung ‚ihre‘ Ladestrecken warten als andere (da über SBX vorhanden) </li></ul><ul><li>So viele (SAS-) Transaktionen wie möglich sollen ‚in-database‘ durchgeführt werden </li></ul><ul><ul><li>Inhaltliche Fehlerkataloge (z.B. im RSA) wurden über den ETLT-Prozess im DWH implementiert und sind dadurch extrem performant </li></ul></ul><ul><ul><li>Spezielle inhaltliche Plausibilitätsprüfungen werden mit SAS entwickelt </li></ul></ul><ul><ul><ul><li>Verknüpfungen großer Datenmengen werden nicht mit SAS sondern über Views im DWH sicher gestellt, auf die SAS dann Zugreift (Proc-SQL) </li></ul></ul></ul><ul><li>Spezial-Ladestrecke und klarer Workflow für Übernahme von Sandbox-Daten ins DWH (Sandbox als Datenlieferant) </li></ul>
  25. 25. 12.01.10 Resümee + + = 
  26. 26. 12.01.10 Von Haupt- und Nebenwirkungen <ul><li>Der GKV SV verfügt über eine solide, bedarfsorientierte, ausbaubare, innovative und mittlerweile auch bewährte Analyse-Umgebung bestehend aus Teradata DWH + Analytical Sandbox + SAS </li></ul><ul><li>Das Konzept der Analytical Sandbox verschafft allen Analysten die nötige Freiheit, Agilität und Schlagkraft </li></ul><ul><li>Nebeneffekt: ‚Access-Zoos‘ gibt es bei uns nicht! </li></ul><ul><li>Kosten: Qualifizierung, DB-Space </li></ul><ul><li>Lernkurve in der IT: Loslassen können ist auch eine Kunst. </li></ul>
  27. 27. 12.01.10 Vielen Dank für Ihre Aufmerksamkeit! Matthias Kleinschmidt GKV Spitzenverband Mittelstrasse 51 10117 Berlin Tel: 030 - 206 288 3343 mailto: [email_address]

×