Datenqualität mit den SQLServer Integration Services                       www.datenfabrik.com
datenfabrik GmbH & Co. KG• Versandhandel und Direktmarketing• Internationale Datenverarbeitung in über 10  europäischen Lä...
Tillmann Eitelberg-   Prokurist datenfabrik GmbH & Co. KG-   Lehrbeauftragter an der Uni Bonn-   RGV KölnBonnDüsseldorf-  ...
Agenda•   Was ist Datenqualität?•   Ursachen schlechter Datenqualität•   Auswirkungen schlechter Datenqualität•   Gesetzli...
Was ist Datenqualität? „Ein (mehrdimensionales) Maß fürdie Eignung von Daten, den an ihreErfassung/Generierung gebundenen ...
Was ist Datenqualität?  „Quality is when your customer   returns, not your product. “                            www.daten...
Was ist Datenqualität?                         www.datenfabrik.com
Was ist Datenqualität?•   Datenqualität ist subjektiv•   Anwendungsbezogen•   Domänenspezifisch•   Mehrdimensional        ...
Was ist Datenqualität (nicht)?                                     49716                                Unterschleißheim  ...
Ursachen schlechter Datenqualität                 •   Unterschiedliche Datenformate                 •   Datenverfall      ...
Ursachen schlechter Datenqualität                   •   Architektur                   •   Systemaktualisierungen          ...
Ursachen schlechter Datenqualität                   • Bedienungs- und Benutzerfehler                   • Manuelle Datenein...
Ursachen schlechter Datenqualität                   • Verlust von Fachkenntnissen                   • Fehlendes Problembew...
Ursachen schlechter Datenqualität 40 35 30 25 20 15 10  5  0                           www.datenfabrik.com
Auswirkungen schlechter Datenqualität• Kosten!!!  – Direkte Kosten    • Nachweiskosten    • Wiedereingabekosten  – Indirek...
Auswirkungen schlechter Datenqualität• Ausschuss und Nacharbeit durch falsch  justierte Maschinen• Rückrufaktionen aufgrun...
Auswirkungen schlechter Datenqualität                             Zustellung                                             5...
Auswirkungen schlechter Datenqualität                             Zustellung                                              ...
Gesetzliche Anforderungen• Gesetzliche und behördliche Anforderungen nehmen zu• Nachweispflicht setzt eine einwandfreie Da...
Geschäftstreiber laut Gartner   Folge eines signifikanten Schadenfalls durch schlechte                        Datenqualitä...
Datenqualität steigern• Bei der Dateneingabe• Fachkenntnisse aufbauen• Problembewusstsein stärken• Master Data Management•...
Rufnummern                     0228902990  Rufnummer inkl. Vorwahl                                  www.datenfabrik.com
Rufnummern                      0228 902990                             Teilnehmerrufnummer   Ortsnetzkennzahl            ...
RufnummernVerkehrsausscheidungsziffer                         0 228 902990                                 Teilnehmerrufnu...
RufnummernVerkehrsausscheidungsziffer                                             Durchwahl                         0 228 ...
Rufnummern Internationale Verkehrsausscheidungsziffer                           Durchwahl                         00 49 22...
Rufnummern Internationale Verkehrsausscheidungsziffer                           Durchwahl                          + 49 22...
Rufnummern- Max. Rufnummernlänge 15 Stellen im Internationalen  Verkehr- 5 verschiedene Schreibweisen in der DACH-Region  ...
5 DQ Prozesse            Monitoring       Profiling        Enrichment               Validation                     Cleansi...
Profiling                                       • Wie sehen meine                                         Daten aus?     M...
Validation                                       • Prüfung von Datentypen                                         und Form...
Cleansing                                       • Normierung von Daten                                         (z.B. Telef...
Enrichment                                       • Ergänzen der                                         bestehenden Daten ...
Monitoring                                       • Durchgehende                                         Prüfung und Messun...
Microsoft Boardmittel•   Character Map•   Data Converter•   Data Profiling Task•   Lookup Task•   Derived Column•   Fuzzy ...
Data Profiling Task• Hilft Entwicklern, sich mit Datenquellen  vertraut zu machen• Erstellt verschiedene Profile pro Spalt...
DemoData Profiling                 www.datenfabrik.com
Lookup Task•   Führt Suchvorgänge in einem Verweisdataset durch•   Setzt Referenzen•   Anreicherung von Daten•   Ermöglich...
DemoErkennen von Fehlern innerhalb vonAttributsabhängikeiten                                     www.datenfabrik.com
Data Conversion• Konvertiert Daten in einen anderen  Datentyp• Konvertierte Daten werden in eine  Ausgabespalte kopiert• M...
Derived Column• Ermöglicht das Erstellen von Regeln• Hilft bei der Bereinigung von Daten• SSIS Expressions  – Bedingungen ...
Fuzzy Suche• Fuzzy Lookup  – Führt Suchvorgänge in einem Verweisdataset    durch  – Suche über Ähnlichkeiten• Fuzzy Groupi...
Demo       www.datenfabrik.com
Script Component• Ausführung von VB.NET/C# Code• Verwendung als Quelle, Transformation  oder Ziel• Verwendung bei  – erwei...
DemoRegEx und Pattern mit der Script Komponente                                        www.datenfabrik.com
Community Components•   Data Validation Transform•   RegexClean•   Regular Expression Transform•   RegExtractor SSIS Compo...
RegexClean• Community Component von Darren Green  (SQLIS.com)• Match Expression - extrahiert Daten anhand  eines regulären...
Regular Expression Transform• Community Component von Darren Green  (SQLIS.com)• Validiert Daten anhand eines regulären  A...
DemoReguläre Ausdrücke mit den Integration Services                                         www.datenfabrik.com
CCNValidator• Codeplex-Projekt• Komponente zum Prüfen von  Kreditkartennummern• Verwendung des Luhn-Algorithmus• Ausgabeda...
DemoKreditkartenvalidierung                          www.datenfabrik.com
Third-party Components•   datenfabrik GmbH & Co. KG•   Pragmatic Works•   CozyRoc•   Intelligent Search Technologies•   AM...
datenfabrik.dedupe• Dublettensuche für die Integration Services• Sehr granulare Einstellungen möglich• Prüfung auf vertaus...
datenfabrik.address• Komponente zur postalischen Korrektur• Referenzdaten für über 240 Länder• Normierung von Adressdaten•...
DemoDubletten erkennen und verschmelzen                                  www.datenfabrik.com
datenfabrik.profiler• Profiling direkt im Datenfluss   Datenquellen „unabhängig“• Alarmfunktion auf einzelnen Ergebnissen...
DemoKundendaten bereinigen                         www.datenfabrik.com
Weitere Komponenten• datenfabrik.merge  Zusammenführen doppelter Datensätze auf einen Golden Record• datenfabrik.email  Ko...
Fragen?          www.datenfabrik.com
Links•   Deutsche Gesellschaft für Informations- und Datenqualität    http://www.dgiq.de•   Data Profiling im SQL Server 2...
DANKE!         www.datenfabrik.com
Nächste SlideShare
Wird geladen in …5
×

Datenqualität mit den SQL Server Integration Services

1.704 Aufrufe

Veröffentlicht am

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.704
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
13
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Datenqualität mit den SQL Server Integration Services

  1. 1. Datenqualität mit den SQLServer Integration Services www.datenfabrik.com
  2. 2. datenfabrik GmbH & Co. KG• Versandhandel und Direktmarketing• Internationale Datenverarbeitung in über 10 europäischen Ländern – Listbroking – Datenbereinigung – „Daten-Hosting“ – Datenmigration• Softwareentwicklung im Bereich Data Quality www.datenfabrik.com
  3. 3. Tillmann Eitelberg- Prokurist datenfabrik GmbH & Co. KG- Lehrbeauftragter an der Uni Bonn- RGV KölnBonnDüsseldorf- Regional Director PASS Deutschland- Regional Mentor PASS Deutschland- Blog: www.ssis-components.net- Codeplex Projekte - ShapeFileSource - ImageSource - SMSTask - ReportGeneratorTask - GoogleAnalyticsSource www.datenfabrik.com
  4. 4. Agenda• Was ist Datenqualität?• Ursachen schlechter Datenqualität• Auswirkungen schlechter Datenqualität• Gesetzliche Anforderungen• 5 DQ Prozesse• Microsoft Boardmittel• Community Components• Third Party Components www.datenfabrik.com
  5. 5. Was ist Datenqualität? „Ein (mehrdimensionales) Maß fürdie Eignung von Daten, den an ihreErfassung/Generierung gebundenen Zweck zu erfüllen.“ Dr. Volker Würthele www.datenfabrik.com
  6. 6. Was ist Datenqualität? „Quality is when your customer returns, not your product. “ www.datenfabrik.com
  7. 7. Was ist Datenqualität? www.datenfabrik.com
  8. 8. Was ist Datenqualität?• Datenqualität ist subjektiv• Anwendungsbezogen• Domänenspezifisch• Mehrdimensional www.datenfabrik.com
  9. 9. Was ist Datenqualität (nicht)? 49716 Unterschleißheim 3,0 m x 3,0 mFrottee Stoffhase (blau) Herr Max MustermannBester Kunde 2010 = www.datenfabrik.com
  10. 10. Ursachen schlechter Datenqualität • Unterschiedliche Datenformate • Datenverfall • (Neue) Datenverwendung • Inkonsistente Datendefinition www.datenfabrik.com
  11. 11. Ursachen schlechter Datenqualität • Architektur • Systemaktualisierungen • (Prozess-) Automatisierungen • Datenkonvertierungen • Systemkonsolidierung • Fehlende Änderungsverfolgung www.datenfabrik.com
  12. 12. Ursachen schlechter Datenqualität • Bedienungs- und Benutzerfehler • Manuelle Dateneingabe • Verschiedene Datenverarbeitungsprozesse • Mangelhaftes User Interface • User Experience www.datenfabrik.com
  13. 13. Ursachen schlechter Datenqualität • Verlust von Fachkenntnissen • Fehlendes Problembewusstsein • Falsche Motivationsmethodik www.datenfabrik.com
  14. 14. Ursachen schlechter Datenqualität 40 35 30 25 20 15 10 5 0 www.datenfabrik.com
  15. 15. Auswirkungen schlechter Datenqualität• Kosten!!! – Direkte Kosten • Nachweiskosten • Wiedereingabekosten – Indirekte Kosten • Umsatzeinbußen • Fehlentscheidungen • Imageverlust • Werbekosten • Betrugsversuch www.datenfabrik.com
  16. 16. Auswirkungen schlechter Datenqualität• Ausschuss und Nacharbeit durch falsch justierte Maschinen• Rückrufaktionen aufgrund von Produktionsmängeln• Projektmisstrauen• Geldstrafen• Sinkende Mitarbeitermotivation www.datenfabrik.com
  17. 17. Auswirkungen schlechter Datenqualität Zustellung 5% = 25.000 3% = 15.000 40.000500.000 3% DublettenKunden 0,45 € = 18.000 € 0,55 € = 22.000 € 40.000 € X2 = 80.000 € www.datenfabrik.com
  18. 18. Auswirkungen schlechter Datenqualität Zustellung 5% = 2.000 3% = 1.200 3.20040.000 3% DublettenKunden 0,45 € = 1.440 € 0,55 € = 1.760 € 3.200 € X2 = 6.400 € www.datenfabrik.com
  19. 19. Gesetzliche Anforderungen• Gesetzliche und behördliche Anforderungen nehmen zu• Nachweispflicht setzt eine einwandfreie Datenqualität voraus• Einhaltung nationaler und internationaler Gesetze und Richtlinien (Antiterrorlisten, Robinsonliste)• Bekannte Compliance-Maßnahmen – International Financial Reporting Standards (IFRS) – Sarbanes-Oxley Act (SOX) – Basel II – REACH – International Material Data Systems (IMDS) www.datenfabrik.com
  20. 20. Geschäftstreiber laut Gartner Folge eines signifikanten Schadenfalls durch schlechte DatenqualitätAntwort auf Datenqualitätsinitiativen bei Wettbewerbern Stärkung des Vertrauens in die eigene Datenbasis Unterstützung von Business.Intelligence oder Data- Warehouse-Initiativen Unterstützung von CRM-Initiativen Verbesserung der Anwenderakzeptanz der wichtigsten Applikationssysteme Unterstützung von Compliance-Aktivitäten 0 10 20 30 40 50 60 70 www.datenfabrik.com
  21. 21. Datenqualität steigern• Bei der Dateneingabe• Fachkenntnisse aufbauen• Problembewusstsein stärken• Master Data Management• Corporate Data Definition• Verwendung von Referenzdaten• Regelmäßige Prüfung mit „externen“ Programmen• Beim Beladen des Data Warehouse www.datenfabrik.com
  22. 22. Rufnummern 0228902990 Rufnummer inkl. Vorwahl www.datenfabrik.com
  23. 23. Rufnummern 0228 902990 Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  24. 24. RufnummernVerkehrsausscheidungsziffer 0 228 902990 Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  25. 25. RufnummernVerkehrsausscheidungsziffer Durchwahl 0 228 90299 0 Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  26. 26. Rufnummern Internationale Verkehrsausscheidungsziffer Durchwahl 00 49 228 90299 0Internationale Vorwahl Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  27. 27. Rufnummern Internationale Verkehrsausscheidungsziffer Durchwahl + 49 228 90299 0Internationale Vorwahl Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  28. 28. Rufnummern- Max. Rufnummernlänge 15 Stellen im Internationalen Verkehr- 5 verschiedene Schreibweisen in der DACH-Region - +49 30 12345-67 - +49 30 1234567 - +49 (30) 1234567 - +49-30-1234567 - +49 (0)30 12345-67- Zuständigkeit in Deutschland liegt bei der Bundesnetzagentur- Ortsnetzkennzahlen werden im Nummerierungsplan festgehalten- Private Nummerierungspläne, Sonderrufnummern, ITU www.datenfabrik.com
  29. 29. 5 DQ Prozesse Monitoring Profiling Enrichment Validation Cleansing www.datenfabrik.com
  30. 30. Profiling • Wie sehen meine Daten aus? Monitoring Profiling • Welche Datentypen sind enthalten? • Welches Format haben Enrichment Validation die Daten? • Gibt es NULL-Werte? Cleansing • Existieren Abhängig- keiten untereinander? www.datenfabrik.com
  31. 31. Validation • Prüfung von Datentypen und Formaten • Syntaktische und Monitoring Profiling semantische Prüfung aller relevanten Daten Enrichment Validation • Prüfung auf Vollständigkeit (ggf. auch Cleansing mehrdimensional) • Prüfung auf Dubletten www.datenfabrik.com
  32. 32. Cleansing • Normierung von Daten (z.B. Telefonnummern, Straße + Hausnummer) Monitoring Profiling • Bereinigung der Daten • Verschmelzung von Enrichment Validation Dubletten Cleansing www.datenfabrik.com
  33. 33. Enrichment • Ergänzen der bestehenden Daten mit zusätzlichen (meist Monitoring Profiling externen) Informationen Enrichment Validation – Geokoordinaten – Soziodemographische Daten Cleansing – Microsoft Dallas www.datenfabrik.com
  34. 34. Monitoring • Durchgehende Prüfung und Messung relevanter Regeln und Monitoring Profiling Ergebnisse aus den Prozessen Profiling und Enrichment Validation Validation Cleansing www.datenfabrik.com
  35. 35. Microsoft Boardmittel• Character Map• Data Converter• Data Profiling Task• Lookup Task• Derived Column• Fuzzy Grouping• Fuzzy Lookup• Script Component www.datenfabrik.com
  36. 36. Data Profiling Task• Hilft Entwicklern, sich mit Datenquellen vertraut zu machen• Erstellt verschiedene Profile pro Spalte• Daten müssen im SQL Server vorliegen• Profil wird als XML Datei gespeichert• ProfileToSQL Styleheetshttp://www.tf-informatik.dk/FreeStuff/ProfileToSQL/index.php www.datenfabrik.com
  37. 37. DemoData Profiling www.datenfabrik.com
  38. 38. Lookup Task• Führt Suchvorgänge in einem Verweisdataset durch• Setzt Referenzen• Anreicherung von Daten• Ermöglicht auch das erstellen von Business Regeln (Attributabhängigkeiten) WENN Hersteller = „Vita Kraft“ UND Produkt = „Stroh“ DANN Verpackungseinheit = „Liter“ WENN Kategorie = „Fernseher“ (UND Unterkategorie = „Plasma“) DANN ProduktPreis > 100 www.datenfabrik.com
  39. 39. DemoErkennen von Fehlern innerhalb vonAttributsabhängikeiten www.datenfabrik.com
  40. 40. Data Conversion• Konvertiert Daten in einen anderen Datentyp• Konvertierte Daten werden in eine Ausgabespalte kopiert• Mehrere Konvertierungen für eine Spalte Replacing Data Conversion Component for SSIS Todd McDermid - Codeplex www.datenfabrik.com
  41. 41. Derived Column• Ermöglicht das Erstellen von Regeln• Hilft bei der Bereinigung von Daten• SSIS Expressions – Bedingungen (BOOL ? True : False) – String-Funktionen – Datums-Funktionen – Mathematische Operatoren www.datenfabrik.com
  42. 42. Fuzzy Suche• Fuzzy Lookup – Führt Suchvorgänge in einem Verweisdataset durch – Suche über Ähnlichkeiten• Fuzzy Grouping – Sucht innerhalb des Eingabedatenstroms – Suche über Ähnlichkeiten www.datenfabrik.com
  43. 43. Demo www.datenfabrik.com
  44. 44. Script Component• Ausführung von VB.NET/C# Code• Verwendung als Quelle, Transformation oder Ziel• Verwendung bei – erweiterten .NET Funktionen, z.B. regulären Ausdrücken – komplexen Algorithmen www.datenfabrik.com
  45. 45. DemoRegEx und Pattern mit der Script Komponente www.datenfabrik.com
  46. 46. Community Components• Data Validation Transform• RegexClean• Regular Expression Transform• RegExtractor SSIS Component• CCNValidator• MapPoint Batch Geocoder (SQL Server CLR Function for Address Correction and Geocoding) www.datenfabrik.com
  47. 47. RegexClean• Community Component von Darren Green (SQLIS.com)• Match Expression - extrahiert Daten anhand eines regulären Ausdrucks• Replace Expression - überführt Daten mit Hilfe eines regulären Ausdrucks www.datenfabrik.com
  48. 48. Regular Expression Transform• Community Component von Darren Green (SQLIS.com)• Validiert Daten anhand eines regulären Ausdrucks• Komponente enthält zwei Ausgaben (Matched/Non-Matched) www.datenfabrik.com
  49. 49. DemoReguläre Ausdrücke mit den Integration Services www.datenfabrik.com
  50. 50. CCNValidator• Codeplex-Projekt• Komponente zum Prüfen von Kreditkartennummern• Verwendung des Luhn-Algorithmus• Ausgabedatenstrom wird automatisch um eine Validierung ergänzt• Prüfung sagt nur aus, ob die Nummer richtig sein könnte www.datenfabrik.com
  51. 51. DemoKreditkartenvalidierung www.datenfabrik.com
  52. 52. Third-party Components• datenfabrik GmbH & Co. KG• Pragmatic Works• CozyRoc• Intelligent Search Technologies• AMB Dataminers• Melissa Data• DQ Components www.datenfabrik.com
  53. 53. datenfabrik.dedupe• Dublettensuche für die Integration Services• Sehr granulare Einstellungen möglich• Prüfung auf vertauschte Spalten möglich• Prüfung auf vertauschte Doppelnamen möglich• Normalisierung/Standardisierung spezieller Werte• Sehr hohe Performance (ca. 15 Mio. Datensätze pro Stunde) www.datenfabrik.com
  54. 54. datenfabrik.address• Komponente zur postalischen Korrektur• Referenzdaten für über 240 Länder• Normierung von Adressdaten• Zerlegung von Adressdaten• Umbenennung anhand historischer Informationen• Geokodierung von Adressdaten www.datenfabrik.com
  55. 55. DemoDubletten erkennen und verschmelzen www.datenfabrik.com
  56. 56. datenfabrik.profiler• Profiling direkt im Datenfluss  Datenquellen „unabhängig“• Alarmfunktion auf einzelnen Ergebnissen pro Spalte• Umfangreiches Regelwerk• Erweiterung der Statistiken mit SSRS www.datenfabrik.com
  57. 57. DemoKundendaten bereinigen www.datenfabrik.com
  58. 58. Weitere Komponenten• datenfabrik.merge Zusammenführen doppelter Datensätze auf einen Golden Record• datenfabrik.email Korrektur von Email-Adressen• datenfabrik.deletix Löscht Dubletten nach verschiedenen Prioritätsinformationen und erstellt Löschprotokolle• datenfabirk.gender Ermittelt die korrekte Anrede anhand des Vornamens für unterschiedliche Länder• datenfabrik.currency Rechnet Beträge in verschiedene Währungen mit aktuellen und historischen Daten um.• datenfabrik.phone Korrektur und Anreicherung von Telefondaten www.datenfabrik.com
  59. 59. Fragen? www.datenfabrik.com
  60. 60. Links• Deutsche Gesellschaft für Informations- und Datenqualität http://www.dgiq.de• Data Profiling im SQL Server 2008, Martin Kopp http://www.sqlpass.de/Mitgliedsbereich/Repository/tabid/73/DMXModule/696/Command/Core_Downl oad/Default.aspx?EntryId=116• SQLIS.com – RegexClean, Regular Expression Transform http://www.sqlis.com• CCNValidator http://ccnv05.codeplex.com/• Microsoft SQL Server Integration Services Product Samples http://msftisprodsamples.codeplex.com/• SSIS Community Tasks and Components http://ssisctc.codeplex.com/• SSIS-Components.net http://www.ssis-components.net www.datenfabrik.com
  61. 61. DANKE! www.datenfabrik.com

×