SlideShare ist ein Scribd-Unternehmen logo
Datenqualität mit den SQL
Server Integration Services




                       www.datenfabrik.com
datenfabrik GmbH & Co. KG
• Versandhandel und Direktmarketing
• Internationale Datenverarbeitung in über 10
  europäischen Ländern
  –   Listbroking
  –   Datenbereinigung
  –   „Daten-Hosting“
  –   Datenmigration
• Softwareentwicklung im Bereich Data Quality



                                       www.datenfabrik.com
Tillmann Eitelberg
-   Prokurist datenfabrik GmbH & Co. KG
-   Lehrbeauftragter an der Uni Bonn
-   RGV KölnBonnDüsseldorf
-   Regional Director PASS Deutschland
-   Regional Mentor PASS Deutschland
-   Blog: www.ssis-components.net
-   Codeplex Projekte
    -   ShapeFileSource
    -   ImageSource
    -   SMSTask
    -   ReportGeneratorTask
    -   GoogleAnalyticsSource

                                          www.datenfabrik.com
Agenda
•   Was ist Datenqualität?
•   Ursachen schlechter Datenqualität
•   Auswirkungen schlechter Datenqualität
•   Gesetzliche Anforderungen
•   5 DQ Prozesse
•   Microsoft Boardmittel
•   Community Components
•   Third Party Components

                                     www.datenfabrik.com
Was ist Datenqualität?

 „Ein (mehrdimensionales) Maß für
die Eignung von Daten, den an ihre
Erfassung/Generierung gebundenen
        Zweck zu erfüllen.“

                   Dr. Volker Würthele

                             www.datenfabrik.com
Was ist Datenqualität?

  „Quality is when your customer
   returns, not your product. “




                            www.datenfabrik.com
Was ist Datenqualität?




                         www.datenfabrik.com
Was ist Datenqualität?
•   Datenqualität ist subjektiv
•   Anwendungsbezogen
•   Domänenspezifisch
•   Mehrdimensional




                                  www.datenfabrik.com
Was ist Datenqualität (nicht)?
                                     49716
                                Unterschleißheim



                                                   3,0 m x 3,0 m
Frottee Stoffhase (blau)




                  Herr Max Mustermann


Bester Kunde 2010
                                  =
                                                   www.datenfabrik.com
Ursachen schlechter Datenqualität
                 •   Unterschiedliche Datenformate
                 •   Datenverfall
                 •   (Neue) Datenverwendung
                 •   Inkonsistente Datendefinition




                                      www.datenfabrik.com
Ursachen schlechter Datenqualität
                   •   Architektur
                   •   Systemaktualisierungen
                   •   (Prozess-) Automatisierungen
                   •   Datenkonvertierungen
                   •   Systemkonsolidierung
                   •   Fehlende Änderungsverfolgung




                                   www.datenfabrik.com
Ursachen schlechter Datenqualität
                   • Bedienungs- und Benutzerfehler
                   • Manuelle Dateneingabe
                   • Verschiedene
                     Datenverarbeitungsprozesse
                   • Mangelhaftes User Interface
                   • User Experience




                                  www.datenfabrik.com
Ursachen schlechter Datenqualität
                   • Verlust von Fachkenntnissen
                   • Fehlendes Problembewusstsein
                   • Falsche Motivationsmethodik




                                  www.datenfabrik.com
Ursachen schlechter Datenqualität

 40
 35
 30
 25
 20
 15
 10
  5
  0




                           www.datenfabrik.com
Auswirkungen schlechter Datenqualität

• Kosten!!!
  – Direkte Kosten
    • Nachweiskosten
    • Wiedereingabekosten
  – Indirekte Kosten
    •   Umsatzeinbußen
    •   Fehlentscheidungen
    •   Imageverlust
    •   Werbekosten
    •   Betrugsversuch

                                 www.datenfabrik.com
Auswirkungen schlechter Datenqualität

• Ausschuss und Nacharbeit durch falsch
  justierte Maschinen
• Rückrufaktionen aufgrund von
  Produktionsmängeln
• Projektmisstrauen
• Geldstrafen
• Sinkende Mitarbeitermotivation


                                   www.datenfabrik.com
Auswirkungen schlechter Datenqualität


                             Zustellung



                                             5% = 25.000
                                             3% = 15.000
                                                 40.000
500.000               3% Dubletten
Kunden                                    0,45 € = 18.000 €
                                          0,55 € = 22.000 €
                                                  40.000 €
                                             X2 = 80.000 €



                                            www.datenfabrik.com
Auswirkungen schlechter Datenqualität


                             Zustellung



                                              5% = 2.000
                                              3% = 1.200
                                                  3.200
40.000                3% Dubletten
Kunden                                    0,45 € = 1.440 €
                                          0,55 € = 1.760 €
                                                   3.200 €
                                             X2 = 6.400 €



                                            www.datenfabrik.com
Gesetzliche Anforderungen
• Gesetzliche und behördliche Anforderungen nehmen zu
• Nachweispflicht setzt eine einwandfreie Datenqualität voraus
• Einhaltung nationaler und internationaler Gesetze und
  Richtlinien (Antiterrorlisten, Robinsonliste)
• Bekannte Compliance-Maßnahmen
   – International Financial Reporting Standards (IFRS)
   – Sarbanes-Oxley Act (SOX)
   – Basel II
   – REACH
   – International Material Data Systems (IMDS)



                                                     www.datenfabrik.com
Geschäftstreiber laut Gartner
   Folge eines signifikanten Schadenfalls durch schlechte
                        Datenqualität


Antwort auf Datenqualitätsinitiativen bei Wettbewerbern


       Stärkung des Vertrauens in die eigene Datenbasis


     Unterstützung von Business.Intelligence oder Data-
                  Warehouse-Initiativen


                      Unterstützung von CRM-Initiativen


  Verbesserung der Anwenderakzeptanz der wichtigsten
                  Applikationssysteme


              Unterstützung von Compliance-Aktivitäten


                                                            0   10   20   30   40   50    60   70

                                                                                    www.datenfabrik.com
Datenqualität steigern
• Bei der Dateneingabe
• Fachkenntnisse aufbauen
• Problembewusstsein stärken
• Master Data Management
• Corporate Data Definition
• Verwendung von Referenzdaten
• Regelmäßige Prüfung mit „externen“
  Programmen
• Beim Beladen des Data Warehouse
                                       www.datenfabrik.com
Rufnummern


                     0228902990


  Rufnummer inkl. Vorwahl




                                  www.datenfabrik.com
Rufnummern


                      0228 902990


                             Teilnehmerrufnummer
   Ortsnetzkennzahl




                                              www.datenfabrik.com
Rufnummern
Verkehrsausscheidungsziffer




                         0 228 902990


                                 Teilnehmerrufnummer
         Ortsnetzkennzahl




                                                  www.datenfabrik.com
Rufnummern
Verkehrsausscheidungsziffer
                                             Durchwahl



                         0 228 90299 0


                                  Teilnehmerrufnummer
         Ortsnetzkennzahl




                                                   www.datenfabrik.com
Rufnummern
 Internationale
 Verkehrsausscheidungsziffer                           Durchwahl



                         00 49 228 90299 0


Internationale Vorwahl                      Teilnehmerrufnummer

                         Ortsnetzkennzahl




                                                             www.datenfabrik.com
Rufnummern
 Internationale
 Verkehrsausscheidungsziffer                           Durchwahl



                          + 49 228 90299 0


Internationale Vorwahl                      Teilnehmerrufnummer

                         Ortsnetzkennzahl




                                                             www.datenfabrik.com
Rufnummern
- Max. Rufnummernlänge 15 Stellen im Internationalen
  Verkehr
- 5 verschiedene Schreibweisen in der DACH-Region
  -   +49 30 12345-67
  -   +49 30 1234567
  -   +49 (30) 1234567
  -   +49-30-1234567
  -   +49 (0)30 12345-67
- Zuständigkeit in Deutschland liegt bei der
  Bundesnetzagentur
- Ortsnetzkennzahlen werden im Nummerierungsplan
  festgehalten
- Private Nummerierungspläne, Sonderrufnummern, ITU
                                            www.datenfabrik.com
5 DQ Prozesse


            Monitoring       Profiling




        Enrichment               Validation



                     Cleansing




                                              www.datenfabrik.com
Profiling
                                       • Wie sehen meine
                                         Daten aus?
     Monitoring      Profiling
                                       • Welche Datentypen
                                         sind enthalten?
                                       • Welches Format haben
 Enrichment               Validation
                                         die Daten?
                                       • Gibt es NULL-Werte?
              Cleansing
                                       • Existieren Abhängig-
                                         keiten untereinander?

                                                     www.datenfabrik.com
Validation
                                       • Prüfung von Datentypen
                                         und Formaten
                                       • Syntaktische und
     Monitoring       Profiling
                                         semantische Prüfung
                                         aller relevanten Daten
 Enrichment               Validation   • Prüfung auf
                                         Vollständigkeit
                                         (ggf. auch
              Cleansing
                                         mehrdimensional)
                                       • Prüfung auf Dubletten

                                                     www.datenfabrik.com
Cleansing
                                       • Normierung von Daten
                                         (z.B. Telefonnummern,
                                         Straße + Hausnummer)
     Monitoring      Profiling
                                       • Bereinigung der Daten
                                       • Verschmelzung von
 Enrichment               Validation
                                         Dubletten

              Cleansing




                                                     www.datenfabrik.com
Enrichment
                                       • Ergänzen der
                                         bestehenden Daten
                                         mit zusätzlichen (meist
     Monitoring       Profiling
                                         externen)
                                         Informationen
 Enrichment               Validation      – Geokoordinaten
                                          – Soziodemographische
                                            Daten
              Cleansing
                                          – Microsoft Dallas


                                                      www.datenfabrik.com
Monitoring
                                       • Durchgehende
                                         Prüfung und Messung
                                         relevanter Regeln und
    Monitoring        Profiling
                                         Ergebnisse aus den
                                         Prozessen Profiling und
 Enrichment               Validation     Validation

              Cleansing




                                                      www.datenfabrik.com
Microsoft Boardmittel
•   Character Map
•   Data Converter
•   Data Profiling Task
•   Lookup Task
•   Derived Column
•   Fuzzy Grouping
•   Fuzzy Lookup
•   Script Component

                          www.datenfabrik.com
Data Profiling Task
• Hilft Entwicklern, sich mit Datenquellen
  vertraut zu machen
• Erstellt verschiedene Profile pro Spalte
• Daten müssen im SQL Server vorliegen
• Profil wird als XML Datei gespeichert
• ProfileToSQL Styleheets
http://www.tf-informatik.dk/FreeStuff/ProfileToSQL/index.php



                                                    www.datenfabrik.com
Demo




Data Profiling



                 www.datenfabrik.com
Lookup Task
•   Führt Suchvorgänge in einem Verweisdataset durch
•   Setzt Referenzen
•   Anreicherung von Daten
•   Ermöglicht auch das erstellen von Business Regeln
    (Attributabhängigkeiten)
        WENN Hersteller = „Vita Kraft“
        UND Produkt = „Stroh“
        DANN Verpackungseinheit = „Liter“
        WENN Kategorie = „Fernseher“
        (UND Unterkategorie = „Plasma“)
        DANN ProduktPreis > 100

                                               www.datenfabrik.com
Demo




Erkennen von Fehlern innerhalb von
Attributsabhängikeiten

                                     www.datenfabrik.com
Data Conversion
• Konvertiert Daten in einen anderen
  Datentyp
• Konvertierte Daten werden in eine
  Ausgabespalte kopiert
• Mehrere Konvertierungen für eine Spalte

 Replacing Data Conversion Component for SSIS
   Todd McDermid - Codeplex

                                      www.datenfabrik.com
Derived Column
• Ermöglicht das Erstellen von Regeln
• Hilft bei der Bereinigung von Daten
• SSIS Expressions
  – Bedingungen (BOOL ? True : False)
  – String-Funktionen
  – Datums-Funktionen
  – Mathematische Operatoren


                                        www.datenfabrik.com
Fuzzy Suche
• Fuzzy Lookup
  – Führt Suchvorgänge in einem Verweisdataset
    durch
  – Suche über Ähnlichkeiten
• Fuzzy Grouping
  – Sucht innerhalb des Eingabedatenstroms
  – Suche über Ähnlichkeiten



                                       www.datenfabrik.com
Demo




       www.datenfabrik.com
Script Component
• Ausführung von VB.NET/C# Code
• Verwendung als Quelle, Transformation
  oder Ziel
• Verwendung bei
  – erweiterten .NET Funktionen, z.B. regulären
    Ausdrücken
  – komplexen Algorithmen



                                         www.datenfabrik.com
Demo




RegEx und Pattern mit der Script Komponente

                                        www.datenfabrik.com
Community Components
•   Data Validation Transform
•   RegexClean
•   Regular Expression Transform
•   RegExtractor SSIS Component
•   CCNValidator
•   MapPoint Batch Geocoder
    (SQL Server CLR Function for Address Correction and Geocoding)




                                                          www.datenfabrik.com
RegexClean
• Community Component von Darren Green
  (SQLIS.com)
• Match Expression - extrahiert Daten anhand
  eines regulären Ausdrucks
• Replace Expression - überführt Daten mit
  Hilfe eines regulären Ausdrucks



                                    www.datenfabrik.com
Regular Expression Transform
• Community Component von Darren Green
  (SQLIS.com)
• Validiert Daten anhand eines regulären
  Ausdrucks
• Komponente enthält zwei Ausgaben
  (Matched/Non-Matched)



                                 www.datenfabrik.com
Demo




Reguläre Ausdrücke mit den Integration Services

                                         www.datenfabrik.com
CCNValidator
• Codeplex-Projekt
• Komponente zum Prüfen von
  Kreditkartennummern
• Verwendung des Luhn-Algorithmus
• Ausgabedatenstrom wird automatisch um
  eine Validierung ergänzt
• Prüfung sagt nur aus, ob die Nummer
  richtig sein könnte
                                 www.datenfabrik.com
Demo




Kreditkartenvalidierung

                          www.datenfabrik.com
Third-party Components
•   datenfabrik GmbH & Co. KG
•   Pragmatic Works
•   CozyRoc
•   Intelligent Search Technologies
•   AMB Dataminers
•   Melissa Data
•   DQ Components

                                      www.datenfabrik.com
datenfabrik.dedupe
• Dublettensuche für die Integration Services
• Sehr granulare Einstellungen möglich
• Prüfung auf vertauschte Spalten möglich
• Prüfung auf vertauschte Doppelnamen möglich
• Normalisierung/Standardisierung spezieller
  Werte
• Sehr hohe Performance (ca. 15 Mio.
  Datensätze pro Stunde)

                                    www.datenfabrik.com
datenfabrik.address
• Komponente zur postalischen Korrektur
• Referenzdaten für über 240 Länder
• Normierung von Adressdaten
• Zerlegung von Adressdaten
• Umbenennung anhand historischer
  Informationen
• Geokodierung von Adressdaten

                                   www.datenfabrik.com
Demo




Dubletten erkennen und verschmelzen

                                  www.datenfabrik.com
datenfabrik.profiler
• Profiling direkt im Datenfluss
   Datenquellen „unabhängig“
• Alarmfunktion auf einzelnen Ergebnissen
  pro Spalte
• Umfangreiches Regelwerk
• Erweiterung der Statistiken mit SSRS



                                   www.datenfabrik.com
Demo




Kundendaten bereinigen

                         www.datenfabrik.com
Weitere Komponenten
• datenfabrik.merge
  Zusammenführen doppelter Datensätze auf einen Golden Record
• datenfabrik.email
  Korrektur von Email-Adressen
• datenfabrik.deletix
  Löscht Dubletten nach verschiedenen Prioritätsinformationen und
  erstellt Löschprotokolle
• datenfabirk.gender
  Ermittelt die korrekte Anrede anhand des Vornamens für
  unterschiedliche Länder
• datenfabrik.currency
  Rechnet Beträge in verschiedene Währungen mit aktuellen und
  historischen Daten um.
• datenfabrik.phone
  Korrektur und Anreicherung von Telefondaten



                                                         www.datenfabrik.com
Fragen?
          www.datenfabrik.com
Links
•   Deutsche Gesellschaft für Informations- und Datenqualität
    http://www.dgiq.de

•   Data Profiling im SQL Server 2008, Martin Kopp
    http://www.sqlpass.de/Mitgliedsbereich/Repository/tabid/73/DMXModule/696/Command/Core_Downl
    oad/Default.aspx?EntryId=116

•   SQLIS.com – RegexClean, Regular Expression Transform
    http://www.sqlis.com

•   CCNValidator
    http://ccnv05.codeplex.com/

•   Microsoft SQL Server Integration Services Product Samples
    http://msftisprodsamples.codeplex.com/

•   SSIS Community Tasks and Components
    http://ssisctc.codeplex.com/

•   SSIS-Components.net
    http://www.ssis-components.net




                                                                             www.datenfabrik.com
DANKE!
         www.datenfabrik.com

Weitere ähnliche Inhalte

Andere mochten auch

Introduction of ssis
Introduction of ssisIntroduction of ssis
Introduction of ssis
deepakk073
 
Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stack
Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI StackNeues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stack
Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stack
inovex GmbH
 
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes KunzeSEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
takevalue Consulting GmbH
 
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
Marcel Franke
 
Zeit für migration auf SAP HANA
Zeit für migration auf SAP HANAZeit für migration auf SAP HANA
Zeit für migration auf SAP HANA
BCC_Group
 
CORPORATE SOCIAL RESPONSIBILITY
CORPORATE SOCIAL RESPONSIBILITYCORPORATE SOCIAL RESPONSIBILITY
CORPORATE SOCIAL RESPONSIBILITY
RobbySahoo
 

Andere mochten auch (6)

Introduction of ssis
Introduction of ssisIntroduction of ssis
Introduction of ssis
 
Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stack
Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI StackNeues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stack
Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stack
 
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes KunzeSEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
 
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
 
Zeit für migration auf SAP HANA
Zeit für migration auf SAP HANAZeit für migration auf SAP HANA
Zeit für migration auf SAP HANA
 
CORPORATE SOCIAL RESPONSIBILITY
CORPORATE SOCIAL RESPONSIBILITYCORPORATE SOCIAL RESPONSIBILITY
CORPORATE SOCIAL RESPONSIBILITY
 

Ähnlich wie Datenqualität mit den SQL Server Integration Services

worldiety GmbH - Prozessdigitalisierung 2.0
worldiety GmbH - Prozessdigitalisierung 2.0worldiety GmbH - Prozessdigitalisierung 2.0
worldiety GmbH - Prozessdigitalisierung 2.0
worldiety GmbH
 
BATbern52 InnoQ on Data Mesh 2019 2023 2024++
BATbern52 InnoQ on Data Mesh 2019 2023 2024++BATbern52 InnoQ on Data Mesh 2019 2023 2024++
BATbern52 InnoQ on Data Mesh 2019 2023 2024++
BATbern
 
badenIT und psiori - Big Data Services | TDWI Schweiz 2017
badenIT und psiori - Big Data Services | TDWI Schweiz 2017badenIT und psiori - Big Data Services | TDWI Schweiz 2017
badenIT und psiori - Big Data Services | TDWI Schweiz 2017
Robert Joseph
 
Data Stewardship: Erkundung des Prozesses jenseits von Data Governance
Data Stewardship: Erkundung des Prozesses jenseits von Data GovernanceData Stewardship: Erkundung des Prozesses jenseits von Data Governance
Data Stewardship: Erkundung des Prozesses jenseits von Data Governance
Precisely
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und Knacknüsse
BATbern
 
DEPAROM 1. Vertriebspartnertreffen, Bundesdruckerei (2006)
DEPAROM 1. Vertriebspartnertreffen, Bundesdruckerei (2006)DEPAROM 1. Vertriebspartnertreffen, Bundesdruckerei (2006)
DEPAROM 1. Vertriebspartnertreffen, Bundesdruckerei (2006)
Moving Targets Consulting GmbH
 
Kritische app performance erfolgreich optimieren mit Bison
Kritische app performance erfolgreich optimieren mit BisonKritische app performance erfolgreich optimieren mit Bison
Kritische app performance erfolgreich optimieren mit Bison
Dynatrace
 
DQM bei Ihnen
DQM bei IhnenDQM bei Ihnen
DQM bei Ihnen
Michael Küsters
 
Cloudbasierte Dienstleistungen in ihrem Unternehmen by Mario Meir-Huber
Cloudbasierte Dienstleistungen in ihrem Unternehmen by Mario Meir-HuberCloudbasierte Dienstleistungen in ihrem Unternehmen by Mario Meir-Huber
Cloudbasierte Dienstleistungen in ihrem Unternehmen by Mario Meir-Huber
Medien Meeting Mannheim
 
Michael Sifkovits, MSc, MAS (multiply)
Michael Sifkovits, MSc, MAS (multiply)Michael Sifkovits, MSc, MAS (multiply)
Michael Sifkovits, MSc, MAS (multiply)
Praxistage
 
Bestmögliche Absicherung für Ihre Remote-Mitarbeiter
Bestmögliche Absicherung für Ihre Remote-MitarbeiterBestmögliche Absicherung für Ihre Remote-Mitarbeiter
Bestmögliche Absicherung für Ihre Remote-Mitarbeiter
Precisely
 
Google Analytics Konferenz 2016: Google Analytics Premium im Überblick (Micha...
Google Analytics Konferenz 2016: Google Analytics Premium im Überblick (Micha...Google Analytics Konferenz 2016: Google Analytics Premium im Überblick (Micha...
Google Analytics Konferenz 2016: Google Analytics Premium im Überblick (Micha...
e-dialog GmbH
 
dataroomX: Wie finde ich den richtigen Datenraum-Anbieter?
dataroomX: Wie finde ich den richtigen Datenraum-Anbieter?dataroomX: Wie finde ich den richtigen Datenraum-Anbieter?
dataroomX: Wie finde ich den richtigen Datenraum-Anbieter?
Thomas Stiren
 
Wertstromanalyse 4.0 –Startpunkt und Roadmap zur Smart Factory
Wertstromanalyse 4.0 –Startpunkt und Roadmap zur Smart FactoryWertstromanalyse 4.0 –Startpunkt und Roadmap zur Smart Factory
Wertstromanalyse 4.0 –Startpunkt und Roadmap zur Smart Factory
Lean Knowledge Base UG
 
SMART SUPPORT / BPM Veranstaltung Berlin 2009 10 15 - BPM
SMART SUPPORT / BPM Veranstaltung Berlin 2009 10 15 - BPMSMART SUPPORT / BPM Veranstaltung Berlin 2009 10 15 - BPM
SMART SUPPORT / BPM Veranstaltung Berlin 2009 10 15 - BPM
NETFOX AG
 
SaaS – Risiko oder Chance für Softwareanbieter?
SaaS – Risiko oder Chance für Softwareanbieter?SaaS – Risiko oder Chance für Softwareanbieter?
SaaS – Risiko oder Chance für Softwareanbieter?
Uniserv
 
C4 Lotusday2008 Distance Leading
C4 Lotusday2008 Distance LeadingC4 Lotusday2008 Distance Leading
C4 Lotusday2008 Distance Leading
Andreas Schulte
 
Folien2 spss watson roadshow_predictive
Folien2 spss watson roadshow_predictiveFolien2 spss watson roadshow_predictive
Folien2 spss watson roadshow_predictive
Clara Ogwuazor Mbamalu
 
Innovation in der Instandhaltung - Motor für die Zukunft
Innovation in der Instandhaltung - Motor für die ZukunftInnovation in der Instandhaltung - Motor für die Zukunft
Innovation in der Instandhaltung - Motor für die Zukunft
Salzburg Research Forschungsgesellschaft mbH
 

Ähnlich wie Datenqualität mit den SQL Server Integration Services (20)

worldiety GmbH - Prozessdigitalisierung 2.0
worldiety GmbH - Prozessdigitalisierung 2.0worldiety GmbH - Prozessdigitalisierung 2.0
worldiety GmbH - Prozessdigitalisierung 2.0
 
BATbern52 InnoQ on Data Mesh 2019 2023 2024++
BATbern52 InnoQ on Data Mesh 2019 2023 2024++BATbern52 InnoQ on Data Mesh 2019 2023 2024++
BATbern52 InnoQ on Data Mesh 2019 2023 2024++
 
badenIT und psiori - Big Data Services | TDWI Schweiz 2017
badenIT und psiori - Big Data Services | TDWI Schweiz 2017badenIT und psiori - Big Data Services | TDWI Schweiz 2017
badenIT und psiori - Big Data Services | TDWI Schweiz 2017
 
Data Stewardship: Erkundung des Prozesses jenseits von Data Governance
Data Stewardship: Erkundung des Prozesses jenseits von Data GovernanceData Stewardship: Erkundung des Prozesses jenseits von Data Governance
Data Stewardship: Erkundung des Prozesses jenseits von Data Governance
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und Knacknüsse
 
DEPAROM 1. Vertriebspartnertreffen, Bundesdruckerei (2006)
DEPAROM 1. Vertriebspartnertreffen, Bundesdruckerei (2006)DEPAROM 1. Vertriebspartnertreffen, Bundesdruckerei (2006)
DEPAROM 1. Vertriebspartnertreffen, Bundesdruckerei (2006)
 
Kritische app performance erfolgreich optimieren mit Bison
Kritische app performance erfolgreich optimieren mit BisonKritische app performance erfolgreich optimieren mit Bison
Kritische app performance erfolgreich optimieren mit Bison
 
DQM bei Ihnen
DQM bei IhnenDQM bei Ihnen
DQM bei Ihnen
 
Cloudbasierte Dienstleistungen in ihrem Unternehmen by Mario Meir-Huber
Cloudbasierte Dienstleistungen in ihrem Unternehmen by Mario Meir-HuberCloudbasierte Dienstleistungen in ihrem Unternehmen by Mario Meir-Huber
Cloudbasierte Dienstleistungen in ihrem Unternehmen by Mario Meir-Huber
 
Michael Sifkovits, MSc, MAS (multiply)
Michael Sifkovits, MSc, MAS (multiply)Michael Sifkovits, MSc, MAS (multiply)
Michael Sifkovits, MSc, MAS (multiply)
 
Bestmögliche Absicherung für Ihre Remote-Mitarbeiter
Bestmögliche Absicherung für Ihre Remote-MitarbeiterBestmögliche Absicherung für Ihre Remote-Mitarbeiter
Bestmögliche Absicherung für Ihre Remote-Mitarbeiter
 
Google Analytics Konferenz 2016: Google Analytics Premium im Überblick (Micha...
Google Analytics Konferenz 2016: Google Analytics Premium im Überblick (Micha...Google Analytics Konferenz 2016: Google Analytics Premium im Überblick (Micha...
Google Analytics Konferenz 2016: Google Analytics Premium im Überblick (Micha...
 
dataroomX: Wie finde ich den richtigen Datenraum-Anbieter?
dataroomX: Wie finde ich den richtigen Datenraum-Anbieter?dataroomX: Wie finde ich den richtigen Datenraum-Anbieter?
dataroomX: Wie finde ich den richtigen Datenraum-Anbieter?
 
Wertstromanalyse 4.0 –Startpunkt und Roadmap zur Smart Factory
Wertstromanalyse 4.0 –Startpunkt und Roadmap zur Smart FactoryWertstromanalyse 4.0 –Startpunkt und Roadmap zur Smart Factory
Wertstromanalyse 4.0 –Startpunkt und Roadmap zur Smart Factory
 
SMART SUPPORT / BPM Veranstaltung Berlin 2009 10 15 - BPM
SMART SUPPORT / BPM Veranstaltung Berlin 2009 10 15 - BPMSMART SUPPORT / BPM Veranstaltung Berlin 2009 10 15 - BPM
SMART SUPPORT / BPM Veranstaltung Berlin 2009 10 15 - BPM
 
SaaS – Risiko oder Chance für Softwareanbieter?
SaaS – Risiko oder Chance für Softwareanbieter?SaaS – Risiko oder Chance für Softwareanbieter?
SaaS – Risiko oder Chance für Softwareanbieter?
 
C4 Lotusday2008 Distance Leading
C4 Lotusday2008 Distance LeadingC4 Lotusday2008 Distance Leading
C4 Lotusday2008 Distance Leading
 
Cloud computing - Ein Betriebsmodell für die Verwaltung?
Cloud computing - Ein Betriebsmodell für die Verwaltung?Cloud computing - Ein Betriebsmodell für die Verwaltung?
Cloud computing - Ein Betriebsmodell für die Verwaltung?
 
Folien2 spss watson roadshow_predictive
Folien2 spss watson roadshow_predictiveFolien2 spss watson roadshow_predictive
Folien2 spss watson roadshow_predictive
 
Innovation in der Instandhaltung - Motor für die Zukunft
Innovation in der Instandhaltung - Motor für die ZukunftInnovation in der Instandhaltung - Motor für die Zukunft
Innovation in der Instandhaltung - Motor für die Zukunft
 

Datenqualität mit den SQL Server Integration Services

  • 1. Datenqualität mit den SQL Server Integration Services www.datenfabrik.com
  • 2. datenfabrik GmbH & Co. KG • Versandhandel und Direktmarketing • Internationale Datenverarbeitung in über 10 europäischen Ländern – Listbroking – Datenbereinigung – „Daten-Hosting“ – Datenmigration • Softwareentwicklung im Bereich Data Quality www.datenfabrik.com
  • 3. Tillmann Eitelberg - Prokurist datenfabrik GmbH & Co. KG - Lehrbeauftragter an der Uni Bonn - RGV KölnBonnDüsseldorf - Regional Director PASS Deutschland - Regional Mentor PASS Deutschland - Blog: www.ssis-components.net - Codeplex Projekte - ShapeFileSource - ImageSource - SMSTask - ReportGeneratorTask - GoogleAnalyticsSource www.datenfabrik.com
  • 4. Agenda • Was ist Datenqualität? • Ursachen schlechter Datenqualität • Auswirkungen schlechter Datenqualität • Gesetzliche Anforderungen • 5 DQ Prozesse • Microsoft Boardmittel • Community Components • Third Party Components www.datenfabrik.com
  • 5. Was ist Datenqualität? „Ein (mehrdimensionales) Maß für die Eignung von Daten, den an ihre Erfassung/Generierung gebundenen Zweck zu erfüllen.“ Dr. Volker Würthele www.datenfabrik.com
  • 6. Was ist Datenqualität? „Quality is when your customer returns, not your product. “ www.datenfabrik.com
  • 7. Was ist Datenqualität? www.datenfabrik.com
  • 8. Was ist Datenqualität? • Datenqualität ist subjektiv • Anwendungsbezogen • Domänenspezifisch • Mehrdimensional www.datenfabrik.com
  • 9. Was ist Datenqualität (nicht)? 49716 Unterschleißheim 3,0 m x 3,0 m Frottee Stoffhase (blau) Herr Max Mustermann Bester Kunde 2010 = www.datenfabrik.com
  • 10. Ursachen schlechter Datenqualität • Unterschiedliche Datenformate • Datenverfall • (Neue) Datenverwendung • Inkonsistente Datendefinition www.datenfabrik.com
  • 11. Ursachen schlechter Datenqualität • Architektur • Systemaktualisierungen • (Prozess-) Automatisierungen • Datenkonvertierungen • Systemkonsolidierung • Fehlende Änderungsverfolgung www.datenfabrik.com
  • 12. Ursachen schlechter Datenqualität • Bedienungs- und Benutzerfehler • Manuelle Dateneingabe • Verschiedene Datenverarbeitungsprozesse • Mangelhaftes User Interface • User Experience www.datenfabrik.com
  • 13. Ursachen schlechter Datenqualität • Verlust von Fachkenntnissen • Fehlendes Problembewusstsein • Falsche Motivationsmethodik www.datenfabrik.com
  • 14. Ursachen schlechter Datenqualität 40 35 30 25 20 15 10 5 0 www.datenfabrik.com
  • 15. Auswirkungen schlechter Datenqualität • Kosten!!! – Direkte Kosten • Nachweiskosten • Wiedereingabekosten – Indirekte Kosten • Umsatzeinbußen • Fehlentscheidungen • Imageverlust • Werbekosten • Betrugsversuch www.datenfabrik.com
  • 16. Auswirkungen schlechter Datenqualität • Ausschuss und Nacharbeit durch falsch justierte Maschinen • Rückrufaktionen aufgrund von Produktionsmängeln • Projektmisstrauen • Geldstrafen • Sinkende Mitarbeitermotivation www.datenfabrik.com
  • 17. Auswirkungen schlechter Datenqualität Zustellung 5% = 25.000 3% = 15.000 40.000 500.000 3% Dubletten Kunden 0,45 € = 18.000 € 0,55 € = 22.000 € 40.000 € X2 = 80.000 € www.datenfabrik.com
  • 18. Auswirkungen schlechter Datenqualität Zustellung 5% = 2.000 3% = 1.200 3.200 40.000 3% Dubletten Kunden 0,45 € = 1.440 € 0,55 € = 1.760 € 3.200 € X2 = 6.400 € www.datenfabrik.com
  • 19. Gesetzliche Anforderungen • Gesetzliche und behördliche Anforderungen nehmen zu • Nachweispflicht setzt eine einwandfreie Datenqualität voraus • Einhaltung nationaler und internationaler Gesetze und Richtlinien (Antiterrorlisten, Robinsonliste) • Bekannte Compliance-Maßnahmen – International Financial Reporting Standards (IFRS) – Sarbanes-Oxley Act (SOX) – Basel II – REACH – International Material Data Systems (IMDS) www.datenfabrik.com
  • 20. Geschäftstreiber laut Gartner Folge eines signifikanten Schadenfalls durch schlechte Datenqualität Antwort auf Datenqualitätsinitiativen bei Wettbewerbern Stärkung des Vertrauens in die eigene Datenbasis Unterstützung von Business.Intelligence oder Data- Warehouse-Initiativen Unterstützung von CRM-Initiativen Verbesserung der Anwenderakzeptanz der wichtigsten Applikationssysteme Unterstützung von Compliance-Aktivitäten 0 10 20 30 40 50 60 70 www.datenfabrik.com
  • 21. Datenqualität steigern • Bei der Dateneingabe • Fachkenntnisse aufbauen • Problembewusstsein stärken • Master Data Management • Corporate Data Definition • Verwendung von Referenzdaten • Regelmäßige Prüfung mit „externen“ Programmen • Beim Beladen des Data Warehouse www.datenfabrik.com
  • 22. Rufnummern 0228902990 Rufnummer inkl. Vorwahl www.datenfabrik.com
  • 23. Rufnummern 0228 902990 Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  • 24. Rufnummern Verkehrsausscheidungsziffer 0 228 902990 Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  • 25. Rufnummern Verkehrsausscheidungsziffer Durchwahl 0 228 90299 0 Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  • 26. Rufnummern Internationale Verkehrsausscheidungsziffer Durchwahl 00 49 228 90299 0 Internationale Vorwahl Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  • 27. Rufnummern Internationale Verkehrsausscheidungsziffer Durchwahl + 49 228 90299 0 Internationale Vorwahl Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  • 28. Rufnummern - Max. Rufnummernlänge 15 Stellen im Internationalen Verkehr - 5 verschiedene Schreibweisen in der DACH-Region - +49 30 12345-67 - +49 30 1234567 - +49 (30) 1234567 - +49-30-1234567 - +49 (0)30 12345-67 - Zuständigkeit in Deutschland liegt bei der Bundesnetzagentur - Ortsnetzkennzahlen werden im Nummerierungsplan festgehalten - Private Nummerierungspläne, Sonderrufnummern, ITU www.datenfabrik.com
  • 29. 5 DQ Prozesse Monitoring Profiling Enrichment Validation Cleansing www.datenfabrik.com
  • 30. Profiling • Wie sehen meine Daten aus? Monitoring Profiling • Welche Datentypen sind enthalten? • Welches Format haben Enrichment Validation die Daten? • Gibt es NULL-Werte? Cleansing • Existieren Abhängig- keiten untereinander? www.datenfabrik.com
  • 31. Validation • Prüfung von Datentypen und Formaten • Syntaktische und Monitoring Profiling semantische Prüfung aller relevanten Daten Enrichment Validation • Prüfung auf Vollständigkeit (ggf. auch Cleansing mehrdimensional) • Prüfung auf Dubletten www.datenfabrik.com
  • 32. Cleansing • Normierung von Daten (z.B. Telefonnummern, Straße + Hausnummer) Monitoring Profiling • Bereinigung der Daten • Verschmelzung von Enrichment Validation Dubletten Cleansing www.datenfabrik.com
  • 33. Enrichment • Ergänzen der bestehenden Daten mit zusätzlichen (meist Monitoring Profiling externen) Informationen Enrichment Validation – Geokoordinaten – Soziodemographische Daten Cleansing – Microsoft Dallas www.datenfabrik.com
  • 34. Monitoring • Durchgehende Prüfung und Messung relevanter Regeln und Monitoring Profiling Ergebnisse aus den Prozessen Profiling und Enrichment Validation Validation Cleansing www.datenfabrik.com
  • 35. Microsoft Boardmittel • Character Map • Data Converter • Data Profiling Task • Lookup Task • Derived Column • Fuzzy Grouping • Fuzzy Lookup • Script Component www.datenfabrik.com
  • 36. Data Profiling Task • Hilft Entwicklern, sich mit Datenquellen vertraut zu machen • Erstellt verschiedene Profile pro Spalte • Daten müssen im SQL Server vorliegen • Profil wird als XML Datei gespeichert • ProfileToSQL Styleheets http://www.tf-informatik.dk/FreeStuff/ProfileToSQL/index.php www.datenfabrik.com
  • 37. Demo Data Profiling www.datenfabrik.com
  • 38. Lookup Task • Führt Suchvorgänge in einem Verweisdataset durch • Setzt Referenzen • Anreicherung von Daten • Ermöglicht auch das erstellen von Business Regeln (Attributabhängigkeiten) WENN Hersteller = „Vita Kraft“ UND Produkt = „Stroh“ DANN Verpackungseinheit = „Liter“ WENN Kategorie = „Fernseher“ (UND Unterkategorie = „Plasma“) DANN ProduktPreis > 100 www.datenfabrik.com
  • 39. Demo Erkennen von Fehlern innerhalb von Attributsabhängikeiten www.datenfabrik.com
  • 40. Data Conversion • Konvertiert Daten in einen anderen Datentyp • Konvertierte Daten werden in eine Ausgabespalte kopiert • Mehrere Konvertierungen für eine Spalte  Replacing Data Conversion Component for SSIS Todd McDermid - Codeplex www.datenfabrik.com
  • 41. Derived Column • Ermöglicht das Erstellen von Regeln • Hilft bei der Bereinigung von Daten • SSIS Expressions – Bedingungen (BOOL ? True : False) – String-Funktionen – Datums-Funktionen – Mathematische Operatoren www.datenfabrik.com
  • 42. Fuzzy Suche • Fuzzy Lookup – Führt Suchvorgänge in einem Verweisdataset durch – Suche über Ähnlichkeiten • Fuzzy Grouping – Sucht innerhalb des Eingabedatenstroms – Suche über Ähnlichkeiten www.datenfabrik.com
  • 43. Demo www.datenfabrik.com
  • 44. Script Component • Ausführung von VB.NET/C# Code • Verwendung als Quelle, Transformation oder Ziel • Verwendung bei – erweiterten .NET Funktionen, z.B. regulären Ausdrücken – komplexen Algorithmen www.datenfabrik.com
  • 45. Demo RegEx und Pattern mit der Script Komponente www.datenfabrik.com
  • 46. Community Components • Data Validation Transform • RegexClean • Regular Expression Transform • RegExtractor SSIS Component • CCNValidator • MapPoint Batch Geocoder (SQL Server CLR Function for Address Correction and Geocoding) www.datenfabrik.com
  • 47. RegexClean • Community Component von Darren Green (SQLIS.com) • Match Expression - extrahiert Daten anhand eines regulären Ausdrucks • Replace Expression - überführt Daten mit Hilfe eines regulären Ausdrucks www.datenfabrik.com
  • 48. Regular Expression Transform • Community Component von Darren Green (SQLIS.com) • Validiert Daten anhand eines regulären Ausdrucks • Komponente enthält zwei Ausgaben (Matched/Non-Matched) www.datenfabrik.com
  • 49. Demo Reguläre Ausdrücke mit den Integration Services www.datenfabrik.com
  • 50. CCNValidator • Codeplex-Projekt • Komponente zum Prüfen von Kreditkartennummern • Verwendung des Luhn-Algorithmus • Ausgabedatenstrom wird automatisch um eine Validierung ergänzt • Prüfung sagt nur aus, ob die Nummer richtig sein könnte www.datenfabrik.com
  • 51. Demo Kreditkartenvalidierung www.datenfabrik.com
  • 52. Third-party Components • datenfabrik GmbH & Co. KG • Pragmatic Works • CozyRoc • Intelligent Search Technologies • AMB Dataminers • Melissa Data • DQ Components www.datenfabrik.com
  • 53. datenfabrik.dedupe • Dublettensuche für die Integration Services • Sehr granulare Einstellungen möglich • Prüfung auf vertauschte Spalten möglich • Prüfung auf vertauschte Doppelnamen möglich • Normalisierung/Standardisierung spezieller Werte • Sehr hohe Performance (ca. 15 Mio. Datensätze pro Stunde) www.datenfabrik.com
  • 54. datenfabrik.address • Komponente zur postalischen Korrektur • Referenzdaten für über 240 Länder • Normierung von Adressdaten • Zerlegung von Adressdaten • Umbenennung anhand historischer Informationen • Geokodierung von Adressdaten www.datenfabrik.com
  • 55. Demo Dubletten erkennen und verschmelzen www.datenfabrik.com
  • 56. datenfabrik.profiler • Profiling direkt im Datenfluss  Datenquellen „unabhängig“ • Alarmfunktion auf einzelnen Ergebnissen pro Spalte • Umfangreiches Regelwerk • Erweiterung der Statistiken mit SSRS www.datenfabrik.com
  • 57. Demo Kundendaten bereinigen www.datenfabrik.com
  • 58. Weitere Komponenten • datenfabrik.merge Zusammenführen doppelter Datensätze auf einen Golden Record • datenfabrik.email Korrektur von Email-Adressen • datenfabrik.deletix Löscht Dubletten nach verschiedenen Prioritätsinformationen und erstellt Löschprotokolle • datenfabirk.gender Ermittelt die korrekte Anrede anhand des Vornamens für unterschiedliche Länder • datenfabrik.currency Rechnet Beträge in verschiedene Währungen mit aktuellen und historischen Daten um. • datenfabrik.phone Korrektur und Anreicherung von Telefondaten www.datenfabrik.com
  • 59. Fragen? www.datenfabrik.com
  • 60. Links • Deutsche Gesellschaft für Informations- und Datenqualität http://www.dgiq.de • Data Profiling im SQL Server 2008, Martin Kopp http://www.sqlpass.de/Mitgliedsbereich/Repository/tabid/73/DMXModule/696/Command/Core_Downl oad/Default.aspx?EntryId=116 • SQLIS.com – RegexClean, Regular Expression Transform http://www.sqlis.com • CCNValidator http://ccnv05.codeplex.com/ • Microsoft SQL Server Integration Services Product Samples http://msftisprodsamples.codeplex.com/ • SSIS Community Tasks and Components http://ssisctc.codeplex.com/ • SSIS-Components.net http://www.ssis-components.net www.datenfabrik.com
  • 61. DANKE! www.datenfabrik.com