2. datenfabrik GmbH & Co. KG
• Versandhandel und Direktmarketing
• Internationale Datenverarbeitung in über 10
europäischen Ländern
– Listbroking
– Datenbereinigung
– „Daten-Hosting“
– Datenmigration
• Softwareentwicklung im Bereich Data Quality
www.datenfabrik.com
3. Tillmann Eitelberg
- Prokurist datenfabrik GmbH & Co. KG
- Lehrbeauftragter an der Uni Bonn
- RGV KölnBonnDüsseldorf
- Regional Director PASS Deutschland
- Regional Mentor PASS Deutschland
- Blog: www.ssis-components.net
- Codeplex Projekte
- ShapeFileSource
- ImageSource
- SMSTask
- ReportGeneratorTask
- GoogleAnalyticsSource
www.datenfabrik.com
4. Agenda
• Was ist Datenqualität?
• Ursachen schlechter Datenqualität
• Auswirkungen schlechter Datenqualität
• Gesetzliche Anforderungen
• 5 DQ Prozesse
• Microsoft Boardmittel
• Community Components
• Third Party Components
www.datenfabrik.com
5. Was ist Datenqualität?
„Ein (mehrdimensionales) Maß für
die Eignung von Daten, den an ihre
Erfassung/Generierung gebundenen
Zweck zu erfüllen.“
Dr. Volker Würthele
www.datenfabrik.com
6. Was ist Datenqualität?
„Quality is when your customer
returns, not your product. “
www.datenfabrik.com
8. Was ist Datenqualität?
• Datenqualität ist subjektiv
• Anwendungsbezogen
• Domänenspezifisch
• Mehrdimensional
www.datenfabrik.com
9. Was ist Datenqualität (nicht)?
49716
Unterschleißheim
3,0 m x 3,0 m
Frottee Stoffhase (blau)
Herr Max Mustermann
Bester Kunde 2010
=
www.datenfabrik.com
19. Gesetzliche Anforderungen
• Gesetzliche und behördliche Anforderungen nehmen zu
• Nachweispflicht setzt eine einwandfreie Datenqualität voraus
• Einhaltung nationaler und internationaler Gesetze und
Richtlinien (Antiterrorlisten, Robinsonliste)
• Bekannte Compliance-Maßnahmen
– International Financial Reporting Standards (IFRS)
– Sarbanes-Oxley Act (SOX)
– Basel II
– REACH
– International Material Data Systems (IMDS)
www.datenfabrik.com
20. Geschäftstreiber laut Gartner
Folge eines signifikanten Schadenfalls durch schlechte
Datenqualität
Antwort auf Datenqualitätsinitiativen bei Wettbewerbern
Stärkung des Vertrauens in die eigene Datenbasis
Unterstützung von Business.Intelligence oder Data-
Warehouse-Initiativen
Unterstützung von CRM-Initiativen
Verbesserung der Anwenderakzeptanz der wichtigsten
Applikationssysteme
Unterstützung von Compliance-Aktivitäten
0 10 20 30 40 50 60 70
www.datenfabrik.com
21. Datenqualität steigern
• Bei der Dateneingabe
• Fachkenntnisse aufbauen
• Problembewusstsein stärken
• Master Data Management
• Corporate Data Definition
• Verwendung von Referenzdaten
• Regelmäßige Prüfung mit „externen“
Programmen
• Beim Beladen des Data Warehouse
www.datenfabrik.com
28. Rufnummern
- Max. Rufnummernlänge 15 Stellen im Internationalen
Verkehr
- 5 verschiedene Schreibweisen in der DACH-Region
- +49 30 12345-67
- +49 30 1234567
- +49 (30) 1234567
- +49-30-1234567
- +49 (0)30 12345-67
- Zuständigkeit in Deutschland liegt bei der
Bundesnetzagentur
- Ortsnetzkennzahlen werden im Nummerierungsplan
festgehalten
- Private Nummerierungspläne, Sonderrufnummern, ITU
www.datenfabrik.com
30. Profiling
• Wie sehen meine
Daten aus?
Monitoring Profiling
• Welche Datentypen
sind enthalten?
• Welches Format haben
Enrichment Validation
die Daten?
• Gibt es NULL-Werte?
Cleansing
• Existieren Abhängig-
keiten untereinander?
www.datenfabrik.com
31. Validation
• Prüfung von Datentypen
und Formaten
• Syntaktische und
Monitoring Profiling
semantische Prüfung
aller relevanten Daten
Enrichment Validation • Prüfung auf
Vollständigkeit
(ggf. auch
Cleansing
mehrdimensional)
• Prüfung auf Dubletten
www.datenfabrik.com
32. Cleansing
• Normierung von Daten
(z.B. Telefonnummern,
Straße + Hausnummer)
Monitoring Profiling
• Bereinigung der Daten
• Verschmelzung von
Enrichment Validation
Dubletten
Cleansing
www.datenfabrik.com
33. Enrichment
• Ergänzen der
bestehenden Daten
mit zusätzlichen (meist
Monitoring Profiling
externen)
Informationen
Enrichment Validation – Geokoordinaten
– Soziodemographische
Daten
Cleansing
– Microsoft Dallas
www.datenfabrik.com
34. Monitoring
• Durchgehende
Prüfung und Messung
relevanter Regeln und
Monitoring Profiling
Ergebnisse aus den
Prozessen Profiling und
Enrichment Validation Validation
Cleansing
www.datenfabrik.com
35. Microsoft Boardmittel
• Character Map
• Data Converter
• Data Profiling Task
• Lookup Task
• Derived Column
• Fuzzy Grouping
• Fuzzy Lookup
• Script Component
www.datenfabrik.com
36. Data Profiling Task
• Hilft Entwicklern, sich mit Datenquellen
vertraut zu machen
• Erstellt verschiedene Profile pro Spalte
• Daten müssen im SQL Server vorliegen
• Profil wird als XML Datei gespeichert
• ProfileToSQL Styleheets
http://www.tf-informatik.dk/FreeStuff/ProfileToSQL/index.php
www.datenfabrik.com
38. Lookup Task
• Führt Suchvorgänge in einem Verweisdataset durch
• Setzt Referenzen
• Anreicherung von Daten
• Ermöglicht auch das erstellen von Business Regeln
(Attributabhängigkeiten)
WENN Hersteller = „Vita Kraft“
UND Produkt = „Stroh“
DANN Verpackungseinheit = „Liter“
WENN Kategorie = „Fernseher“
(UND Unterkategorie = „Plasma“)
DANN ProduktPreis > 100
www.datenfabrik.com
40. Data Conversion
• Konvertiert Daten in einen anderen
Datentyp
• Konvertierte Daten werden in eine
Ausgabespalte kopiert
• Mehrere Konvertierungen für eine Spalte
Replacing Data Conversion Component for SSIS
Todd McDermid - Codeplex
www.datenfabrik.com
41. Derived Column
• Ermöglicht das Erstellen von Regeln
• Hilft bei der Bereinigung von Daten
• SSIS Expressions
– Bedingungen (BOOL ? True : False)
– String-Funktionen
– Datums-Funktionen
– Mathematische Operatoren
www.datenfabrik.com
42. Fuzzy Suche
• Fuzzy Lookup
– Führt Suchvorgänge in einem Verweisdataset
durch
– Suche über Ähnlichkeiten
• Fuzzy Grouping
– Sucht innerhalb des Eingabedatenstroms
– Suche über Ähnlichkeiten
www.datenfabrik.com
44. Script Component
• Ausführung von VB.NET/C# Code
• Verwendung als Quelle, Transformation
oder Ziel
• Verwendung bei
– erweiterten .NET Funktionen, z.B. regulären
Ausdrücken
– komplexen Algorithmen
www.datenfabrik.com
46. Community Components
• Data Validation Transform
• RegexClean
• Regular Expression Transform
• RegExtractor SSIS Component
• CCNValidator
• MapPoint Batch Geocoder
(SQL Server CLR Function for Address Correction and Geocoding)
www.datenfabrik.com
47. RegexClean
• Community Component von Darren Green
(SQLIS.com)
• Match Expression - extrahiert Daten anhand
eines regulären Ausdrucks
• Replace Expression - überführt Daten mit
Hilfe eines regulären Ausdrucks
www.datenfabrik.com
48. Regular Expression Transform
• Community Component von Darren Green
(SQLIS.com)
• Validiert Daten anhand eines regulären
Ausdrucks
• Komponente enthält zwei Ausgaben
(Matched/Non-Matched)
www.datenfabrik.com
50. CCNValidator
• Codeplex-Projekt
• Komponente zum Prüfen von
Kreditkartennummern
• Verwendung des Luhn-Algorithmus
• Ausgabedatenstrom wird automatisch um
eine Validierung ergänzt
• Prüfung sagt nur aus, ob die Nummer
richtig sein könnte
www.datenfabrik.com
52. Third-party Components
• datenfabrik GmbH & Co. KG
• Pragmatic Works
• CozyRoc
• Intelligent Search Technologies
• AMB Dataminers
• Melissa Data
• DQ Components
www.datenfabrik.com
53. datenfabrik.dedupe
• Dublettensuche für die Integration Services
• Sehr granulare Einstellungen möglich
• Prüfung auf vertauschte Spalten möglich
• Prüfung auf vertauschte Doppelnamen möglich
• Normalisierung/Standardisierung spezieller
Werte
• Sehr hohe Performance (ca. 15 Mio.
Datensätze pro Stunde)
www.datenfabrik.com
54. datenfabrik.address
• Komponente zur postalischen Korrektur
• Referenzdaten für über 240 Länder
• Normierung von Adressdaten
• Zerlegung von Adressdaten
• Umbenennung anhand historischer
Informationen
• Geokodierung von Adressdaten
www.datenfabrik.com
56. datenfabrik.profiler
• Profiling direkt im Datenfluss
Datenquellen „unabhängig“
• Alarmfunktion auf einzelnen Ergebnissen
pro Spalte
• Umfangreiches Regelwerk
• Erweiterung der Statistiken mit SSRS
www.datenfabrik.com
58. Weitere Komponenten
• datenfabrik.merge
Zusammenführen doppelter Datensätze auf einen Golden Record
• datenfabrik.email
Korrektur von Email-Adressen
• datenfabrik.deletix
Löscht Dubletten nach verschiedenen Prioritätsinformationen und
erstellt Löschprotokolle
• datenfabirk.gender
Ermittelt die korrekte Anrede anhand des Vornamens für
unterschiedliche Länder
• datenfabrik.currency
Rechnet Beträge in verschiedene Währungen mit aktuellen und
historischen Daten um.
• datenfabrik.phone
Korrektur und Anreicherung von Telefondaten
www.datenfabrik.com
60. Links
• Deutsche Gesellschaft für Informations- und Datenqualität
http://www.dgiq.de
• Data Profiling im SQL Server 2008, Martin Kopp
http://www.sqlpass.de/Mitgliedsbereich/Repository/tabid/73/DMXModule/696/Command/Core_Downl
oad/Default.aspx?EntryId=116
• SQLIS.com – RegexClean, Regular Expression Transform
http://www.sqlis.com
• CCNValidator
http://ccnv05.codeplex.com/
• Microsoft SQL Server Integration Services Product Samples
http://msftisprodsamples.codeplex.com/
• SSIS Community Tasks and Components
http://ssisctc.codeplex.com/
• SSIS-Components.net
http://www.ssis-components.net
www.datenfabrik.com