Venez faire la connaissance du nouveau-né de la suite SQL Server : DQS. Vous serez surpris de voir tout ce qu’il peut faire : - Valider ou corriger des données selon des règles prédéfinies. - Valider ou corriger des données selon des référentiels. - Calculer le pourcentage de ressemblance entre données. - Dédoublonner les données en fonction de critères de ressemblance. - … et bien encore.
Migrer de 2003 à 2012 R2, adopter HyperV ou Microsoft Azure : comment réalise...
Qu’est-ce que la qualité des données et comment avoir des données de qualité ? DQS nous répond.
1. Donnez votre avis !
Depuis votre smartphone, sur :
http://notes.mstechdays.fr
De nombreux lots à gagner toutes les heures !!!
Claviers, souris et jeux Microsoft…
Merci de nous aider à améliorer les TechDays
http://notes.mstechdays.fr
2. Qu'est-ce que la qualité des
données
et comment avoir des données
de qualité ?
DQS nous répond
Mounia BOURDACHE
Consultante en BI
Microsoft France
Serveurs / Entreprise / Réseaux / IT
3. Chapitre 1
QU’EST CE QUE LA QUALITÉ DES
DONNÉES?
Data Quality Services
4. INTRODUCTION
Entreprise Exploite Information Fournissent Données
Data Quality Services
5. COÛT DE LA NON QUALITÉ DES DONNÉES
Les données causant disfonctionnement et surcout restent toujours trop nombreuses
(Coût moyen sur le CA des Entreprises: de 3 à 6%).
Le traitement des données et leur correction a toujours été un soucis important à gérer.
En 2011 et 2012 la qualité des données a été:
- 3e obstacle à la bonne gestion de l’information (après l’accès trop lent à des données sûres et la
mauvaise intégration des données)
- 1er obstacle à l’adoption de la BI au sein des Entreprises
- 1er facteur à l’origine de la mise en œuvre du MDM au sein des Entreprises.
Data Quality Services
6. QU’EST CE QUE DE MAUVAISES DONNÉES ?
Données erronées ou
Données en doublon
incohérentes
Data Quality Services
7. COMMENT EST MESURÉE LA QUALITÉ DES DONNÉES?
La qualité des données est mesurée en fonction de leur utilisation.
Mauvaises données et/ou Mauvaise connaissance de leur utilisation Mauvais Business
Data Quality Services
8. Chapitre 2
COMMENT AVOIR DES DONNÉES DE
QUALITÉ?
Data Quality Services
9. DATA QUALITY SERVICES : DQS
Data Quality Services (DQS) est une solution fondée sur les connaissances.
Elle permet aux professionnels de l'informatique et aux gestionnaires de
données d’améliorer facilement la qualité de leurs données
Des données de bonne qualité sont essentielles à une Business Intelligence efficace
DQS est un outil intégré à SQL Server 2012, dont les bases de connaissance peuvent
non seulement être générées mais aussi récupérées via des connecteurs à des tiers
fournisseurs hébergés sur Azure DataMarket.
Enrichir les bases de connaissances dans le cloud facilitera l’accès à des données de
haute qualité.
Data Quality Services
10. CONCEPT DE LA SOLUTION DQS
Basée sur une base de connaissance DQ
Fondée sur la connaissance Knowledge Base (DQKB) enrichissable et
réutilisable
Les Domaines capturent la
Sémantique
sémantique des données
Enrichit ses connaissances plus elle
Acquiert des connaissances est utilisée
Ajout de bases de connaissances générées
Ouverte et extensible et données référencées par des tiers
fournisseurs
Interface simple d’utilisation
Facile à utiliser
Data Quality Services
12. MODÉLISATION DQS
Nettoyage des données
Création (ou import) (Sources: BDD SQL / xls / csv)
des Bases de Via interface utilisateur
connaissance « DQS Client » ou composant SSIS.
Gestion des Domaines Standardisation et Détection des doublons
correction des données et statistiques des
Données de référence données
Administration des
règles de
dédoublonnage
Data Quality Services
13. COMPOSANTS DE LA SOLUTION DQS
Modifier, supprimer,
enrichir et normaliser Identifier, réunir ou
des données fusionner les entrées
inexactes ou connexes.
incomplètes. Nettoyage Dédoublo-
nnage
Profilage Contrôle
Analyser la source de Suivre et contrôler
données afin d’avoir l'état de la qualité
un aperçu de la des données.
qualité des données.
Data Quality Services
14. PROBLÈMES DE QUALITÉ DE DONNES LES
PLUS FRÉQUENTS
Standardisation Dans une source de données le genre est F, H.
Dans l’autre c’est Mr, Mme
Complétude Quel est le pourcentage des fiches Clients ne
contenant pas d’Email?
Validité Est-ce que tous mes codes postaux français hors
Corse et Outre-Mer contiennent 5 chiffres?
Cohérence Mes clients étudiants ont-ils bien moins de 26
ans? Donc peuvent bénéficier des réductions?
Unicité Ai-je bien une fiche Client par Client?
Data Quality Services
15. SOLUTIONS APPORTÉES PAR DQS
Civilité Nom Num Rue Nom Rue Code Postal Ville Date Naissance
Mr BERNIER Laurent 15 RUE DE LA PAIX Issy les Mx 01/05/1908
Nettoyage
M. BERINER Laurent RUE DE LA PAIE 92130 Saint cloud 01/05/1980
Civilité Nom Num Rue Nom Rue Code Postal Ville Date Naissance
Monsieur BERNIER Laurent 15 RUE DE LA PAIX 92130 Issy Les Moulineaux
Dédou- Monsieur BERINER Laurent RUE DE LA PAIX 92130 Issy Les Moulineaux 01/05/1980
blonnage
Civilité Nom Num Rue Nom Rue Code Postal Ville Date Naissance
Monsieur BERNIER Laurent 15 RUE DE LA PAIX 92130 Issy Les Moulineaux 01/05/1980
Data Quality Services
16. DQS PAR LE BIAIS DE SSIS
Utilisation du
moteur DQS au
sein même de
l’environnement
SSIS
Gestion de la
qualité des
données en
même temps que
le processus
d’intégration.
Data Quality Services
21. Client DQ Azure Datamarket
Clients
DQS interface Catégorisation des services Catégorisation des MS DQ
de données de référence données de références Domains Store
Découverte et
gestion des
bases de RD Services API Réference Data API Tiers
connaissances DQ Server (Parcourir, (Parcourir, ajouter, fournisseurs
paramétrer, Valider…) mettre à jour…)
Projets DQ
DQ Engine
Exploration Nettoygae
base de Découverte DB Profilage des
Référentiels
donnée connaissance données Dédoublonnage
Composant DQ
SSIS
MDS Excel Add in DQ Active
Domaine Domaines BDC
Projects MS locaux publiées
Composants Excel
& Dynamics
Data Quality Services
24. Développeurs Pros de l’IT
http://aka.ms/generation-app Formez-vous en ligne www.microsoftvirtualacademy.com
http://aka.ms/evenements-
developpeurs Retrouvez nos évènements http://aka.ms/itcamps-france
Les accélérateurs
Faites-vous accompagner
Windows Azure, Windows Phone,
gratuitement
Windows 8
Essayer gratuitement nos http://aka.ms/telechargements
solutions IT
La Dev’Team sur MSDN Retrouver nos experts L’IT Team sur TechNet
http://aka.ms/devteam Microsoft http://aka.ms/itteam
Hinweis der Redaktion
Toute Entreprise exploite de l’information pour fonctionner. Cette information se base sur des données. Comment les entreprises pourraient-elles fonctionner correctement si leurs données sont erronées ou incohérentes?
Les données représentent le patrimoine informationnel des entreprises. Pourtant, leur qualité fait rarement l’objet d’un processus industrialisé.Les Responsables Qualité de données évaluent leurs coûts de non qualité en production de 3 à 6% du chiffre d'affaire.
La qualitéd’unedonnéepeutêtredéfinie, mesurée, administrée à travers diverses dimensions et paramètrestels que la précision, la cohérence, l'exhaustivité, les doublons.
Cequ’ilfaut savoir c’estque lestermes “Qualité de données” ne sont pas absolus. Il n’y a pas de mauvaisesou de bonnes données sil’on ne connait pas leurutilisation. Le degrès de correction des données depend de leur usage. Çan’estqu’unefois la connaissance des données et de leurutilisationacquisequ’ilest possible de dire si les données sontbonnesoumauvaises pour l’utisationdésirée.La qualité des données est subjective, cen’est pas une science exacte, elle depend de l’usagequel’onprévoit pour les données.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Base de connaissance existante sur AzureDataMarketOu créées
DQS effectue un rapprochement de données en comparant chaque ligne de données source aux données existantes dans une base de connaissances, et en produisant une probabilité pour que les lignes soient similaires (des valeurs équivalentes, mais saisies dans un format ou un style différent sont alors unifiées). Cette étape est majeure dans un projet de qualité des données, il est préférable d'effectuer après le nettoyage des données, de sorte que les données rapprochées soient valides et les autres rejetées dans une table d’erreurs.DQS fournit aussi des fonctionnalités pour réduire la duplication des données et améliorer la précision des données provenant d’une source de données. Ces fonctionnalités peuvent être utilisées au travers d’une application riche par son interface utilisateur « DQS Client » ou bien d’un composant SSIS.Un suivi de l’activité de qualité est également possible dans l’outil DQS Client ainsi que la possibilité d’afficher des rapports d’analyse sur les données sources pour connaitre leurs degrés de qualité.