O documento discute a utilização do SQL Server Data Quality Services (DQS) para limpeza e qualidade de dados. Ele explica o que é DQS e sua arquitetura, incluindo knowledge bases, domínios e políticas de correspondência. Também fornece um exemplo passo a passo de como configurar e executar um projeto de qualidade de dados usando essas ferramentas.
1. Realizando Limpeza de Dados com
Data Quality Services
Arthur Luz | MCSA & MCT em SQL Server
arthurjosemberg@gmail.com
http://arthurluz.wordpress.com
3. PosConference – 09/10 - SP
• Local
• Microsoft Brasil – SP
• Inscrições
• http://tinyurl.com/SQLSat570
4.
5. Quem sou eu?
Senior BI Analyst at Datainfo / ANEEL Project
BI and Database Consultant and Instructor in
One Way Solution and BI do Brasil
Writer at SQL Magazine
MCSA e MCT em SQL Server
Official Instructor at Hepta Novintec
6. Master Data Management – Conceito
Data Quality – Atributos
Data Steward
MDM e DW – Exemplo de Arquitetura
SQL Server Data Quality Services
Instalação do DQS
Arquitetura do DQS
Knowledge Base Management
Data Quality Services na Prática
Criação de Domínios – Simples e Composto
Populando a base de Conhecimento
Politicas de Correspondências
Projeto de Limpeza de Dados
Projeto de Correspondências de Dados
Usando o SSIS para realizar limpeza de dados
Agenda
7. CRM
Marketing SystemOrder Processing System
Customer ID Name Address Phone
1235 Ben Smith 1 High St, Seattle 555 12345
Account Customer Address Phone
531 Benjamin Smith 1 High St, Seattle 555 12345
Contact Name Address Phone
22 B Smith 5 Main St, Seattle 555 54321
??
Problema
8. CRM
Marketing SystemOrder Processing System
Customer ID Name Address Phone
1235 Ben Smith 1 High St, Seattle 555 12345
Account Customer Address Phone
531 Benjamin Smith 1 High St, Seattle 555 12345
Contact Name Address Phone
22 B Smith 5 Main St, Seattle 555 54321
Customer ID Account No Contact No Customer Address Phone
1235 531 22 Ben Smith 1 High St, Seattle 555 12345
Master Data
Other consumers
(e.g. Data Warehouse ETL)
Solução
Golden Record
9. Master Data Management - Conceito
O MDM procura garantir que uma organização não utilize múltiplas
(potencialmente inconsistentes) versões de um mesmo dado mestre em
diferentes partes de sua operação, o que ocorre normalmente em grandes
organizações.
Um exemplo de um MDM pobre é o cenário bancário em que um cliente adquire
um Empréstimo Imobiliário e o banco continua oferecendo propostas de
empréstimo imobiliário para aquele cliente, ignorando o fato do cliente já
possuir o produto com o banco.
Isto acontece devido a informação do cliente utilizada pelo departamento de
marketing não é a mesma utilizada pelo setor de relacionamento com o cliente
do banco.
10. Data Quality - Atributos
1) Validade e integridade - Os dados existentes estão corretos?
2) Acessibilidade - Quando são necessários os dados estão disponíveis, ou é necessário fazer vários
pedidos até se poder ter acesso aos dados?
3) Cobertura - Os dados cobrem todos os aspectos do negócio? Podem existir valores absolutos,
mas também podem existir valores relativos.
4) Pontualidade - Os dados estão sempre disponíveis ou é necessário esperar algum tempo pela
sua disponibilização?
5) Contexto/Precisão - Os dados reproduzem com precisão o
que é suposto descreverem?
6) Confiabilidade - A todo o momento pode haver confiança
nos dados, ou existe alturas do ano em que essa confiança é
maior e outras alturas em que é menor?
7) Integralidade - Os dados contêm toda a informação
relevante?
11. Data Steward
O Data Steward é a pessoa responsável pela gestão e adequação dos elementos de dados - o
conteúdo e metadados.
Ele tem o papel de especialista de dados, que incorpora processos, políticas, diretrizes e
responsabilidades para a administração de todos os dados das organizações em
conformidade com a política e / ou obrigações regulamentares.
O objetivo global de um Data Steward é a qualidade dos dados, no
que diz respeito aos elementos essenciais e críticos dos dados
existentes dentro de uma estrutura operacional da empresa
específica, dos elementos em seus respectivos domínios.
Isso inclui a captura e documentação (meta informações) para seus
elementos tais como: definições, regras relacionadas, governança,
modelos de dados relacionados, etc.
12. MDM e DW – Exemplo de Arquitetura
ODS – Operational Data Store
DDS – Dimensional Data Store
MDB – Master Database
NDS – Normalized Data Store
13. SQL Server Data Quality Services
“A solução de qualidade de dados fornecida pelo Data Quality Services
(DQS) permite que um administrador de dados ou profissional de TI mantenha
a qualidade de seus dados e assegure que os dados sejam adequados para uso
comercial.
O DQS é uma solução controlada por conhecimento que fornece maneiras
assistidas por computador e interativas para gerenciar a integridade e a
qualidade de suas fontes de dados.
O DQS permite descobrir, compilar e gerenciar conhecimento sobre seus
dados. Você pode usar esse conhecimento para executar a limpeza, a
correspondência e a criação de perfil de dados.”
14. Data Quality Services - Instalação
A instalação é realizada através do SQL Server Installation Center – Enterprise Edition.
Após finalizada a instalação, dois componentes estarão disponíveis. São eles:
Data Quality Server – Precisa ser ativo
após a instalação. Uma Master key será
configurada e três bases de dados serão
criadas dentro da instancia.
Data Quality Client – Cliente para
criação, manuseio e configuração do DQS.
15. Arquitetura do Data Quality Services
Base de
Conhecimento
Criação
Uso
Mapear
Projeto de Qualidade de Dados
Gerenciamento de Conhecimento
Perfil Integrado
Exportar
Origem
Dados Processados
SQL Server Database
Arquivo Excel / CSV
Serviço de Referência
Criação da KDB
Uso da KDB
Legenda
16. Knowledge Base Management
O Knowledge Base Management (KBM) é uma base de
conhecimento criada para armazenar informações
pertinentes ao seu negócio, incluindo assim, valores válidos
como também inválidos, regras para normalização e
conformidade dos registros, sendo que após a base criada é
possível utilizá-la em diversos projetos de Data Cleansing ou
Data Matching.
Para a criação de um KBM completo temos 3 atividades:
Domain Management – Criação das Regras e
Normalizações para os dados;
Knowledge Discovery – Descobrimento de dados
para os Domínios;
Matching Policy – Criação de Politicas de
consistências para os Domínios;
20. Email - arthurjosemberg@gmail.com
Linkedin – Arthur Luz
Twitter - @arthurjosemberg
Skype - arthurjosemberg
Blog – arthurluz.wordpress.com
Contatos
https://luanmorenodba.wordpress.com/2
012/08/01/srie-data-quality-services-dqs/
https://msdn.microsoft.com/pt-
br/library/ff877925.aspx
Microsoft MSDN
Blog
Luan Moreno
Hinweis der Redaktion
Falem que o evento é gratuito pra todos, e que os patrocinadores são os responsáveis por garantir o coffee e a infra-estrutura basica pro evento acontecer. Em contra partida, eles querem mostrar seus produtos e serviços, é legal aos participantes conhecerem o que eles tem a oferecer e aceitar receber contatos deles via email.
Falem que o evento é gratuito pra todos, e que os patrocinadores são os responsáveis por garantir o coffee e a infra-estrutura basica pro evento acontecer. Em contra partida, eles querem mostrar seus produtos e serviços, é legal aos participantes conhecerem o que eles tem a oferecer e aceitar receber contatos deles via email.
Titulo, Sexo e Endereco (dominio composto)
Dominios - Titulo, Sexo e Endereco (dominio composto)