1) O documento descreve o processo de projeto dimensional para modelagem de dados em um data warehouse, com quatro passos principais: selecionar o processo de negócios, declarar a granularidade, escolher dimensões, e identificar medidas.
2) Como estudo de caso, é usada uma cadeia de lojas de varejo para ilustrar cada um dos passos do processo de projeto dimensional.
3) O modelo dimensional proposto tem como foco principal o processo de vendas nos caixas, com granularidade de cada linha de transação individual.
1. Data Warehouse
Processo de Projeto
Dimensional - Estudo de
Caso: Vendas
2. Processo de Design em Quatro Passos
1. Selecçionar o processo de negócios a modelar
2. Declarar a granularidade do processo
3. Escolher as dimensões que se aplicam a cada linha da tabela
de factos
4. Identificar os factos numéricos que irão populacionar a
tabela de factos
Tanto requisitos dos usuários do negócio quanto realidades
dos dados fonte devem ser levados em consideração no
projecto
3. Processo de Design em Quatro Passos
Selecçionar o processo de negócios a modelar
Actividade executada na organização
Compras, vendas, pedidos, inventario,
Obtido atraves de conversas com usuários
Não está restrito a um único departamento
E.g., pedidos podem envolver departamentos de
vendas e marketing
4. Processo de Design em Quatro Passos
Declarar a granularidade do processo
Especificar explicitamente o que uma linha da tabela de
factos significa
O grão indica o nível de detalhes associados com cada
linha da tabela
Exemplos:
Uma linha do recibo de vendas do supermercado
Um snapshot das vendas diarias de cada produto
Um extracto mensal do banco
Passo extremamente importante!
5. Processo de Design em Quatro Passos
Escolher as dimensões que se aplicam a cada linha da tabela
de factos
Dimensões respondem à questão “como as pessoas do
negócio descrevem os dados que resultam dos processos
do negócio?”
Com as escolhas de cada dimensão serão listados todos os
atributos discretos, textuais, etc, de cada tabela de
dimensão
Exemplos:
Data, produto, cliente, tipo de transação, status
6. Processo de Design em Quatro Passos
Identificar os factos numéricos que irão populacionar a tabela
de factos
Respondem à pergunta “O que estamos medindo?”
Devem estar em conformidade com a granularidade
escolhida
Exemplos:
Quantidade pedida, custo em dolares
7. O negócio: cadeia de lojas
O negócio tem 100 lojas de cadeia em cinco estados
Cada loja tem departamentos de: comidas congeladas, carnes,
paes, complementos alimenticios, etc
Cada loja tem aproximadamente 60.000 produtos nas suas
prateleiras
Os produtos individuais são chamados unidades em estoque (SKU)
Cerca de 55.000 produtos vêm de fabricantes externos e têm
codigos de barras impressos no pacote do produto chamados
codigos de produto universais (UPC)
As 5.000 unidades de estoque restantes vêm dos departamentos
da cadeia e têm codigos locais individuais
Dados são colectados principalmente nos caixas da loja
Os codigos de venda do produtos são escaneados no pontos de
venda (PV)
Outro ponto de colecta de dados é na entrada traseira das lojas
onde os fornecedores entregam as encomendas
8. O negócio: cadeia de lojas
Nas lojas, a administração está preocupada com
logisticas de pedidos, armazenamento, e vendas de
produtos enquanto tenta maximizar o lucro
Lucro vem da venda no melhor preço possivel para cada
produto, da redução de custos na aquisição de produtos,
e da atracção do maior numero de clientes possivel
atraves de preços competitivos
As decisões mais importantes tem haver com preços e
promoções
Promoções incluem reduções temporarias de preços,
propagandas em jornais, amostras em lojas, e cupons.
9. Passo 1. Seleccionar o Processo de
negócios
O primeiro modelo dimensional a ser construido deve
ser aquela a causar maior impacto
O modelo deveria responder as questões mais
importantes do negócio e estar prontamente acessivel
para extracção de dados
Escolha:
Vendas nos caixas!
Entender que produtos estão sendo vendidos em que
lojas em que dias sobre quais condicões
promocionais
10. Passo 2. Declarar a Granularidade
Utilizar a informação mais atômica e detalhada capturada por um
processo de negócios
Provêm alta flexibilidade analítica; pode ser restrito, pesquisado, e
agregado de diversas formas
Granularidades de mais alto nível limitam as dimensões e analises
Escolha:
Cada linha individual de uma transação no caixa
Analises:
Diferenças em vendas de Segunda a Domingo
Se vale apenas estocar pacotes de varios tamanhos de certos
cereias
Quantos consumidores compraram um determinado shampoo
durante uma promoção de 50% de desconto
O impacto nas vendas de uma propaganda “pesada” de uma
marca concorrente
11. Passo 3. Escolher as Dimensões
Uma granularidade apropriada determina as dimensões
primárias da tabela de factos
ID_data
atributos
ID_produto
atributos
ID_data
ID_produto
ID_loja
ID_promoção
ID_loja
ID_produto
atributos
atributos
13. Dimensão de Data
Usada por quase todos data marts
Existem muitos atributos de datas que não são
suportados pela função data do SQL, incluindo periodos
fiscais, feriados, periodos especias do ano (e.g., Natal,
Carnaval) e fins de semana.
Focado na granularidade de dias
10 anos correspondem apenas a 3500 linhas!
15. Atributos da Tabelas de Dimensões Data
Day-of-Week: analises de venda por dia da semana
Day number e Month number: comparações do mesmo dia
cada mês e mesmo mês cada ano
Holidays: Uso de labels com significado
Selling Season: Natal, Carnaval, etc
Major event: dia das maes, dia dos namorados
Date key: inteiro, por razões de armazenamento,
actualização, etc
Inclusão de horas: time-of-the day table a ser juntada
17. Atributos da Tabelas de Dimensões Produto
Descreve cada unidade em estoque na loja
Alguns atributos descritivos normalmente organizado em
hieraquias: tipo -> categoria -> departamento
Integral -> pães -> padaria
Um tabela de dimensão produto tipica teria 50 ou mais
atributos
Quanto mais completa, mais analises são possiveis
19. Dimensão Loja
Descreve cada loja da cadeia
Principal dimensão geografica do estudo de caso
Atributos geograficos: ZIP code (CEP) , distrito, estado,
etc
Descrição da loja (textual): floor plan type, financial type,
photo processing type
21. Dimensão Promoção
Descreve as condições de promoção sob os quais um
produto foi vendido
Condições de promoção: reduções de preços temporarias,
anuncios em journais, displays, cupons, etc
Dimensão causal: causa mudanças nos padrões de vendas
Dica: evitar valores null, incluindo uma entrada para
indicar explicitamente que a dimensão nao é aplicavel a
determinada medida (e.g., “nenhuma promoção em
curso”)
22. Dimensão Promoção
- Análises:
Se os produtos sob promoção tiveram ganhos em vendas durante
o periodo promocional
Se os produtos sob promoção tiveram uma queda antes ou após a
promoção, cancelando possiveis ganhos
Se os produtos em promoção apresentaram ganhos mas os
produtos proximos nas prateleiras apresentaram declinio
Se todo os produtos em promoção apresentaram ganhos
conjuntamente levando em contas os periodos anterior, durante
e posterior às promoções (crescimento de mercado)
Se a promoção como um todo foi rentavel
24. Retail Esquema em Acção
Cenario: um usuário do negócio esta interessado em
entender melhor as vendas semanais por promoção para a
categoria de salgadinhos durante Janeiro de 2002 para as
lojas do distrito de Boston
29. Normalização de Dimensões
Apresentação muito mais complexa
Complexidade tambem na optimização de consultas
(muitos joins)
Ganhos de espaço são irrisorios
Navegação é comprometida
31. Dimensões Demais
Um numero muito grande de dimensões é
tipicamente um sinal que diversas dimensões não
são completamente independentes e devem ser
combinadas em uma única dimensão.
Dimensões demais geram problemas de usabilidade
e performance
É geralmente um erro representar elementos de
uma hierarquia em dimensões separadas