1. DATA WAREHOUSING E OLAP
Trabalho realizado por:
Paulo Gonçalves n.º 20235
Ricardo Fernandes n.º 20222
Vilma Pombo n.º 20208
2. O que é data warehouse?
Data warehouse é uma base dados de suporte, a decisão
que é mantida separadamente da base operacional da
organização.
Suporta processamento de informação fornecendo uma
plataforma sólida para análise de dados históricos e
consolidados.
Data warehousing:
O processo de construir e usar data warehouses.
3. Tipos de data warehouse
ORIENTADO POR TEMA
INTEGRADO
VARIÁVEL TEMPO
NÃO VOLÁTIL
4. ORIENTADO POR TEMA
O Data warehouse orientado por tema é organizado em
torno de temas importantes, tais como cliente, produto,
vendas.
Foca-se na modelação e análise de dados para quem
toma decisões, em vez de operações diárias e
processamento de transacções.
Fornece também uma visão simples e concisa sobre
questões de um tema particular através da exclusão de
dados que não são importantes no suporte ao processo de
decisão.
5. INTEGRADO
O Data warehouse integrado é construído por integração
de múltiplas e heterogéneas fontes de dados.
As Bases de dados são relacionais, contêm ficheiros
simples e registos de transacções on-line onde são
aplicadas técnicas de limpeza de dados e integração de
dados. É assim assegurada a consistência na convenção
de nomes, codificação de estruturas, atributos de
medidas, etc. entre diferentes fontes de dados (ex: Hotel
price: currency, tax, breakfast covered, etc.)
Concluindo quando a informação é movida para o
warehouse, é feita a conversão.
6. VARIÁVEL TEMPO
Cada estrutura chave no data warehouse contém um
elemento de tempo, explicita ou implicitamente, mas a
chave de dados operacionais pode ou não conter um
“elemento de tempo”.
O horizonte de tempo para um data warehouse é
significativamente maior do que o de sistemas
operacionais, onde a base de dados operacional contem a
informação actual, e os Dados nela contidos fornecem a
informação numa perspectiva histórica (ex: últimos 5-10
anos)
7. NÃO VOLÁTIL
Um Data warehouse não volátil é um repositório
fisicamente separado de dados transformados do
ambiente operacional.
Neste tipo de Data warehouse não ocorre actualização de
dados operacional sobre a informação, pois não requer
mecanismos de processamento de transacções,
recuperação e controlo de concorrência, requerendo
apenas duas operações de acesso a dados:
- Carregamento inicial de dados;
- Acesso a dados.
8. Data warehouse
vs
SGBD heterogéneos house
Na integração tradicional de base de dados heterogéneas
constroem-se conversores/mediadores sobre este tipo de
base de dados.
A abordagem usada é a orientada-a-consulta, ou seja,
quando uma consulta é feita a uma determinada base de
dados, usa-se um meta-dicionário para traduzir a consulta
em consultas apropriadas para outras base de dados
envolvidas, e os resultados são integrados num conjunto
resposta global.
Nesta abordagem a filtragem de informação é complexa.
9. Data warehouse
vs
SGBD heterogéneos house
Já pelo Data warehouse a abordagem usada é a orientada-
por-actualizaçao.
A informação de fontes heterogéneas é previamente
integrada e guardada em warehouses para consulta e
análise directa.
10. Data warehouse
vs
SGBD operacionais
OLTP (on-line transaction processing)
São sistemas que se encarregam de registar todas as
transacções contidas em uma determinada operação
organizacional. Por exemplo, sistema de transacções
bancárias que regista todas as operações efectuadas num
banco, caixas de multibanco, reservas de viagens ou hotel
on-line, Cartões de Crédito.
OLTP é a tarefa principal dos SGBD relacionais
tradicionais.
11. Data warehouse
vs
SGBD operacionais
OLAP (on-line analytical processing)
É a capacidade de manipular e analisar um grande
volume de dados sob múltiplas perspectivas.
As aplicações OLAP são usadas pelos gestores num
qualquer nível da organização para lhes permitir análises
comparativas que facilitem a suas decisões diárias.
OLAP é a tarefa principal de sistemas de data warehouse.
12. CARACTERÍSTICAS
OLTP OLAP
Orientação do sistema e
Cliente Mercado
utilizador
Conteúdo dos dados actuais, detalhados históricos, consolidados
Desenho da Base de dados ER + aplicaçao estrela + tema
Visão actual, local evolucionária, integrada
consultas read-only,
Padrões de acesso actualização
complexas
13. DIFERÊNÇAS
OLTP OLAP
Utilizadores Escriturário, profissional IT Analista de mercado
Função Operações diárias Suporte a decisões
Desenho da base de dados Orientado-por-aplicaçao Orientado-por-tema
correntes, actualizados históricos,
Dados detalhados, relacional sumarizados, multidimensionais
simples isolado integrados, consolidados
Uso repetitivo ad-hoc
read/write
Acesso Leitura exaustiva
index/hash na chave prim.
Unidade de trabalho Transacção simples e curta Consulta complexa
Numero de registos acedidos dezenas Milhões
Numero de utilizadores milhares centenas
Tamanho da base de dados 100MB-GB 100GB-TB
Métrica Transacções por minuto Consultas por minuto, resposta
14. Modelação conceptual
de data warehouse
Existem 3 tipos de modelação para as data warehouse:
- esquema estrela;
- esquema floco de neve;
- constelações de factos.
16. ESQUEMA FLOCO DE NEVE
Um refinamento do esquema estrela onde parte da hierarquia dimensional
é normalizada num conjunto de tabelas de dimensão mais pequenas,
numa forma similar a um floco de neve.
17. CONSTELAÇÕES DE FACTOS
Tabelas de factos múltiplas partilham tabelas dimensão,
formando um grupo de estrelas, logo chamado constelação de factos.
18. Desenho de data warehouse
Existem quatro perspectivas de desenho de um data
warehouse
- Perspectiva Top-down
Permite a selecção da informação relevante necessária
para o data warehouse.
- Perspectiva de Origem de Dados
Mostra a informação a ser adquirida, guardada e gerida
pelos sistemas operativos.
19. Desenho de data warehouse
- Perspectiva Data warehouse
Consiste em tabelas de factos e tabelas dimensão.
- Perspectiva de Consulta de Análise
Vê a perspectiva dos dados no warehouse do ponto de
vista do utilizador final.
20. Processo de desenho
de um data warehouse
O processo de desenho de um Data Warehouse pode ser
efectuado através de 3 abordagens diferentes:
Abordagens Top-down, bottom-up ou uma combinação de ambos
- Top-down: Começa com o desenho e planeamento geral
- Bottom-up: Começa com experiencias e protótipos
Do ponto de vista da engenharia de software
- Cascata: Análise estruturada e sistemática em cada passo antes de
prosseguir para o próximo
- Espiral: Geração rápida e incremental de funcionalidades do sistema
21. Processo de desenho
de um data warehouse
Processo de desenho típico de data warehouse
-Escolher um processo de negócio a modelar, e.g., encomendas,
facturas, etc.
-Escolher o grão (nível de dados atómico) do processo de negócio
-Escolher as dimensões que estão associadas a cada tabela de factos
-Escolher as medidas presentes em cada registo da tabela de factos
23. Tipos de arquitectura OLAP
Existem 3 tipos diferentes de arquitecturas OLAP:
Relacional, multidimensional e hybrid OLAP.
Na arquitectura relacional (ROLAP) usa-se base de dados
relacionais estendidas para guardar e gerir os dados do
data warehouse e aplicações OLAP para suportar análise
complexa de dados.
Este tipo de arquitectura inclui uma optimização dos
sistemas de base de dados de backend e contém a
implementação de navegação baseada em agregação assim
como mais ferramentas e serviços.
24. Tipos de arquitectura OLAP
A arquitectura multidimensional (MOLAP) é baseada em
matrizes de armazenamento multidimensionais.
Neste tipo de arquitectura a indexação é rápida sobre
dados sumarizados pré-calculados.
A Hybrid OLAP(HOLAP) é uma combinação das outras 2
arquitecturas.
Esta arquitectura permite armazenar parte dos dados
num MOLAP e outra parte dos dados em ROLAP.