SlideShare ist ein Scribd-Unternehmen logo
1 von 4
Data Warehouse
Uma data warehouse é uma colecção de dados temáticos,
integrados, que variam ao longo do tempoe não voláteis
destinados a suportar o processo de tomada de decisão.‖—W. H.
Inmon


Facto: Dado de interesse para a análise

Medidas: Atributos, normalmente numéricos, que descrevem os factos de diferentes pontos
de vista.

Tipos de factos:
    1. Factos aditivos: São factos em que as suas medidas se podem somar.
    2. Factos semi-aditivos: São factos que expressam medidas de intensidade (AVG)
       e como tal não se podem somar.
    3. Factos não aditivos : São factos que servem para expressar eventos e/ou
       ocorrências.

Dimensões: São tabelas com chaves simples que se ligam às tabelas dos factos.




                     ETL (Extract Transform Load)
Antes de se colocar a informação na data warehouse á que passa-la pela “Staging Area” onde
sobre um conjunto de processos. A necessidade de fazer este processo vem do facto de que
nem sempre queremos informação de todas as fontes que temos disponíveis e nem sempre a
queremos como ela esta nas bases de dados operacionais (OLTP).

       EXTRACT : Processo que extrair os dados das fontes operacionais
       TRANSFORM
            Conversão: Normalizar os tipos de dados das múltiplas fontes e para um único
               modelo convencionado para a datawarehouse
            Sumarização: Por vezes não é necessário ter os dados com a menor
               granularidade , que o sistema operacional nos pode dar, na data warehouse .
               Para isso , é preciso fazer agregação dos dados recolhidos na fase de extração.
            Enriquecimento: Colocação de metadados para melhorar o sistema de analise.
       LOAD: Processo de carregamento da informação para o DW




BrianSupra                                                     www.briansupra.blogspot.com
Modelos para uma DataWarehouse

Modelo em estrela: Existe uma factual que se liga ás varias dimensões através de chaves
estrangeiras.

Modelo Snowflake: Neste modelo as dimensões estam normalizadas até a 3FN. Ou seja, na
tabela das dimensões todos os atributos são atómicos, dependem da chave como um todo.
Mais, os atributos que não fazem parte da chave não tem dependências transitivas - quando
um atributo determina outro que não esta na chave - entre si.

Modelo de Constelação: Existem várias tabelas factuais que se ligam ás suas dimensões, sendo
que algumas dimensões são partilhadas entre as algumas factuais. Para que isto possa ser
possível, as dimensões têm de ser conformes. ( Dimensão conforme é uma dimensão que tem
o mesmo significado , independentemente da tabela factual a que se ligue).




                                     Surrogate keys
As dimensões tem chave primaria única. Para as dimensões deve utilizar-se uma primary key
que não tenha nada a ver com as primary keys das tabelas dos sistemas operacionais que lhe
deram origem. Vejamos o exemplo que mostra a problemática das primary keys das
dimensões. Numa base de dados operacional guarda-se o nome dos clientes. Sendo que cada
cliente tem um ID. Imaginemos que o cliente com ID=3543 deixa de ser cliente e é retirado da
base de dados. Retira-se o registo com ID=3543 da tabela de cliente. Quando um novo cliente
é registado no sistema, o mesmo dá-lhe o ID=3543( que estava vazio). Se o ID for a primary key
da tabela dimensão “cliente” da DW , toda a informação do antigo cliente que saiu da base de
dados fica associada ao novo cliente. Como não queremos que as informações dos clientes (
do antigo e do novo ) se misturem temos de colocar uma Primary Key na dimensão “cliente “
diferente da utilizada na tabela clientes da base de dados operacional. Assim aparecem as
Surrogate Keys . São Chaves primarias nas dimensões da DW com significado apenas para a
DW e com valor independente das primary keys na base de dados operacional.




BrianSupra                                                     www.briansupra.blogspot.com
Slowly changing dimension
Estas dimensões têm a particularidade do seu conteúdo ir mudando ao longo do tempo de
forma assíncrona. Por exemplo: numa dimensão de nome “Fornecedor” temos todos os
fornecedores de uma determinada empresa. Como devemos proceder se um fornecedor
mudar de morada? Temos 3 modos de actuar:

    1. Não registamos a alteração
    2. Alteramos o registo do fornecedor em causa, no atributo morada
    3. Criamos um novo tuplo com a nova informação do Fornecedor

Numa slowly changing dimension, a opcao 3 é a que uilizada . Assim, na tabela dos
fornecedores existe um ou mais atributos - “versao”,”data_inicio” e “data_fim” que
identificam o tuplo actual. Assim podemos fazer análise do histórico, nunca perdendo
informação.

                                        Data Mart
Uma data Mart é um subconjunto de uma data Warehouse e têm informação apenas acerca
de uma parte do negocio. A DW, no modelo do Kimball(Bottom-up), é uma soma de Data
Marts. Pode-se construir a DW a partir de data marts através da arquitectura BUS. Esta
arquitectura assenta em dimensões conformes que são partilhadas por mais do que uma
tabela factual de diferentes data marts.

                                          OLAP
O OLAP (online analytical process ) é uma forma de explorar a informação que está numa Data
Warehouse. O OLAP pode agregar os dados que estão numa Data Warehouse, aumentando-
lhes a granularidade (roll up). A granularidade mínima que se pode pedir a um sistema de
exploração OLAP é a mínima granularidade que esta na Data Warehouse. No modelo OLAP , a
informação é mantida , conceptualmente, em cubos que guardam as medidas, as medidas são
identificadas por duas ou mais dimensões . Cada dimensão do cubo dá uma perspectiva
diferente das medidas que estão no cubo.

                                  Arquitecturas OLAP
As diferentes variantes do OLAP diferem umas das outras na maneira como fazem o
armazenamento da informação no cubo

ROLAP- Sistema de analise construído em cima de uma base de dados relacional. Para não
denunciar a estrutura da base de dados original, os dados passam da DW para o servidor
ROLAP mas é-lhe acrescentado metadados. Depois os dados são apresentados ao utilizador
soba a forma multidimensional (cubos). O utilizador tem sempre uma visão multidimensional
dos dados. Os cubos são criados dinamicamente á medida que o utilizador vai pedindo
informação. Suporta grande volume de dados.




BrianSupra                                                    www.briansupra.blogspot.com
MOLAP- O sistema de análise é construído em cima de uma base de dados
multidimensional. Os dados passam da data warehouse para um servidor MOLAP que tem
uma base de dados multidimensional. Na migração dos dados tem se executar processos
específicos de conversão do modelo relacional para o modelo Multidimensional. No servidor
os dados que estam no modelo multidimensional são mostrados sob a forma de cubos ao
utilizador, para que ele efectue as suas pesquisas. Esta arquitectura suporta um volume
moderado de dados.




BrianSupra                                                   www.briansupra.blogspot.com

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Sistemas operacionais aula 01
Sistemas operacionais aula 01Sistemas operacionais aula 01
Sistemas operacionais aula 01
 
Apostila sqlserver65v1a
Apostila sqlserver65v1aApostila sqlserver65v1a
Apostila sqlserver65v1a
 
Dawarehouse e OLAP
Dawarehouse e OLAPDawarehouse e OLAP
Dawarehouse e OLAP
 
Introdução ao Banco de dados - Prof. Daniel Brandão
Introdução ao Banco de dados - Prof. Daniel BrandãoIntrodução ao Banco de dados - Prof. Daniel Brandão
Introdução ao Banco de dados - Prof. Daniel Brandão
 
Aula banco de dados
Aula banco de dadosAula banco de dados
Aula banco de dados
 
Tipos de dados em MySQL
Tipos de dados em MySQLTipos de dados em MySQL
Tipos de dados em MySQL
 
Data warehousing
Data warehousingData warehousing
Data warehousing
 
OLAP, BI, EIS
OLAP, BI, EISOLAP, BI, EIS
OLAP, BI, EIS
 
Banco de Dados
Banco de DadosBanco de Dados
Banco de Dados
 
Arquitetura e sgbd de um banco de dados
Arquitetura e sgbd de um banco de dadosArquitetura e sgbd de um banco de dados
Arquitetura e sgbd de um banco de dados
 
Novo microsoft office power point presentation
Novo microsoft office power point presentationNovo microsoft office power point presentation
Novo microsoft office power point presentation
 
Data Warehouse e Data Mining
Data Warehouse e Data MiningData Warehouse e Data Mining
Data Warehouse e Data Mining
 
1º trabalho base dados
1º trabalho base dados1º trabalho base dados
1º trabalho base dados
 
Aula 3 banco de dados
Aula 3   banco de dadosAula 3   banco de dados
Aula 3 banco de dados
 
BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS
 
Aula 1 introdução a base de dados
Aula 1   introdução a base de dadosAula 1   introdução a base de dados
Aula 1 introdução a base de dados
 
Aula 02-Tutorial ETL com PDI
Aula 02-Tutorial ETL com PDIAula 02-Tutorial ETL com PDI
Aula 02-Tutorial ETL com PDI
 
Olap (PROCESSAMENTO ANALÍTICO ONLINE)
Olap (PROCESSAMENTO ANALÍTICO ONLINE)Olap (PROCESSAMENTO ANALÍTICO ONLINE)
Olap (PROCESSAMENTO ANALÍTICO ONLINE)
 
C # banco de dados
C # banco de dadosC # banco de dados
C # banco de dados
 
Respostas exercício 1 bdi
Respostas exercício 1   bdiRespostas exercício 1   bdi
Respostas exercício 1 bdi
 

Ähnlich wie Data warehouse & olap

Business Intelligence com o microsoft sql server
Business Intelligence com o microsoft sql serverBusiness Intelligence com o microsoft sql server
Business Intelligence com o microsoft sql serverMilson
 
Pg20235 rf20222vp20208
Pg20235 rf20222vp20208Pg20235 rf20222vp20208
Pg20235 rf20222vp20208rikardojsf
 
Introdução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de DadosIntrodução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de Dadosinfo_cimol
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftDennes Torres
 
2019-2 - BD I - Aula 01 C - Introdução a Banco de Dados
2019-2 - BD I - Aula 01 C - Introdução a Banco de Dados2019-2 - BD I - Aula 01 C - Introdução a Banco de Dados
2019-2 - BD I - Aula 01 C - Introdução a Banco de DadosRodrigo Kiyoshi Saito
 
01 banco de dados-basico
01 banco de dados-basico01 banco de dados-basico
01 banco de dados-basicoAmadeo Santos
 
A03 paper - perfil business intelligence - a cadeia de processamento
A03   paper - perfil business intelligence - a cadeia de processamentoA03   paper - perfil business intelligence - a cadeia de processamento
A03 paper - perfil business intelligence - a cadeia de processamentoMarcelo Krug
 
Capítulo 05 - Fundamentos da inteligência de negócios: gestão da informação e...
Capítulo 05 - Fundamentos da inteligência de negócios: gestão da informação e...Capítulo 05 - Fundamentos da inteligência de negócios: gestão da informação e...
Capítulo 05 - Fundamentos da inteligência de negócios: gestão da informação e...Everton Souza
 
GS1-Data_Archtecture v2.pptx
GS1-Data_Archtecture v2.pptxGS1-Data_Archtecture v2.pptx
GS1-Data_Archtecture v2.pptxDoisbagus2bagus
 
Mer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoMer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoRademaker Siena
 
Algumas das principais características do NoSQL
Algumas das principais características do NoSQLAlgumas das principais características do NoSQL
Algumas das principais características do NoSQLEric Silva
 

Ähnlich wie Data warehouse & olap (20)

Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Business Intelligence com o microsoft sql server
Business Intelligence com o microsoft sql serverBusiness Intelligence com o microsoft sql server
Business Intelligence com o microsoft sql server
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Apostila Oracle 10g
Apostila Oracle 10gApostila Oracle 10g
Apostila Oracle 10g
 
Pg20235 rf20222vp20208
Pg20235 rf20222vp20208Pg20235 rf20222vp20208
Pg20235 rf20222vp20208
 
Introdução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de DadosIntrodução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de Dados
 
Banco de dados
Banco de dadosBanco de dados
Banco de dados
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoft
 
Banco de dados parte 01
Banco de dados parte 01Banco de dados parte 01
Banco de dados parte 01
 
Tópico 2
Tópico 2Tópico 2
Tópico 2
 
2019-2 - BD I - Aula 01 C - Introdução a Banco de Dados
2019-2 - BD I - Aula 01 C - Introdução a Banco de Dados2019-2 - BD I - Aula 01 C - Introdução a Banco de Dados
2019-2 - BD I - Aula 01 C - Introdução a Banco de Dados
 
01 banco de dados-basico
01 banco de dados-basico01 banco de dados-basico
01 banco de dados-basico
 
A03 paper - perfil business intelligence - a cadeia de processamento
A03   paper - perfil business intelligence - a cadeia de processamentoA03   paper - perfil business intelligence - a cadeia de processamento
A03 paper - perfil business intelligence - a cadeia de processamento
 
Capítulo 05 - Fundamentos da inteligência de negócios: gestão da informação e...
Capítulo 05 - Fundamentos da inteligência de negócios: gestão da informação e...Capítulo 05 - Fundamentos da inteligência de negócios: gestão da informação e...
Capítulo 05 - Fundamentos da inteligência de negócios: gestão da informação e...
 
Sql
SqlSql
Sql
 
Ara7129 unidade-1-v1
Ara7129 unidade-1-v1Ara7129 unidade-1-v1
Ara7129 unidade-1-v1
 
GS1-Data_Archtecture v2.pptx
GS1-Data_Archtecture v2.pptxGS1-Data_Archtecture v2.pptx
GS1-Data_Archtecture v2.pptx
 
Mer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoMer - Modelo Entidade Relacionamento
Mer - Modelo Entidade Relacionamento
 
Algumas das principais características do NoSQL
Algumas das principais características do NoSQLAlgumas das principais características do NoSQL
Algumas das principais características do NoSQL
 
Data WareHOuse
Data WareHOuseData WareHOuse
Data WareHOuse
 

Mehr von Brian Supra

Equações diferenciais de ordem n(metodo dos coeficientes indeterminados)
Equações diferenciais de ordem n(metodo dos coeficientes indeterminados)Equações diferenciais de ordem n(metodo dos coeficientes indeterminados)
Equações diferenciais de ordem n(metodo dos coeficientes indeterminados)Brian Supra
 
Calculo Das Correntes De Curto
Calculo Das Correntes De CurtoCalculo Das Correntes De Curto
Calculo Das Correntes De CurtoBrian Supra
 
Calculo Das Correntes De Curto
Calculo Das Correntes De CurtoCalculo Das Correntes De Curto
Calculo Das Correntes De CurtoBrian Supra
 
Quedas De Tensão
Quedas De TensãoQuedas De Tensão
Quedas De TensãoBrian Supra
 
Arvores Binarias
Arvores BinariasArvores Binarias
Arvores BinariasBrian Supra
 
Algorimos De Ordenação
Algorimos De OrdenaçãoAlgorimos De Ordenação
Algorimos De OrdenaçãoBrian Supra
 
Algoritmo de Prim
Algoritmo de PrimAlgoritmo de Prim
Algoritmo de PrimBrian Supra
 
Arvores Binarias
Arvores BinariasArvores Binarias
Arvores BinariasBrian Supra
 

Mehr von Brian Supra (11)

Equalizador
EqualizadorEqualizador
Equalizador
 
Equações diferenciais de ordem n(metodo dos coeficientes indeterminados)
Equações diferenciais de ordem n(metodo dos coeficientes indeterminados)Equações diferenciais de ordem n(metodo dos coeficientes indeterminados)
Equações diferenciais de ordem n(metodo dos coeficientes indeterminados)
 
Calculo Das Correntes De Curto
Calculo Das Correntes De CurtoCalculo Das Correntes De Curto
Calculo Das Correntes De Curto
 
Calculo Das Correntes De Curto
Calculo Das Correntes De CurtoCalculo Das Correntes De Curto
Calculo Das Correntes De Curto
 
Quedas De Tensão
Quedas De TensãoQuedas De Tensão
Quedas De Tensão
 
Arvores Binarias
Arvores BinariasArvores Binarias
Arvores Binarias
 
Algorimos De Ordenação
Algorimos De OrdenaçãoAlgorimos De Ordenação
Algorimos De Ordenação
 
Variaveis
VariaveisVariaveis
Variaveis
 
Algoritmo de Prim
Algoritmo de PrimAlgoritmo de Prim
Algoritmo de Prim
 
Kruskal
KruskalKruskal
Kruskal
 
Arvores Binarias
Arvores BinariasArvores Binarias
Arvores Binarias
 

Data warehouse & olap

  • 1. Data Warehouse Uma data warehouse é uma colecção de dados temáticos, integrados, que variam ao longo do tempoe não voláteis destinados a suportar o processo de tomada de decisão.‖—W. H. Inmon Facto: Dado de interesse para a análise Medidas: Atributos, normalmente numéricos, que descrevem os factos de diferentes pontos de vista. Tipos de factos: 1. Factos aditivos: São factos em que as suas medidas se podem somar. 2. Factos semi-aditivos: São factos que expressam medidas de intensidade (AVG) e como tal não se podem somar. 3. Factos não aditivos : São factos que servem para expressar eventos e/ou ocorrências. Dimensões: São tabelas com chaves simples que se ligam às tabelas dos factos. ETL (Extract Transform Load) Antes de se colocar a informação na data warehouse á que passa-la pela “Staging Area” onde sobre um conjunto de processos. A necessidade de fazer este processo vem do facto de que nem sempre queremos informação de todas as fontes que temos disponíveis e nem sempre a queremos como ela esta nas bases de dados operacionais (OLTP).  EXTRACT : Processo que extrair os dados das fontes operacionais  TRANSFORM  Conversão: Normalizar os tipos de dados das múltiplas fontes e para um único modelo convencionado para a datawarehouse  Sumarização: Por vezes não é necessário ter os dados com a menor granularidade , que o sistema operacional nos pode dar, na data warehouse . Para isso , é preciso fazer agregação dos dados recolhidos na fase de extração.  Enriquecimento: Colocação de metadados para melhorar o sistema de analise.  LOAD: Processo de carregamento da informação para o DW BrianSupra www.briansupra.blogspot.com
  • 2. Modelos para uma DataWarehouse Modelo em estrela: Existe uma factual que se liga ás varias dimensões através de chaves estrangeiras. Modelo Snowflake: Neste modelo as dimensões estam normalizadas até a 3FN. Ou seja, na tabela das dimensões todos os atributos são atómicos, dependem da chave como um todo. Mais, os atributos que não fazem parte da chave não tem dependências transitivas - quando um atributo determina outro que não esta na chave - entre si. Modelo de Constelação: Existem várias tabelas factuais que se ligam ás suas dimensões, sendo que algumas dimensões são partilhadas entre as algumas factuais. Para que isto possa ser possível, as dimensões têm de ser conformes. ( Dimensão conforme é uma dimensão que tem o mesmo significado , independentemente da tabela factual a que se ligue). Surrogate keys As dimensões tem chave primaria única. Para as dimensões deve utilizar-se uma primary key que não tenha nada a ver com as primary keys das tabelas dos sistemas operacionais que lhe deram origem. Vejamos o exemplo que mostra a problemática das primary keys das dimensões. Numa base de dados operacional guarda-se o nome dos clientes. Sendo que cada cliente tem um ID. Imaginemos que o cliente com ID=3543 deixa de ser cliente e é retirado da base de dados. Retira-se o registo com ID=3543 da tabela de cliente. Quando um novo cliente é registado no sistema, o mesmo dá-lhe o ID=3543( que estava vazio). Se o ID for a primary key da tabela dimensão “cliente” da DW , toda a informação do antigo cliente que saiu da base de dados fica associada ao novo cliente. Como não queremos que as informações dos clientes ( do antigo e do novo ) se misturem temos de colocar uma Primary Key na dimensão “cliente “ diferente da utilizada na tabela clientes da base de dados operacional. Assim aparecem as Surrogate Keys . São Chaves primarias nas dimensões da DW com significado apenas para a DW e com valor independente das primary keys na base de dados operacional. BrianSupra www.briansupra.blogspot.com
  • 3. Slowly changing dimension Estas dimensões têm a particularidade do seu conteúdo ir mudando ao longo do tempo de forma assíncrona. Por exemplo: numa dimensão de nome “Fornecedor” temos todos os fornecedores de uma determinada empresa. Como devemos proceder se um fornecedor mudar de morada? Temos 3 modos de actuar: 1. Não registamos a alteração 2. Alteramos o registo do fornecedor em causa, no atributo morada 3. Criamos um novo tuplo com a nova informação do Fornecedor Numa slowly changing dimension, a opcao 3 é a que uilizada . Assim, na tabela dos fornecedores existe um ou mais atributos - “versao”,”data_inicio” e “data_fim” que identificam o tuplo actual. Assim podemos fazer análise do histórico, nunca perdendo informação. Data Mart Uma data Mart é um subconjunto de uma data Warehouse e têm informação apenas acerca de uma parte do negocio. A DW, no modelo do Kimball(Bottom-up), é uma soma de Data Marts. Pode-se construir a DW a partir de data marts através da arquitectura BUS. Esta arquitectura assenta em dimensões conformes que são partilhadas por mais do que uma tabela factual de diferentes data marts. OLAP O OLAP (online analytical process ) é uma forma de explorar a informação que está numa Data Warehouse. O OLAP pode agregar os dados que estão numa Data Warehouse, aumentando- lhes a granularidade (roll up). A granularidade mínima que se pode pedir a um sistema de exploração OLAP é a mínima granularidade que esta na Data Warehouse. No modelo OLAP , a informação é mantida , conceptualmente, em cubos que guardam as medidas, as medidas são identificadas por duas ou mais dimensões . Cada dimensão do cubo dá uma perspectiva diferente das medidas que estão no cubo. Arquitecturas OLAP As diferentes variantes do OLAP diferem umas das outras na maneira como fazem o armazenamento da informação no cubo ROLAP- Sistema de analise construído em cima de uma base de dados relacional. Para não denunciar a estrutura da base de dados original, os dados passam da DW para o servidor ROLAP mas é-lhe acrescentado metadados. Depois os dados são apresentados ao utilizador soba a forma multidimensional (cubos). O utilizador tem sempre uma visão multidimensional dos dados. Os cubos são criados dinamicamente á medida que o utilizador vai pedindo informação. Suporta grande volume de dados. BrianSupra www.briansupra.blogspot.com
  • 4. MOLAP- O sistema de análise é construído em cima de uma base de dados multidimensional. Os dados passam da data warehouse para um servidor MOLAP que tem uma base de dados multidimensional. Na migração dos dados tem se executar processos específicos de conversão do modelo relacional para o modelo Multidimensional. No servidor os dados que estam no modelo multidimensional são mostrados sob a forma de cubos ao utilizador, para que ele efectue as suas pesquisas. Esta arquitectura suporta um volume moderado de dados. BrianSupra www.briansupra.blogspot.com