SlideShare ist ein Scribd-Unternehmen logo
1 von 8
Downloaden Sie, um offline zu lesen
Desenhar O Conceito de Data Warehouse Numa
Biblioteca da Universidade
ARISTIDIS DE JESUS ORNAI
                ´
Universidade de Evora



   Actualmente no mundo da Tecnologia da Informa¸˜o tem se vindo a ganhar mais conhecimento
                                                    ca
da Tecnologia de Data Warehouse. Data warehouse ´ um sistema de cole¸˜o de uma variedade
                                                      e                   ca
de dados necess´rios, seja na forma de dados hist´ricos ao longo de cinco anos ou dados actu-
                a                                  o
ais. Data warehouse ´ geralmente apoiado por um modelo conceptual de dados chamado modelo
                      e
multidimensional que pode ser usado para exibir dados de diferentes dimens˜es de an´lise e re-
                                                                             o       a
lat´rios. Os dados s˜o uma mais valia importante na organiza¸˜o que ´ usada para fazer uma
   o                  a                                        ca      e
estrat´gia ou tomar uma decis˜o. O processo de dados pode ser realizado em v´rios lugares, por
      e                       a                                                a
exemplo, base de dados, aplica¸˜es, e tecnologia de data warehouse. O m´todo utilizado ´ a fase
                              co                                        e              e
do desenvolvimento de um data warehouse na Biblioteca que identifica a sua arquitectura com o
volume de informa¸˜o mais importante a n´ operacional, de gest˜o e estrat´gico. Essa descri¸˜o
                   ca                     ıvel                   a         e                ca
apresenta uma arquitectura em esquema dimensional, como exibido na arquitectura do processo
de circula¸˜o dos livros.
          ca
Categorias e Descritores de Assunto: 1 [Kimball, 1998]: Modelo Dimensional; 2 [INMON,
1996]: Processo de Apoio a Decis˜o
                          `     a
Palavras-chave adicionais: Data Warehouse, Data Mart, Processo de Circula¸˜o, Tomada de
                                                                         ca
decis˜o
     a




1.          ¸˜
     INTRODUCAO
Data warehouse ´ uma colec¸˜o de dados integrados, orientados por assunto, n˜o
                  e           ca                                                 a
vol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de-
   a          a                                                               a
cis˜o(INMON, 1996). Esse conceito facilita as organiza¸˜es a gerir e manter os
   a                                                      co
dados hist´ricos obtidos a partir do sistema operacional ou de aplica¸˜es. O uso de
           o                                                         co
data warehouse ´ quase obrigat´rio em todas as organiza¸˜es, incluindo Bibliote-
                 e               o                         co
cas.O data warehouse permite a integra¸˜o de v´rios tipos de dados a partir de uma
                                         ca     a
variedade de aplica¸˜es ou sistemas. Isso garante o mecanismo de acesso para os ge-
                    co
stores obterem informa¸˜es e analis´-las para a tomada de decis˜o. As Bibliotecas
                        co          a                            a
que n˜o possuem uma integra¸˜o de data warehouse utilizam um processo manual
      a                        ca
ou usam um software utilizado para conectar os diferentes m´dulos. Basicamente
                                                              o
o processo que acontece ´ a actividade de resumir os dados que foram armazenados
                         e
no data warehouse ou sistema de base de dados em causa. O objectivo desta an´lise
                                                                               a
´ desenhar e construir um data warehouse para a Biblioteca de uma Universidade.
e
Os resultados obtidos ser˜o: desenho do esquema de estrela(Star Schema) para a
                           a
Biblioteca de uma Universidade, desenho da arquitectura do processo de circula¸˜o
                                                                                ca
dos livros e a base de dados de data warehouse.


Aristidis de Jesus Ornai, m6463@alunos.uevora.pt
                 ´
Universidade de Evora, Mestrado em Eng. Inform´tica. Relat´rios de Estado da Arte 2012.
                                                a         o

                                                                        SemEv 2012, P´ginas 1–8.
                                                                                     a
2     ·    Aristidis Jesus

2.    DATA WAREHOUSE
Existem v´rios conceitos de Data Warehouse propostos por diferentes autores.
            a
Apresentam-se dois dos principais conceitos que s˜o considerados muito importante.
                                                 a
Primeiro, o conceito defendido pelo professor Ralph Kimball que ´ um dos maiores
                                                                 e
conceituados precursores de conceitos de Data Warehouse. Este autor refere que
um data warehouse n˜o ´ mais do que a uni˜o de um conjunto de Data Marts.
                       a e                    a
Um data mart pode ser definido como um Data Warehouse de pequena capaci-
dade que abrange uma determinada ´rea ou departamento, oferecendo informa¸˜es
                                    a                                         co
mais detalhadas sobre um determinado assunto em quest˜o. O paradigma que
                                                            a
Ralph Kimball defende baseia-se no facto da informa¸˜o ser guardada utilizando
                                                       ca
o modelo dimensional(Kimball, 1998). Segundo, o Bill Inmon que descreve data
warehouse como “uma cole¸˜o de dados integrados, orientados, por assunto, n˜o
                            ca                                                  a
vol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de-
   a           a                                                             a
cis˜o”(INMON, 1996). O paradigma deste autor difere um pouco do paradigma
   a
de Kimball e defende que um Data Warehouse ´ apenas uma parte de todo o pro-
                                                e
cesso de Business Intelligence. Baseado na defini¸˜o do Inmon, deve seguir-se as
                                                   ca
caracter´ısticas mencionados em seguida:

2.1   Orientado por Assunto
Uma das principais caracter´ ısticas do Data warehouse ´ o facto de ter uma forte
                                                           e
                         ´
orienta¸˜o por assunto. E organizado em torno de assuntos importantes, tais como
       ca
por exemplo, cliente, produto e vendas. S˜o por isso focados na modela¸˜o e an´lise
                                            a                           ca     a
de dados para quem toma decis˜es, em vez de opera¸˜es di´rias e processamento
                                  o                     co      a
de transac¸˜es. Os Data warehouses s˜o selecionados, isto ´, fornecem uma vis˜o
           co                             a                    e                 a
simples sobre quest˜es de um tema particular atrav´s da exclus˜o de dados que
                    o                                  e           a
n˜o s˜o importantes no suporte ao processo de decis˜o. Pelo contr´rio, em ambi-
  a a                                                  a             a
entes operacionais as aplica¸˜es contˆm dados necess´rios ` satisfa¸˜o imediata dos
                            co        e               a      a     ca
requisitos funcionais que podem ou n˜o ser utilizados no processo de decis˜o.
                                        a                                  a

2.2   Integrado
Um data warehouse ´ constru´ por integra¸˜o de m´ltiplas fontes de dados. S˜o
                     e        ıdo            ca       u                           a
aplicadas t´cnicas de limpeza de dados e t´cnicas de integra¸˜o de dados. A inte-
           e                               e                   ca
gra¸˜o de dados, provenientes de sistemas operacionais, efectua-se nos mais variados
   ca
n´
 ıveis, na estrutura consistente de c´digos, na forma consistente das vari´veis, na
                                     o                                     a
convers˜o de nomes, etc. Os dados que s˜o inseridos no Data warehouse devem
        a                                  a
estar consistentes entre si em termos de nomes, formatos e unidades de medida.
Quando a informa¸˜o ´ movida para o Data Warehouse, ´ feita a convers˜o. No
                   ca e                                     e                a
processo de integra¸˜o dos dados tamb´m pode ser necess´rio corrigir dados que
                    ca                  e                    a
estejam inconsistentes na origem, devido ` n˜o integra¸˜o dos sistemas transac-
                                           a a            ca
cionais que fornecem para um estado uniforme de modo a permitir a carga no Data
warehouse.

2.3   N˜o Vol´tile
       a     a
Um sistema operacional permite diversas opera¸˜es de actualiza¸˜o dos dados como
                                             co               ca
acrescentar, substituir e apagar. Num Data Warehouse, pelo contr´rio, s´ existem
                                                                  a     o
dois tipos de opera¸˜es: uma introdu¸˜o inicial dos dados e o acesso a estes, n˜o
                    co               ca                                        a
SemEv 2012.
Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade   ·    3

requerendo por isso mecanismos de processamento de transac¸˜es, recupera¸˜o e
                                                               co            ca
controlo de concorrˆncia. Os dados que s˜o introduzidos no Data wahouse s˜o
                    e                       a                                   a
est´ticos, s˜o dados que reflectem situa¸˜es consolidadas, que n˜o sofrer˜o actu-
    a       a                           co                        a       a
aliza¸˜es. Os dados ap´s serem extra´
      co               o              ıdos, transformados e transportados para o
Data Warehouse est˜o dispon´
                    a        ıveis para os utilizadores apenas para consulta(figura
1).




                                  Fig. 1.   N˜o Vol´tile
                                             a     a


2.4   Vari´veis no Tempo
          a
O sistema operacional cont´m dados actuais, enquanto o data warehouse contˆm
                           e                                                  e
dados n˜o s´ actuais, mas tamb´m dados do hist´rico para serem utilizados na
         a o                      e              o
an´lise e tomada de decis˜o. A dimens˜o do tempo ´ uma vari´vel importante que
  a                      a            a           e           a
deve ser suportado por todos os data warehouse. Os dados para an´lise de v´rias
                                                                   a        a
fontes contˆm v´rios valores de tempo, por exemplo, di´rios, semanais e mensais.
            e  a                                      a

3.    ELEMENTOS DE UM DATA WAREHOUSE
3.1   Business Inteligence(BI)
O conceito do BI n˜o ´ recente. Muitas pessoas utilizaram esse conceito para
                     a e
tomar decis˜es que permitissem uma melhoria de vida nas comunidades. O inter-
            o
esse pelo BI tem vindo a crescer na medida em que a sua utiliza¸˜o possibilita
                                                                   ca
a
`s Bibliotecas realizar an´lises e simula¸˜es, de forma a tornar mais eficientes os
                          a              co
processos relacionados com o apoio ` decis˜o. Esse termo Business Inteligence gan-
                                     a     a
hou maior abrangˆncia, dentro de um processo natural de evolu¸˜o, as solu¸˜es de
                  e                                             ca         co
DSS(Decision Support System), geradores de consultas e de relat´rios, Data Marts,
                                                                o
Data mining, ferramentas OLAP(Online Analytical Processing), entre outras.
3.2   Data Warehouse vs Data Mart
Estes dois conceitos s˜o muito importantes e h´ que fazer uma distin¸˜o entre eles.
                      a                        a                      ca
Um Data Mart pode ser definido como um Data Warehouse de menor capacidade,
que abrange uma ´rea ou departamento espec´
                  a                          ıfico, oferecendo informa¸˜es mais de-
                                                                       co
                                          ´
talhadas sobre um determinado assunto. E por isso, uma abordagem espec´     ıfica do
Data Warehouse e o seu dom´  ınio abrange apenas uma ´rea espec´
                                                      a          ıfica da Biblioteca.
Um Data Warehouse pode ser visto como um conjunto de Data Marts, contendo
todas as informa¸˜es da biblioteca provenientes de diversas fontes de dados opera-
                 co
cionais, dispostas de forma integrada e consolidada.
                                                                           SemEv 2012.
4     ·   Aristidis Jesus

3.3   ´
      Area de Estagiamento de Dados(Staging Area)
Os processos mais importantes na forma¸˜o de um Data Warehouse da Biblioteca
                                           ca
s˜o sem d´vida os que envolvem a ´rea de est´gio. Esta constitui uma ´rea in-
 a         u                          a          a                         a
term´dia de armazenamento de informa¸˜o entre os sistemas operacionais e o Data
     e                                   ca
Warehouse. Os sistemas operacionais s˜o fontes de dados que abastecem o Data
                                         a
Warehouse. Os dados provenientes desses sistemas operacionais necessitam de ser
preparados para que sejam carregados no Data Warehouse. Para isso, s˜o uti- a
lizadas as tabelas de Staging Area, que s˜o respons´veis por este armazenamento in-
                                         a         a
     e               ´
term´dio de dados. E nesta fase que ´ implementado o processo de ETL(Extrac¸˜o,
                                     e                                        ca
Transforma¸˜o e Carregamento), essencial no Data Warehouse.
             ca

3.4   ETL(Extraction, Transformation, Loading)
—Extrac¸˜o
         ca
 O objectivo dos m´todos de extrac¸˜o ´ isolar os dados que ser˜o utilizados pe-
                     e                ca e                        a
                        a      a ´
 los sistemas de apoio ` decis˜o. E necess´rio filtrar apenas os dados que ser˜o
                                               a                                 a
 necess´rios, a fim de se evitar desperd´ de desempenho e de armazenamento.
        a                                 ıcio
 Existem diversas t´cnicas de extrac¸˜o de dados, os dados podem ser extra´
                     e                 ca                                      ıdos
 periodicamente, sendo neste caso o utilizador a definir a periodicidade do pro-
 cesso. Assim que ´ inicializado, o processo extrai as modifica¸˜es realizadas desde
                   e                                          co
 o per´ıodo da ultima actualiza¸˜o, actualizando os dados no Data Warehouse.
               ´               ca
—Transforma¸˜oca
 A partir do momento em que os dados j´ tenham sido extra´
                                           a                    ıdos dos sistemas
 operacionais para a ´rea de est´gio, a fase de transforma¸˜o ´ iniciada. Nesta
                      a           a                        ca e
 fase, um conjunto de processos s˜o iniciados, tais como limpeza e atribui¸˜o de
                                   a                                       ca
 novas chaves. As rotinas de limpeza e integra¸˜o dos dados tˆm como objectivo
                                               ca             e
 assegurar a consistˆncia no Data Warehouse. Por vezes s˜o realizadas exclus˜es
                    e                                     a                   o
 de informa¸˜o desnecess´rias, excluindo atributos e entidades que n˜o estejam
             ca           a                                           a
 regularmente a ser tratado pelo Data Warehouse. S˜o tamb´m por vezes ex-
                                                       a        e
 clu´
    ıdas rela¸˜es entre tabelas ou efectuados merging, opera¸˜es que influenciam
             co                                             co
 o desempenho das consultas.
—Carregamento
 O processo de carregamento ´ realizado ap´s efectuados todos os tratamentos
                               e            o
 aos dados nos processos de extrac¸˜o e transforma¸˜o. Esta etapa consiste em
                                  ca              ca
 carregar os dados tratados e armazenados na ´rea de est´gio e migr´-los para o
                                              a         a          a
 Data Warehouse.

3.5   Armazenamento de Dados Operacional
O conceito de ODS(Operational Data Storage) surgiu por volta dos anos 90, e
era visto como sendo um tipo de Data Warehouse. O ODS ´ formado por da-
                                                                 e
dos retirados dos diversos sistemas operacionais e sujeitos a diversas opera¸˜es de
                                                                             co
transforma¸˜o e convers˜o. Contem informa¸˜o detalhada de cariz transaccional,
           ca            a                   ca
actual e sujeita a processos de actualiza¸˜o regular. Fornece suporte ao processo
                                         ca
de tomada de decis˜es detalhadas, de cariz operacional, exigindo respostas quase
                    o
imediatas. O seu hist´rico ´ curto e a informa¸˜o est´ organizada por ´reas de
                       o     e                   ca     a                  a
an´lise.
   a
SemEv 2012.
Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade     ·    5

3.6   Modelo dimensional
O modelo dimensional ´ um desenho l´gico que tem o objectivo de apresentar os
                         e               o
dados num padr˜o normal e intuitivo que permite o acesso em alta performance.
                  a
O modelo dimensional utiliza o conceito do modelo relacional(ER) com algumas
restri¸˜es importantes. Cada modelo dimensional ´ composto por uma tabela com
      co                                           e
uma chave prim´ria composta, chamada tabela de factos, e um conjunto de tabelas
                 a
menores, chamadas tabelas de dimens˜o. Em outras palavras, a chave prim´ria da
                                        a                                  a
tabela de factos ´ composta de duas ou mais chaves estrangeiras. A caracter´
                  e                                                          ıstica
mais importante neste modelo dimensional ´ a de todas as chaves naturais poderem
                                            e
ser substitu´ıdas por chaves substitutas(surrogate keys). A utilidade de uma chave
substituta ´ permitir que o Data Warehouse possa ter alguma liberdade no uso dos
            e
dados, ao contr´rio do produzido pelo sistema OLTP. Baseado no diagrama Entity-
                a
Relation da Biblioteca e em necessidades de informa¸˜o exigidos pelo bibliotec´rio
                                                     ca                        a
e do gestor da Biblioteca, foi criado ent˜o um modelo dimensional numa forma em
                                          a
esquema da estrela para a data warehouse da Biblioteca, como ilustrado na figura
2.




                  Fig. 2.   Esquema de Estrela para o Facto de Circula¸˜o
                                                                      ca




                                                                            SemEv 2012.
6     ·   Aristidis Jesus

3.7   Metadados
A defini¸˜o mais comum de metadados ´ dados sobre dados. Devido ao grande
         ca                               e
volume de dados contidos no Data Warehouse ´ necess´rio que exista uma forma
                                                 e     a
                                      ´
flex´ e eficiente de acesso aos dados. E necess´rio saber que dados est˜o dispon´
    ıvel                                       a                     a        ıveis
e onde est˜o localizados. Os metadados podem ser vistos como a descri¸˜o dos da-
           a                                                           ca
dos, do seu ambiente, como s˜o manipulados e para onde s˜o distribu´
                               a                             a           ıdos. Os
metadados permitem definir as estruturas de informa¸˜es usadas, os algoritmos
                                                      co
utilizados para a transforma¸˜o, convers˜o, acumula¸˜o e agrega¸˜o de dados. Per-
                            ca          a          ca          ca
mitem identificar as fontes de informa¸˜o, qual o destino dos dados e tamb´m
                                        ca                                     e
controlar o mapeamento de dados ODS para o Data Warehouse. Os metadados
podem servir tamb´m para fazer a consolida¸˜o dos termos e temas dos dados. Um
                    e                       ca
determinado termo deve ter o mesmo significado em todo o Data Warehouse.

4.    GRANULARIDADE
Designa o n´ ou grau de detalhe dos dados no modelo dimensional. Geralmente,
           ıvel
a granularidade da tabela de factos ´ escolhida para ter o menor n´
                                     e                            ıvel de gran-
ularidade poss´
              ıvel. Pois isto permitir´ responder melhor a novas consultas e `
                                       a                                      a
introdu¸˜o de novos elementos de dados com n´ maior. A decis˜o sobre o grau
       ca                                     ıvel              a
tem uma implica¸˜o directa no n´ de detalhe da informa¸˜o disponibilizada no
                 ca             ıvel                      ca
Data Warehouse.

5.                           ¸˜
      NECESSIDADES DA INFORMACAO DA BIBLIOTECA
O levantamento das necessidades de informa¸˜o da Biblioteca ´ uma fase muito
                                               ca                  e
importante do trabalho de planeamento. Aqui define-se todas as fontes de dados
utilizados no data warehouse e define-se as necessidades de informa¸˜o a ser gerada
                                                                     ca
atrav´s da an´lise de relat´rios. Fontes de dados utilizados no data warehouse s˜o
      e       a             o                                                     a
os dados na base de dados biblioteca, que cont´m por exemplo tabelas de: livro,
                                                  e
tipo, autor, editor, aula, data, aluno, docente, curso e outras tabelas relacionadas.
As necessidades de gest˜o de informa¸˜o da biblioteca obtˆm as seguintes formas:
                         a             ca                   e
—As tendˆncias dos livros emprestados por professores e alunos.
        e
—Informa¸˜es sobre os tipos de livros que s˜o muitas vezes emprestados.
        co                                 a
—Tendˆncias no processo de circula¸˜o.
      e                            ca
—Informa¸˜es sobre o nome do autor e da editora cujos livros s˜o muitas vezes
        co                                                      a
 emprestados.

6.    ARQUITECTURA DE UM SISTEMA DE BIBLIOTECA
Entende-se por arquitectura, o conjunto de regras/estruturas a partir das quais ´   e
constru´ um sistema. Esta identifica e compreende o fluxo de dados atrav´s do
        ıdo                                                                    e
sistema e a forma como ser˜o utilizados dentro da pr´pria institui¸˜o. A estrutura
                            a                          o            ca
de um Data Warehouse ´ constru´ por uma base de dados independente, desen-
                         e          ıda
hada especificamente para apoio ` decis˜o, n˜o podendo ser actualizada e ao qual
                                    a     a    a
os utilizadores acedem atrav´s de uma ferramenta front-end. Este sistema t´
                              e                                                 ıpico
de Biblioteca composto por v´rios processos indicam factos de cada uma delas:
                                a
aquisi¸˜o, circula¸˜o, processo t´cnicos e servi¸o de referˆncia de livros. Arquitec-
      ca          ca              e              c         e
tura considerada no processo de circula¸˜o ´ o seguinte(figura 3):
                                         ca e
SemEv 2012.
Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade   ·    7




                    Fig. 3.   Arquitectura de Um Sistema de Biblioteca


—ETL:
 Componente que se dedica ` extrac¸˜o, carga e transforma¸˜o de dados. E a
                               a        ca                     ca             ´
 parte respons´vel pela recolha de informa¸˜es provenientes de diversas fontes.
               a                            co
—Data Warehouse:
 Local onde ficam concentrados os dados extra´   ıdos dos sistemas operacionais. A
 vantagem de ter um reposit´rio de dados ` parte ´ a possibilidade de armazenar
                              o             a      e
 informa¸˜es hist´ricas e agregadas, dando um melhor suporte para as an´lises
         co       o                                                         a
 futuras.
—Front-end:
 ´
 E a parte vis´ıvel aos utilizadores. Pode ser em forma de relat´rios padroniza-
                                                                  o
 dos, portal de intranet/internet, an´lises OLAP entre outras fun¸˜es, como Data
                                      a                           co
 mining ou simula¸˜es futuras.
                   co

7.   ESQUEMA DE ESTRELA(STAR SCHEMA)
No sistema OLTP(Online Transactional Processing) usa-se uma t´cnica conhecida
                                                                 e
como modelagem de dados ER(Entity-Relationship). No data warehouse utiliza-se
uma t´cnica de modelagem de dados que costuma-se chamar modelagem dimen-
        e
sional. Modelagem dimensional ´ um modelo de call-base que suporta alto volume
                                e
de query. Esquema estrela(star schema) ´ uma ferramenta que ´ aplicada a mode-
                                         e                     e
lagem dimensional e cont´m uma tabela de factos central. Tabela de factos cont´m
                         e                                                     e
atributos descritivos que s˜o usados para processar o query e chaves estrangeiras
                           a
para conectar `s tabelas de dimens˜o. An´lise de decis˜o de atributos consiste em
               a                   a       a           a
medidas de desempenho, m´tricas operacionais, tamanho de agrega¸˜o e todas as
                            e                                       ca
outras m´tricas que s˜o necess´rios para analisar o desempenho da organiza¸˜o. A
          e           a       a                                            ca
tabela de factos mostra o que ´ suportado pelo data warehouse para an´lise de de-
                              e                                        a
cis˜o. Tabelas de dimens˜o cercam a tabela de factos central. Tabelas de dimens˜o
   a                     a                                                      a
contˆm atributos que descrevem os dados inseridos na tabela de factos. Tabela
     e
dimensional mostra como os dados ser˜o analisados.
                                      a
   Ap´s a an´lise do exemplo concreto do esquema de estrela(figura 2), considerou-
       o     a
                                                                          SemEv 2012.
8    ·     Aristidis Jesus

se que as necessidades de gest˜o da informa¸˜o da biblioteca s˜o uteis. Definiu-se a
                               a             ca                a ´
tabela de facto para o processo de circula¸˜o contendo dados como C´digo Empresta
                                          ca                       o
e Multa, representando o n´mero da identifica¸˜o espec´
                             u                    ca      ıfico de cada empr´stimo
                                                                            e
do livro e o pagamento relativo ` entrega fora do prazo determinado. Tamb´m
                                   a                                            e
designa-se as dimens˜es adequadas para modelar o data warehouse como um sis-
                      o
tema de apoio ` decis˜o; por exemplo Dimens˜o Curso, Data, Editor, Aluno, Livro,
               a      a                        a
Autor, Docente, Tipo e Fonte. Na “Dimens˜o Tipo“(figura 2) de empr´stimo do
                                               a                         e
livro pretende defini-lo como o empr´stimo para uso na escola ou empr´stimo domi-
                                      e                                e
cili´rio.
    a


8.          ˜
     CONCLUSOES
Ap´s o desenvolvimento do conceito de data warehouse da Biblioteca e a an´lise do
  o                                                                      a
mesmo, obt´m-se algumas conclus˜es e sugest˜es que se considerou importantes:
           e                    o           o
—O modelo de data warehouse que foi desenhado e constru´ como o processo de
                                                            ıdo
 circula¸˜o de livros, pode garantir o acesso aos gestores da biblioteca de tomada
        ca
 de decis˜es.
         o
—Na fase de planeamento, o assunto do data warehouse pode ser desenvolvido em
 v´rios aspectos, de acordo com as necessidades da biblioteca.
  a
—No momento de an´lise do data warehouse, precisam ser desenvolvidas ferramen-
                     a
 tas de an´lise, ou seja, OLAP e Minera¸˜o de dados.
           a                              ca


     ˆ
REFERENCIAS
Aranha Filho, F. J. E. 2005. Perfil de usu´rio da biblioteca karl a. boedecker: gera¸˜o de valor
                                             a                                     ca
  para pesquisadores por meio de coopera¸˜o indirecta. http://hdl.handle.net/10438/2959.
                                            ca
  (online em Des 20, 2011).
Caldeira, C. P. 2008. Data Warehouse:Conceitos e Modelos. Edi¸˜o S´
                                                                  ca ılabos,Lda.
Inmon, W. H. 1997. Como construir o data warehouse. 1–37p.
K.Tanaka, A. Arquitectura de data warehouse. http://www.uniriotec.br/~tanaka/SAIN. (on-
  line em Des 27, 2011).
Nicole Amboni, Guilherme Cintra, E. d. O. Estrat´gia de crm aplicada a dsi:uma proposta
                                                       e
  para as bibliotecas universit´rias. Gest˜o de Informa¸˜o, 1–16p.
                               a          a            ca
Panegassi, L. F. 2006. Data warehouse.
Ralph kimball, M. R. The Data Warehouse: The Complete Guide to Dimensional Modeling.
  Wiley Computer Publishing,New York,John Wiley & Sons,Inc, Second Edition.
Santana, M. F. 2010. O conceito de data warehousing aplicado a gest˜o de informa¸˜es em
                                                                   `    a              co
  bibliotecas. 137–158.
Wikipedia.       Extract, transformation,load.        http://en.wikipedia.org/wiki/Extract,
  _transform,_load. (online em Des 28, 2011).
Wikipedia. Star schema. http://en.wikipedia.org/wiki/Star_schema. (online em Des 27,
  2011).




SemEv 2012.

Weitere ähnliche Inhalte

Was ist angesagt?

38664419 artigo-data warehouse
38664419 artigo-data warehouse38664419 artigo-data warehouse
38664419 artigo-data warehouse
diochel
 
Apresentacao1 base de_dados
Apresentacao1 base de_dadosApresentacao1 base de_dados
Apresentacao1 base de_dados
Daniel Silva
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
Vinícius Amaral
 
Kimball Vs Inmon
Kimball Vs InmonKimball Vs Inmon
Kimball Vs Inmon
guest2308b5
 
Matéria de apoio (Base de dados)
Matéria de apoio  (Base de dados)Matéria de apoio  (Base de dados)
Matéria de apoio (Base de dados)
André Silva
 
Aula 1 introdução a base de dados
Aula 1   introdução a base de dadosAula 1   introdução a base de dados
Aula 1 introdução a base de dados
Hélio Martins
 
Isc aula 5 - estrutura e organização da informação
Isc   aula 5 - estrutura e organização da informaçãoIsc   aula 5 - estrutura e organização da informação
Isc aula 5 - estrutura e organização da informação
Fábio Andrade
 

Was ist angesagt? (20)

38664419 artigo-data warehouse
38664419 artigo-data warehouse38664419 artigo-data warehouse
38664419 artigo-data warehouse
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Apresentacao1 base de_dados
Apresentacao1 base de_dadosApresentacao1 base de_dados
Apresentacao1 base de_dados
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
 
Data Warehouse e Data Mining
Data Warehouse e Data MiningData Warehouse e Data Mining
Data Warehouse e Data Mining
 
Pg20235 rf20222vp20208
Pg20235 rf20222vp20208Pg20235 rf20222vp20208
Pg20235 rf20222vp20208
 
Projeto de Banco de Dados - Capítulo 1
Projeto de Banco de Dados - Capítulo 1Projeto de Banco de Dados - Capítulo 1
Projeto de Banco de Dados - Capítulo 1
 
datawarehouse2
datawarehouse2datawarehouse2
datawarehouse2
 
Kimball Vs Inmon
Kimball Vs InmonKimball Vs Inmon
Kimball Vs Inmon
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
 
2 artigo workap3 impresso
2 artigo workap3 impresso2 artigo workap3 impresso
2 artigo workap3 impresso
 
Data warehousing
Data warehousingData warehousing
Data warehousing
 
Matéria de apoio (Base de dados)
Matéria de apoio  (Base de dados)Matéria de apoio  (Base de dados)
Matéria de apoio (Base de dados)
 
Pesquisa sobre no sql
Pesquisa sobre no sqlPesquisa sobre no sql
Pesquisa sobre no sql
 
Sad01 elvis
Sad01 elvisSad01 elvis
Sad01 elvis
 
Aula 1 introdução a base de dados
Aula 1   introdução a base de dadosAula 1   introdução a base de dados
Aula 1 introdução a base de dados
 
Isc aula 5 - estrutura e organização da informação
Isc   aula 5 - estrutura e organização da informaçãoIsc   aula 5 - estrutura e organização da informação
Isc aula 5 - estrutura e organização da informação
 

Ähnlich wie Desenhar o conceito de data warehouse numa biblioteca da universidade

APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdfAPOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
LinaKelly2
 
Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)
m4rkSpinelli
 
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisNoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
Carlo Pires
 

Ähnlich wie Desenhar o conceito de data warehouse numa biblioteca da universidade (20)

Aula III: Informática em Saúde- UnB-FGA/Gama
Aula III: Informática em Saúde- UnB-FGA/GamaAula III: Informática em Saúde- UnB-FGA/Gama
Aula III: Informática em Saúde- UnB-FGA/Gama
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
 
BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdfAPOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
 
Data Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudançaData Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudança
 
Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
 
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisNoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
 
Taxonomia Automatizada para Organizações
Taxonomia Automatizada para OrganizaçõesTaxonomia Automatizada para Organizações
Taxonomia Automatizada para Organizações
 
Sistema de informação executiva área de vendas
Sistema de informação executiva área de vendasSistema de informação executiva área de vendas
Sistema de informação executiva área de vendas
 
Bi ferramentas olap 1
Bi   ferramentas olap 1Bi   ferramentas olap 1
Bi ferramentas olap 1
 
Parte8 - Fundamentos de Sistema de Informação
Parte8 - Fundamentos de Sistema de InformaçãoParte8 - Fundamentos de Sistema de Informação
Parte8 - Fundamentos de Sistema de Informação
 
Aula 1
Aula 1Aula 1
Aula 1
 
aula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfaula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdf
 
Big Data
Big DataBig Data
Big Data
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 

Kürzlich hochgeladen

Assessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdfAssessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdf
Natalia Granato
 

Kürzlich hochgeladen (6)

Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
Assessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdfAssessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdf
 

Desenhar o conceito de data warehouse numa biblioteca da universidade

  • 1. Desenhar O Conceito de Data Warehouse Numa Biblioteca da Universidade ARISTIDIS DE JESUS ORNAI ´ Universidade de Evora Actualmente no mundo da Tecnologia da Informa¸˜o tem se vindo a ganhar mais conhecimento ca da Tecnologia de Data Warehouse. Data warehouse ´ um sistema de cole¸˜o de uma variedade e ca de dados necess´rios, seja na forma de dados hist´ricos ao longo de cinco anos ou dados actu- a o ais. Data warehouse ´ geralmente apoiado por um modelo conceptual de dados chamado modelo e multidimensional que pode ser usado para exibir dados de diferentes dimens˜es de an´lise e re- o a lat´rios. Os dados s˜o uma mais valia importante na organiza¸˜o que ´ usada para fazer uma o a ca e estrat´gia ou tomar uma decis˜o. O processo de dados pode ser realizado em v´rios lugares, por e a a exemplo, base de dados, aplica¸˜es, e tecnologia de data warehouse. O m´todo utilizado ´ a fase co e e do desenvolvimento de um data warehouse na Biblioteca que identifica a sua arquitectura com o volume de informa¸˜o mais importante a n´ operacional, de gest˜o e estrat´gico. Essa descri¸˜o ca ıvel a e ca apresenta uma arquitectura em esquema dimensional, como exibido na arquitectura do processo de circula¸˜o dos livros. ca Categorias e Descritores de Assunto: 1 [Kimball, 1998]: Modelo Dimensional; 2 [INMON, 1996]: Processo de Apoio a Decis˜o ` a Palavras-chave adicionais: Data Warehouse, Data Mart, Processo de Circula¸˜o, Tomada de ca decis˜o a 1. ¸˜ INTRODUCAO Data warehouse ´ uma colec¸˜o de dados integrados, orientados por assunto, n˜o e ca a vol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de- a a a cis˜o(INMON, 1996). Esse conceito facilita as organiza¸˜es a gerir e manter os a co dados hist´ricos obtidos a partir do sistema operacional ou de aplica¸˜es. O uso de o co data warehouse ´ quase obrigat´rio em todas as organiza¸˜es, incluindo Bibliote- e o co cas.O data warehouse permite a integra¸˜o de v´rios tipos de dados a partir de uma ca a variedade de aplica¸˜es ou sistemas. Isso garante o mecanismo de acesso para os ge- co stores obterem informa¸˜es e analis´-las para a tomada de decis˜o. As Bibliotecas co a a que n˜o possuem uma integra¸˜o de data warehouse utilizam um processo manual a ca ou usam um software utilizado para conectar os diferentes m´dulos. Basicamente o o processo que acontece ´ a actividade de resumir os dados que foram armazenados e no data warehouse ou sistema de base de dados em causa. O objectivo desta an´lise a ´ desenhar e construir um data warehouse para a Biblioteca de uma Universidade. e Os resultados obtidos ser˜o: desenho do esquema de estrela(Star Schema) para a a Biblioteca de uma Universidade, desenho da arquitectura do processo de circula¸˜o ca dos livros e a base de dados de data warehouse. Aristidis de Jesus Ornai, m6463@alunos.uevora.pt ´ Universidade de Evora, Mestrado em Eng. Inform´tica. Relat´rios de Estado da Arte 2012. a o SemEv 2012, P´ginas 1–8. a
  • 2. 2 · Aristidis Jesus 2. DATA WAREHOUSE Existem v´rios conceitos de Data Warehouse propostos por diferentes autores. a Apresentam-se dois dos principais conceitos que s˜o considerados muito importante. a Primeiro, o conceito defendido pelo professor Ralph Kimball que ´ um dos maiores e conceituados precursores de conceitos de Data Warehouse. Este autor refere que um data warehouse n˜o ´ mais do que a uni˜o de um conjunto de Data Marts. a e a Um data mart pode ser definido como um Data Warehouse de pequena capaci- dade que abrange uma determinada ´rea ou departamento, oferecendo informa¸˜es a co mais detalhadas sobre um determinado assunto em quest˜o. O paradigma que a Ralph Kimball defende baseia-se no facto da informa¸˜o ser guardada utilizando ca o modelo dimensional(Kimball, 1998). Segundo, o Bill Inmon que descreve data warehouse como “uma cole¸˜o de dados integrados, orientados, por assunto, n˜o ca a vol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de- a a a cis˜o”(INMON, 1996). O paradigma deste autor difere um pouco do paradigma a de Kimball e defende que um Data Warehouse ´ apenas uma parte de todo o pro- e cesso de Business Intelligence. Baseado na defini¸˜o do Inmon, deve seguir-se as ca caracter´ısticas mencionados em seguida: 2.1 Orientado por Assunto Uma das principais caracter´ ısticas do Data warehouse ´ o facto de ter uma forte e ´ orienta¸˜o por assunto. E organizado em torno de assuntos importantes, tais como ca por exemplo, cliente, produto e vendas. S˜o por isso focados na modela¸˜o e an´lise a ca a de dados para quem toma decis˜es, em vez de opera¸˜es di´rias e processamento o co a de transac¸˜es. Os Data warehouses s˜o selecionados, isto ´, fornecem uma vis˜o co a e a simples sobre quest˜es de um tema particular atrav´s da exclus˜o de dados que o e a n˜o s˜o importantes no suporte ao processo de decis˜o. Pelo contr´rio, em ambi- a a a a entes operacionais as aplica¸˜es contˆm dados necess´rios ` satisfa¸˜o imediata dos co e a a ca requisitos funcionais que podem ou n˜o ser utilizados no processo de decis˜o. a a 2.2 Integrado Um data warehouse ´ constru´ por integra¸˜o de m´ltiplas fontes de dados. S˜o e ıdo ca u a aplicadas t´cnicas de limpeza de dados e t´cnicas de integra¸˜o de dados. A inte- e e ca gra¸˜o de dados, provenientes de sistemas operacionais, efectua-se nos mais variados ca n´ ıveis, na estrutura consistente de c´digos, na forma consistente das vari´veis, na o a convers˜o de nomes, etc. Os dados que s˜o inseridos no Data warehouse devem a a estar consistentes entre si em termos de nomes, formatos e unidades de medida. Quando a informa¸˜o ´ movida para o Data Warehouse, ´ feita a convers˜o. No ca e e a processo de integra¸˜o dos dados tamb´m pode ser necess´rio corrigir dados que ca e a estejam inconsistentes na origem, devido ` n˜o integra¸˜o dos sistemas transac- a a ca cionais que fornecem para um estado uniforme de modo a permitir a carga no Data warehouse. 2.3 N˜o Vol´tile a a Um sistema operacional permite diversas opera¸˜es de actualiza¸˜o dos dados como co ca acrescentar, substituir e apagar. Num Data Warehouse, pelo contr´rio, s´ existem a o dois tipos de opera¸˜es: uma introdu¸˜o inicial dos dados e o acesso a estes, n˜o co ca a SemEv 2012.
  • 3. Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 3 requerendo por isso mecanismos de processamento de transac¸˜es, recupera¸˜o e co ca controlo de concorrˆncia. Os dados que s˜o introduzidos no Data wahouse s˜o e a a est´ticos, s˜o dados que reflectem situa¸˜es consolidadas, que n˜o sofrer˜o actu- a a co a a aliza¸˜es. Os dados ap´s serem extra´ co o ıdos, transformados e transportados para o Data Warehouse est˜o dispon´ a ıveis para os utilizadores apenas para consulta(figura 1). Fig. 1. N˜o Vol´tile a a 2.4 Vari´veis no Tempo a O sistema operacional cont´m dados actuais, enquanto o data warehouse contˆm e e dados n˜o s´ actuais, mas tamb´m dados do hist´rico para serem utilizados na a o e o an´lise e tomada de decis˜o. A dimens˜o do tempo ´ uma vari´vel importante que a a a e a deve ser suportado por todos os data warehouse. Os dados para an´lise de v´rias a a fontes contˆm v´rios valores de tempo, por exemplo, di´rios, semanais e mensais. e a a 3. ELEMENTOS DE UM DATA WAREHOUSE 3.1 Business Inteligence(BI) O conceito do BI n˜o ´ recente. Muitas pessoas utilizaram esse conceito para a e tomar decis˜es que permitissem uma melhoria de vida nas comunidades. O inter- o esse pelo BI tem vindo a crescer na medida em que a sua utiliza¸˜o possibilita ca a `s Bibliotecas realizar an´lises e simula¸˜es, de forma a tornar mais eficientes os a co processos relacionados com o apoio ` decis˜o. Esse termo Business Inteligence gan- a a hou maior abrangˆncia, dentro de um processo natural de evolu¸˜o, as solu¸˜es de e ca co DSS(Decision Support System), geradores de consultas e de relat´rios, Data Marts, o Data mining, ferramentas OLAP(Online Analytical Processing), entre outras. 3.2 Data Warehouse vs Data Mart Estes dois conceitos s˜o muito importantes e h´ que fazer uma distin¸˜o entre eles. a a ca Um Data Mart pode ser definido como um Data Warehouse de menor capacidade, que abrange uma ´rea ou departamento espec´ a ıfico, oferecendo informa¸˜es mais de- co ´ talhadas sobre um determinado assunto. E por isso, uma abordagem espec´ ıfica do Data Warehouse e o seu dom´ ınio abrange apenas uma ´rea espec´ a ıfica da Biblioteca. Um Data Warehouse pode ser visto como um conjunto de Data Marts, contendo todas as informa¸˜es da biblioteca provenientes de diversas fontes de dados opera- co cionais, dispostas de forma integrada e consolidada. SemEv 2012.
  • 4. 4 · Aristidis Jesus 3.3 ´ Area de Estagiamento de Dados(Staging Area) Os processos mais importantes na forma¸˜o de um Data Warehouse da Biblioteca ca s˜o sem d´vida os que envolvem a ´rea de est´gio. Esta constitui uma ´rea in- a u a a a term´dia de armazenamento de informa¸˜o entre os sistemas operacionais e o Data e ca Warehouse. Os sistemas operacionais s˜o fontes de dados que abastecem o Data a Warehouse. Os dados provenientes desses sistemas operacionais necessitam de ser preparados para que sejam carregados no Data Warehouse. Para isso, s˜o uti- a lizadas as tabelas de Staging Area, que s˜o respons´veis por este armazenamento in- a a e ´ term´dio de dados. E nesta fase que ´ implementado o processo de ETL(Extrac¸˜o, e ca Transforma¸˜o e Carregamento), essencial no Data Warehouse. ca 3.4 ETL(Extraction, Transformation, Loading) —Extrac¸˜o ca O objectivo dos m´todos de extrac¸˜o ´ isolar os dados que ser˜o utilizados pe- e ca e a a a ´ los sistemas de apoio ` decis˜o. E necess´rio filtrar apenas os dados que ser˜o a a necess´rios, a fim de se evitar desperd´ de desempenho e de armazenamento. a ıcio Existem diversas t´cnicas de extrac¸˜o de dados, os dados podem ser extra´ e ca ıdos periodicamente, sendo neste caso o utilizador a definir a periodicidade do pro- cesso. Assim que ´ inicializado, o processo extrai as modifica¸˜es realizadas desde e co o per´ıodo da ultima actualiza¸˜o, actualizando os dados no Data Warehouse. ´ ca —Transforma¸˜oca A partir do momento em que os dados j´ tenham sido extra´ a ıdos dos sistemas operacionais para a ´rea de est´gio, a fase de transforma¸˜o ´ iniciada. Nesta a a ca e fase, um conjunto de processos s˜o iniciados, tais como limpeza e atribui¸˜o de a ca novas chaves. As rotinas de limpeza e integra¸˜o dos dados tˆm como objectivo ca e assegurar a consistˆncia no Data Warehouse. Por vezes s˜o realizadas exclus˜es e a o de informa¸˜o desnecess´rias, excluindo atributos e entidades que n˜o estejam ca a a regularmente a ser tratado pelo Data Warehouse. S˜o tamb´m por vezes ex- a e clu´ ıdas rela¸˜es entre tabelas ou efectuados merging, opera¸˜es que influenciam co co o desempenho das consultas. —Carregamento O processo de carregamento ´ realizado ap´s efectuados todos os tratamentos e o aos dados nos processos de extrac¸˜o e transforma¸˜o. Esta etapa consiste em ca ca carregar os dados tratados e armazenados na ´rea de est´gio e migr´-los para o a a a Data Warehouse. 3.5 Armazenamento de Dados Operacional O conceito de ODS(Operational Data Storage) surgiu por volta dos anos 90, e era visto como sendo um tipo de Data Warehouse. O ODS ´ formado por da- e dos retirados dos diversos sistemas operacionais e sujeitos a diversas opera¸˜es de co transforma¸˜o e convers˜o. Contem informa¸˜o detalhada de cariz transaccional, ca a ca actual e sujeita a processos de actualiza¸˜o regular. Fornece suporte ao processo ca de tomada de decis˜es detalhadas, de cariz operacional, exigindo respostas quase o imediatas. O seu hist´rico ´ curto e a informa¸˜o est´ organizada por ´reas de o e ca a a an´lise. a SemEv 2012.
  • 5. Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 5 3.6 Modelo dimensional O modelo dimensional ´ um desenho l´gico que tem o objectivo de apresentar os e o dados num padr˜o normal e intuitivo que permite o acesso em alta performance. a O modelo dimensional utiliza o conceito do modelo relacional(ER) com algumas restri¸˜es importantes. Cada modelo dimensional ´ composto por uma tabela com co e uma chave prim´ria composta, chamada tabela de factos, e um conjunto de tabelas a menores, chamadas tabelas de dimens˜o. Em outras palavras, a chave prim´ria da a a tabela de factos ´ composta de duas ou mais chaves estrangeiras. A caracter´ e ıstica mais importante neste modelo dimensional ´ a de todas as chaves naturais poderem e ser substitu´ıdas por chaves substitutas(surrogate keys). A utilidade de uma chave substituta ´ permitir que o Data Warehouse possa ter alguma liberdade no uso dos e dados, ao contr´rio do produzido pelo sistema OLTP. Baseado no diagrama Entity- a Relation da Biblioteca e em necessidades de informa¸˜o exigidos pelo bibliotec´rio ca a e do gestor da Biblioteca, foi criado ent˜o um modelo dimensional numa forma em a esquema da estrela para a data warehouse da Biblioteca, como ilustrado na figura 2. Fig. 2. Esquema de Estrela para o Facto de Circula¸˜o ca SemEv 2012.
  • 6. 6 · Aristidis Jesus 3.7 Metadados A defini¸˜o mais comum de metadados ´ dados sobre dados. Devido ao grande ca e volume de dados contidos no Data Warehouse ´ necess´rio que exista uma forma e a ´ flex´ e eficiente de acesso aos dados. E necess´rio saber que dados est˜o dispon´ ıvel a a ıveis e onde est˜o localizados. Os metadados podem ser vistos como a descri¸˜o dos da- a ca dos, do seu ambiente, como s˜o manipulados e para onde s˜o distribu´ a a ıdos. Os metadados permitem definir as estruturas de informa¸˜es usadas, os algoritmos co utilizados para a transforma¸˜o, convers˜o, acumula¸˜o e agrega¸˜o de dados. Per- ca a ca ca mitem identificar as fontes de informa¸˜o, qual o destino dos dados e tamb´m ca e controlar o mapeamento de dados ODS para o Data Warehouse. Os metadados podem servir tamb´m para fazer a consolida¸˜o dos termos e temas dos dados. Um e ca determinado termo deve ter o mesmo significado em todo o Data Warehouse. 4. GRANULARIDADE Designa o n´ ou grau de detalhe dos dados no modelo dimensional. Geralmente, ıvel a granularidade da tabela de factos ´ escolhida para ter o menor n´ e ıvel de gran- ularidade poss´ ıvel. Pois isto permitir´ responder melhor a novas consultas e ` a a introdu¸˜o de novos elementos de dados com n´ maior. A decis˜o sobre o grau ca ıvel a tem uma implica¸˜o directa no n´ de detalhe da informa¸˜o disponibilizada no ca ıvel ca Data Warehouse. 5. ¸˜ NECESSIDADES DA INFORMACAO DA BIBLIOTECA O levantamento das necessidades de informa¸˜o da Biblioteca ´ uma fase muito ca e importante do trabalho de planeamento. Aqui define-se todas as fontes de dados utilizados no data warehouse e define-se as necessidades de informa¸˜o a ser gerada ca atrav´s da an´lise de relat´rios. Fontes de dados utilizados no data warehouse s˜o e a o a os dados na base de dados biblioteca, que cont´m por exemplo tabelas de: livro, e tipo, autor, editor, aula, data, aluno, docente, curso e outras tabelas relacionadas. As necessidades de gest˜o de informa¸˜o da biblioteca obtˆm as seguintes formas: a ca e —As tendˆncias dos livros emprestados por professores e alunos. e —Informa¸˜es sobre os tipos de livros que s˜o muitas vezes emprestados. co a —Tendˆncias no processo de circula¸˜o. e ca —Informa¸˜es sobre o nome do autor e da editora cujos livros s˜o muitas vezes co a emprestados. 6. ARQUITECTURA DE UM SISTEMA DE BIBLIOTECA Entende-se por arquitectura, o conjunto de regras/estruturas a partir das quais ´ e constru´ um sistema. Esta identifica e compreende o fluxo de dados atrav´s do ıdo e sistema e a forma como ser˜o utilizados dentro da pr´pria institui¸˜o. A estrutura a o ca de um Data Warehouse ´ constru´ por uma base de dados independente, desen- e ıda hada especificamente para apoio ` decis˜o, n˜o podendo ser actualizada e ao qual a a a os utilizadores acedem atrav´s de uma ferramenta front-end. Este sistema t´ e ıpico de Biblioteca composto por v´rios processos indicam factos de cada uma delas: a aquisi¸˜o, circula¸˜o, processo t´cnicos e servi¸o de referˆncia de livros. Arquitec- ca ca e c e tura considerada no processo de circula¸˜o ´ o seguinte(figura 3): ca e SemEv 2012.
  • 7. Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 7 Fig. 3. Arquitectura de Um Sistema de Biblioteca —ETL: Componente que se dedica ` extrac¸˜o, carga e transforma¸˜o de dados. E a a ca ca ´ parte respons´vel pela recolha de informa¸˜es provenientes de diversas fontes. a co —Data Warehouse: Local onde ficam concentrados os dados extra´ ıdos dos sistemas operacionais. A vantagem de ter um reposit´rio de dados ` parte ´ a possibilidade de armazenar o a e informa¸˜es hist´ricas e agregadas, dando um melhor suporte para as an´lises co o a futuras. —Front-end: ´ E a parte vis´ıvel aos utilizadores. Pode ser em forma de relat´rios padroniza- o dos, portal de intranet/internet, an´lises OLAP entre outras fun¸˜es, como Data a co mining ou simula¸˜es futuras. co 7. ESQUEMA DE ESTRELA(STAR SCHEMA) No sistema OLTP(Online Transactional Processing) usa-se uma t´cnica conhecida e como modelagem de dados ER(Entity-Relationship). No data warehouse utiliza-se uma t´cnica de modelagem de dados que costuma-se chamar modelagem dimen- e sional. Modelagem dimensional ´ um modelo de call-base que suporta alto volume e de query. Esquema estrela(star schema) ´ uma ferramenta que ´ aplicada a mode- e e lagem dimensional e cont´m uma tabela de factos central. Tabela de factos cont´m e e atributos descritivos que s˜o usados para processar o query e chaves estrangeiras a para conectar `s tabelas de dimens˜o. An´lise de decis˜o de atributos consiste em a a a a medidas de desempenho, m´tricas operacionais, tamanho de agrega¸˜o e todas as e ca outras m´tricas que s˜o necess´rios para analisar o desempenho da organiza¸˜o. A e a a ca tabela de factos mostra o que ´ suportado pelo data warehouse para an´lise de de- e a cis˜o. Tabelas de dimens˜o cercam a tabela de factos central. Tabelas de dimens˜o a a a contˆm atributos que descrevem os dados inseridos na tabela de factos. Tabela e dimensional mostra como os dados ser˜o analisados. a Ap´s a an´lise do exemplo concreto do esquema de estrela(figura 2), considerou- o a SemEv 2012.
  • 8. 8 · Aristidis Jesus se que as necessidades de gest˜o da informa¸˜o da biblioteca s˜o uteis. Definiu-se a a ca a ´ tabela de facto para o processo de circula¸˜o contendo dados como C´digo Empresta ca o e Multa, representando o n´mero da identifica¸˜o espec´ u ca ıfico de cada empr´stimo e do livro e o pagamento relativo ` entrega fora do prazo determinado. Tamb´m a e designa-se as dimens˜es adequadas para modelar o data warehouse como um sis- o tema de apoio ` decis˜o; por exemplo Dimens˜o Curso, Data, Editor, Aluno, Livro, a a a Autor, Docente, Tipo e Fonte. Na “Dimens˜o Tipo“(figura 2) de empr´stimo do a e livro pretende defini-lo como o empr´stimo para uso na escola ou empr´stimo domi- e e cili´rio. a 8. ˜ CONCLUSOES Ap´s o desenvolvimento do conceito de data warehouse da Biblioteca e a an´lise do o a mesmo, obt´m-se algumas conclus˜es e sugest˜es que se considerou importantes: e o o —O modelo de data warehouse que foi desenhado e constru´ como o processo de ıdo circula¸˜o de livros, pode garantir o acesso aos gestores da biblioteca de tomada ca de decis˜es. o —Na fase de planeamento, o assunto do data warehouse pode ser desenvolvido em v´rios aspectos, de acordo com as necessidades da biblioteca. a —No momento de an´lise do data warehouse, precisam ser desenvolvidas ferramen- a tas de an´lise, ou seja, OLAP e Minera¸˜o de dados. a ca ˆ REFERENCIAS Aranha Filho, F. J. E. 2005. Perfil de usu´rio da biblioteca karl a. boedecker: gera¸˜o de valor a ca para pesquisadores por meio de coopera¸˜o indirecta. http://hdl.handle.net/10438/2959. ca (online em Des 20, 2011). Caldeira, C. P. 2008. Data Warehouse:Conceitos e Modelos. Edi¸˜o S´ ca ılabos,Lda. Inmon, W. H. 1997. Como construir o data warehouse. 1–37p. K.Tanaka, A. Arquitectura de data warehouse. http://www.uniriotec.br/~tanaka/SAIN. (on- line em Des 27, 2011). Nicole Amboni, Guilherme Cintra, E. d. O. Estrat´gia de crm aplicada a dsi:uma proposta e para as bibliotecas universit´rias. Gest˜o de Informa¸˜o, 1–16p. a a ca Panegassi, L. F. 2006. Data warehouse. Ralph kimball, M. R. The Data Warehouse: The Complete Guide to Dimensional Modeling. Wiley Computer Publishing,New York,John Wiley & Sons,Inc, Second Edition. Santana, M. F. 2010. O conceito de data warehousing aplicado a gest˜o de informa¸˜es em ` a co bibliotecas. 137–158. Wikipedia. Extract, transformation,load. http://en.wikipedia.org/wiki/Extract, _transform,_load. (online em Des 28, 2011). Wikipedia. Star schema. http://en.wikipedia.org/wiki/Star_schema. (online em Des 27, 2011). SemEv 2012.