Desenhar o conceito de data warehouse numa biblioteca da universidade
1. Desenhar O Conceito de Data Warehouse Numa
Biblioteca da Universidade
ARISTIDIS DE JESUS ORNAI
´
Universidade de Evora
Actualmente no mundo da Tecnologia da Informa¸˜o tem se vindo a ganhar mais conhecimento
ca
da Tecnologia de Data Warehouse. Data warehouse ´ um sistema de cole¸˜o de uma variedade
e ca
de dados necess´rios, seja na forma de dados hist´ricos ao longo de cinco anos ou dados actu-
a o
ais. Data warehouse ´ geralmente apoiado por um modelo conceptual de dados chamado modelo
e
multidimensional que pode ser usado para exibir dados de diferentes dimens˜es de an´lise e re-
o a
lat´rios. Os dados s˜o uma mais valia importante na organiza¸˜o que ´ usada para fazer uma
o a ca e
estrat´gia ou tomar uma decis˜o. O processo de dados pode ser realizado em v´rios lugares, por
e a a
exemplo, base de dados, aplica¸˜es, e tecnologia de data warehouse. O m´todo utilizado ´ a fase
co e e
do desenvolvimento de um data warehouse na Biblioteca que identifica a sua arquitectura com o
volume de informa¸˜o mais importante a n´ operacional, de gest˜o e estrat´gico. Essa descri¸˜o
ca ıvel a e ca
apresenta uma arquitectura em esquema dimensional, como exibido na arquitectura do processo
de circula¸˜o dos livros.
ca
Categorias e Descritores de Assunto: 1 [Kimball, 1998]: Modelo Dimensional; 2 [INMON,
1996]: Processo de Apoio a Decis˜o
` a
Palavras-chave adicionais: Data Warehouse, Data Mart, Processo de Circula¸˜o, Tomada de
ca
decis˜o
a
1. ¸˜
INTRODUCAO
Data warehouse ´ uma colec¸˜o de dados integrados, orientados por assunto, n˜o
e ca a
vol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de-
a a a
cis˜o(INMON, 1996). Esse conceito facilita as organiza¸˜es a gerir e manter os
a co
dados hist´ricos obtidos a partir do sistema operacional ou de aplica¸˜es. O uso de
o co
data warehouse ´ quase obrigat´rio em todas as organiza¸˜es, incluindo Bibliote-
e o co
cas.O data warehouse permite a integra¸˜o de v´rios tipos de dados a partir de uma
ca a
variedade de aplica¸˜es ou sistemas. Isso garante o mecanismo de acesso para os ge-
co
stores obterem informa¸˜es e analis´-las para a tomada de decis˜o. As Bibliotecas
co a a
que n˜o possuem uma integra¸˜o de data warehouse utilizam um processo manual
a ca
ou usam um software utilizado para conectar os diferentes m´dulos. Basicamente
o
o processo que acontece ´ a actividade de resumir os dados que foram armazenados
e
no data warehouse ou sistema de base de dados em causa. O objectivo desta an´lise
a
´ desenhar e construir um data warehouse para a Biblioteca de uma Universidade.
e
Os resultados obtidos ser˜o: desenho do esquema de estrela(Star Schema) para a
a
Biblioteca de uma Universidade, desenho da arquitectura do processo de circula¸˜o
ca
dos livros e a base de dados de data warehouse.
Aristidis de Jesus Ornai, m6463@alunos.uevora.pt
´
Universidade de Evora, Mestrado em Eng. Inform´tica. Relat´rios de Estado da Arte 2012.
a o
SemEv 2012, P´ginas 1–8.
a
2. 2 · Aristidis Jesus
2. DATA WAREHOUSE
Existem v´rios conceitos de Data Warehouse propostos por diferentes autores.
a
Apresentam-se dois dos principais conceitos que s˜o considerados muito importante.
a
Primeiro, o conceito defendido pelo professor Ralph Kimball que ´ um dos maiores
e
conceituados precursores de conceitos de Data Warehouse. Este autor refere que
um data warehouse n˜o ´ mais do que a uni˜o de um conjunto de Data Marts.
a e a
Um data mart pode ser definido como um Data Warehouse de pequena capaci-
dade que abrange uma determinada ´rea ou departamento, oferecendo informa¸˜es
a co
mais detalhadas sobre um determinado assunto em quest˜o. O paradigma que
a
Ralph Kimball defende baseia-se no facto da informa¸˜o ser guardada utilizando
ca
o modelo dimensional(Kimball, 1998). Segundo, o Bill Inmon que descreve data
warehouse como “uma cole¸˜o de dados integrados, orientados, por assunto, n˜o
ca a
vol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de-
a a a
cis˜o”(INMON, 1996). O paradigma deste autor difere um pouco do paradigma
a
de Kimball e defende que um Data Warehouse ´ apenas uma parte de todo o pro-
e
cesso de Business Intelligence. Baseado na defini¸˜o do Inmon, deve seguir-se as
ca
caracter´ısticas mencionados em seguida:
2.1 Orientado por Assunto
Uma das principais caracter´ ısticas do Data warehouse ´ o facto de ter uma forte
e
´
orienta¸˜o por assunto. E organizado em torno de assuntos importantes, tais como
ca
por exemplo, cliente, produto e vendas. S˜o por isso focados na modela¸˜o e an´lise
a ca a
de dados para quem toma decis˜es, em vez de opera¸˜es di´rias e processamento
o co a
de transac¸˜es. Os Data warehouses s˜o selecionados, isto ´, fornecem uma vis˜o
co a e a
simples sobre quest˜es de um tema particular atrav´s da exclus˜o de dados que
o e a
n˜o s˜o importantes no suporte ao processo de decis˜o. Pelo contr´rio, em ambi-
a a a a
entes operacionais as aplica¸˜es contˆm dados necess´rios ` satisfa¸˜o imediata dos
co e a a ca
requisitos funcionais que podem ou n˜o ser utilizados no processo de decis˜o.
a a
2.2 Integrado
Um data warehouse ´ constru´ por integra¸˜o de m´ltiplas fontes de dados. S˜o
e ıdo ca u a
aplicadas t´cnicas de limpeza de dados e t´cnicas de integra¸˜o de dados. A inte-
e e ca
gra¸˜o de dados, provenientes de sistemas operacionais, efectua-se nos mais variados
ca
n´
ıveis, na estrutura consistente de c´digos, na forma consistente das vari´veis, na
o a
convers˜o de nomes, etc. Os dados que s˜o inseridos no Data warehouse devem
a a
estar consistentes entre si em termos de nomes, formatos e unidades de medida.
Quando a informa¸˜o ´ movida para o Data Warehouse, ´ feita a convers˜o. No
ca e e a
processo de integra¸˜o dos dados tamb´m pode ser necess´rio corrigir dados que
ca e a
estejam inconsistentes na origem, devido ` n˜o integra¸˜o dos sistemas transac-
a a ca
cionais que fornecem para um estado uniforme de modo a permitir a carga no Data
warehouse.
2.3 N˜o Vol´tile
a a
Um sistema operacional permite diversas opera¸˜es de actualiza¸˜o dos dados como
co ca
acrescentar, substituir e apagar. Num Data Warehouse, pelo contr´rio, s´ existem
a o
dois tipos de opera¸˜es: uma introdu¸˜o inicial dos dados e o acesso a estes, n˜o
co ca a
SemEv 2012.
3. Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 3
requerendo por isso mecanismos de processamento de transac¸˜es, recupera¸˜o e
co ca
controlo de concorrˆncia. Os dados que s˜o introduzidos no Data wahouse s˜o
e a a
est´ticos, s˜o dados que reflectem situa¸˜es consolidadas, que n˜o sofrer˜o actu-
a a co a a
aliza¸˜es. Os dados ap´s serem extra´
co o ıdos, transformados e transportados para o
Data Warehouse est˜o dispon´
a ıveis para os utilizadores apenas para consulta(figura
1).
Fig. 1. N˜o Vol´tile
a a
2.4 Vari´veis no Tempo
a
O sistema operacional cont´m dados actuais, enquanto o data warehouse contˆm
e e
dados n˜o s´ actuais, mas tamb´m dados do hist´rico para serem utilizados na
a o e o
an´lise e tomada de decis˜o. A dimens˜o do tempo ´ uma vari´vel importante que
a a a e a
deve ser suportado por todos os data warehouse. Os dados para an´lise de v´rias
a a
fontes contˆm v´rios valores de tempo, por exemplo, di´rios, semanais e mensais.
e a a
3. ELEMENTOS DE UM DATA WAREHOUSE
3.1 Business Inteligence(BI)
O conceito do BI n˜o ´ recente. Muitas pessoas utilizaram esse conceito para
a e
tomar decis˜es que permitissem uma melhoria de vida nas comunidades. O inter-
o
esse pelo BI tem vindo a crescer na medida em que a sua utiliza¸˜o possibilita
ca
a
`s Bibliotecas realizar an´lises e simula¸˜es, de forma a tornar mais eficientes os
a co
processos relacionados com o apoio ` decis˜o. Esse termo Business Inteligence gan-
a a
hou maior abrangˆncia, dentro de um processo natural de evolu¸˜o, as solu¸˜es de
e ca co
DSS(Decision Support System), geradores de consultas e de relat´rios, Data Marts,
o
Data mining, ferramentas OLAP(Online Analytical Processing), entre outras.
3.2 Data Warehouse vs Data Mart
Estes dois conceitos s˜o muito importantes e h´ que fazer uma distin¸˜o entre eles.
a a ca
Um Data Mart pode ser definido como um Data Warehouse de menor capacidade,
que abrange uma ´rea ou departamento espec´
a ıfico, oferecendo informa¸˜es mais de-
co
´
talhadas sobre um determinado assunto. E por isso, uma abordagem espec´ ıfica do
Data Warehouse e o seu dom´ ınio abrange apenas uma ´rea espec´
a ıfica da Biblioteca.
Um Data Warehouse pode ser visto como um conjunto de Data Marts, contendo
todas as informa¸˜es da biblioteca provenientes de diversas fontes de dados opera-
co
cionais, dispostas de forma integrada e consolidada.
SemEv 2012.
4. 4 · Aristidis Jesus
3.3 ´
Area de Estagiamento de Dados(Staging Area)
Os processos mais importantes na forma¸˜o de um Data Warehouse da Biblioteca
ca
s˜o sem d´vida os que envolvem a ´rea de est´gio. Esta constitui uma ´rea in-
a u a a a
term´dia de armazenamento de informa¸˜o entre os sistemas operacionais e o Data
e ca
Warehouse. Os sistemas operacionais s˜o fontes de dados que abastecem o Data
a
Warehouse. Os dados provenientes desses sistemas operacionais necessitam de ser
preparados para que sejam carregados no Data Warehouse. Para isso, s˜o uti- a
lizadas as tabelas de Staging Area, que s˜o respons´veis por este armazenamento in-
a a
e ´
term´dio de dados. E nesta fase que ´ implementado o processo de ETL(Extrac¸˜o,
e ca
Transforma¸˜o e Carregamento), essencial no Data Warehouse.
ca
3.4 ETL(Extraction, Transformation, Loading)
—Extrac¸˜o
ca
O objectivo dos m´todos de extrac¸˜o ´ isolar os dados que ser˜o utilizados pe-
e ca e a
a a ´
los sistemas de apoio ` decis˜o. E necess´rio filtrar apenas os dados que ser˜o
a a
necess´rios, a fim de se evitar desperd´ de desempenho e de armazenamento.
a ıcio
Existem diversas t´cnicas de extrac¸˜o de dados, os dados podem ser extra´
e ca ıdos
periodicamente, sendo neste caso o utilizador a definir a periodicidade do pro-
cesso. Assim que ´ inicializado, o processo extrai as modifica¸˜es realizadas desde
e co
o per´ıodo da ultima actualiza¸˜o, actualizando os dados no Data Warehouse.
´ ca
—Transforma¸˜oca
A partir do momento em que os dados j´ tenham sido extra´
a ıdos dos sistemas
operacionais para a ´rea de est´gio, a fase de transforma¸˜o ´ iniciada. Nesta
a a ca e
fase, um conjunto de processos s˜o iniciados, tais como limpeza e atribui¸˜o de
a ca
novas chaves. As rotinas de limpeza e integra¸˜o dos dados tˆm como objectivo
ca e
assegurar a consistˆncia no Data Warehouse. Por vezes s˜o realizadas exclus˜es
e a o
de informa¸˜o desnecess´rias, excluindo atributos e entidades que n˜o estejam
ca a a
regularmente a ser tratado pelo Data Warehouse. S˜o tamb´m por vezes ex-
a e
clu´
ıdas rela¸˜es entre tabelas ou efectuados merging, opera¸˜es que influenciam
co co
o desempenho das consultas.
—Carregamento
O processo de carregamento ´ realizado ap´s efectuados todos os tratamentos
e o
aos dados nos processos de extrac¸˜o e transforma¸˜o. Esta etapa consiste em
ca ca
carregar os dados tratados e armazenados na ´rea de est´gio e migr´-los para o
a a a
Data Warehouse.
3.5 Armazenamento de Dados Operacional
O conceito de ODS(Operational Data Storage) surgiu por volta dos anos 90, e
era visto como sendo um tipo de Data Warehouse. O ODS ´ formado por da-
e
dos retirados dos diversos sistemas operacionais e sujeitos a diversas opera¸˜es de
co
transforma¸˜o e convers˜o. Contem informa¸˜o detalhada de cariz transaccional,
ca a ca
actual e sujeita a processos de actualiza¸˜o regular. Fornece suporte ao processo
ca
de tomada de decis˜es detalhadas, de cariz operacional, exigindo respostas quase
o
imediatas. O seu hist´rico ´ curto e a informa¸˜o est´ organizada por ´reas de
o e ca a a
an´lise.
a
SemEv 2012.
5. Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 5
3.6 Modelo dimensional
O modelo dimensional ´ um desenho l´gico que tem o objectivo de apresentar os
e o
dados num padr˜o normal e intuitivo que permite o acesso em alta performance.
a
O modelo dimensional utiliza o conceito do modelo relacional(ER) com algumas
restri¸˜es importantes. Cada modelo dimensional ´ composto por uma tabela com
co e
uma chave prim´ria composta, chamada tabela de factos, e um conjunto de tabelas
a
menores, chamadas tabelas de dimens˜o. Em outras palavras, a chave prim´ria da
a a
tabela de factos ´ composta de duas ou mais chaves estrangeiras. A caracter´
e ıstica
mais importante neste modelo dimensional ´ a de todas as chaves naturais poderem
e
ser substitu´ıdas por chaves substitutas(surrogate keys). A utilidade de uma chave
substituta ´ permitir que o Data Warehouse possa ter alguma liberdade no uso dos
e
dados, ao contr´rio do produzido pelo sistema OLTP. Baseado no diagrama Entity-
a
Relation da Biblioteca e em necessidades de informa¸˜o exigidos pelo bibliotec´rio
ca a
e do gestor da Biblioteca, foi criado ent˜o um modelo dimensional numa forma em
a
esquema da estrela para a data warehouse da Biblioteca, como ilustrado na figura
2.
Fig. 2. Esquema de Estrela para o Facto de Circula¸˜o
ca
SemEv 2012.
6. 6 · Aristidis Jesus
3.7 Metadados
A defini¸˜o mais comum de metadados ´ dados sobre dados. Devido ao grande
ca e
volume de dados contidos no Data Warehouse ´ necess´rio que exista uma forma
e a
´
flex´ e eficiente de acesso aos dados. E necess´rio saber que dados est˜o dispon´
ıvel a a ıveis
e onde est˜o localizados. Os metadados podem ser vistos como a descri¸˜o dos da-
a ca
dos, do seu ambiente, como s˜o manipulados e para onde s˜o distribu´
a a ıdos. Os
metadados permitem definir as estruturas de informa¸˜es usadas, os algoritmos
co
utilizados para a transforma¸˜o, convers˜o, acumula¸˜o e agrega¸˜o de dados. Per-
ca a ca ca
mitem identificar as fontes de informa¸˜o, qual o destino dos dados e tamb´m
ca e
controlar o mapeamento de dados ODS para o Data Warehouse. Os metadados
podem servir tamb´m para fazer a consolida¸˜o dos termos e temas dos dados. Um
e ca
determinado termo deve ter o mesmo significado em todo o Data Warehouse.
4. GRANULARIDADE
Designa o n´ ou grau de detalhe dos dados no modelo dimensional. Geralmente,
ıvel
a granularidade da tabela de factos ´ escolhida para ter o menor n´
e ıvel de gran-
ularidade poss´
ıvel. Pois isto permitir´ responder melhor a novas consultas e `
a a
introdu¸˜o de novos elementos de dados com n´ maior. A decis˜o sobre o grau
ca ıvel a
tem uma implica¸˜o directa no n´ de detalhe da informa¸˜o disponibilizada no
ca ıvel ca
Data Warehouse.
5. ¸˜
NECESSIDADES DA INFORMACAO DA BIBLIOTECA
O levantamento das necessidades de informa¸˜o da Biblioteca ´ uma fase muito
ca e
importante do trabalho de planeamento. Aqui define-se todas as fontes de dados
utilizados no data warehouse e define-se as necessidades de informa¸˜o a ser gerada
ca
atrav´s da an´lise de relat´rios. Fontes de dados utilizados no data warehouse s˜o
e a o a
os dados na base de dados biblioteca, que cont´m por exemplo tabelas de: livro,
e
tipo, autor, editor, aula, data, aluno, docente, curso e outras tabelas relacionadas.
As necessidades de gest˜o de informa¸˜o da biblioteca obtˆm as seguintes formas:
a ca e
—As tendˆncias dos livros emprestados por professores e alunos.
e
—Informa¸˜es sobre os tipos de livros que s˜o muitas vezes emprestados.
co a
—Tendˆncias no processo de circula¸˜o.
e ca
—Informa¸˜es sobre o nome do autor e da editora cujos livros s˜o muitas vezes
co a
emprestados.
6. ARQUITECTURA DE UM SISTEMA DE BIBLIOTECA
Entende-se por arquitectura, o conjunto de regras/estruturas a partir das quais ´ e
constru´ um sistema. Esta identifica e compreende o fluxo de dados atrav´s do
ıdo e
sistema e a forma como ser˜o utilizados dentro da pr´pria institui¸˜o. A estrutura
a o ca
de um Data Warehouse ´ constru´ por uma base de dados independente, desen-
e ıda
hada especificamente para apoio ` decis˜o, n˜o podendo ser actualizada e ao qual
a a a
os utilizadores acedem atrav´s de uma ferramenta front-end. Este sistema t´
e ıpico
de Biblioteca composto por v´rios processos indicam factos de cada uma delas:
a
aquisi¸˜o, circula¸˜o, processo t´cnicos e servi¸o de referˆncia de livros. Arquitec-
ca ca e c e
tura considerada no processo de circula¸˜o ´ o seguinte(figura 3):
ca e
SemEv 2012.
7. Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 7
Fig. 3. Arquitectura de Um Sistema de Biblioteca
—ETL:
Componente que se dedica ` extrac¸˜o, carga e transforma¸˜o de dados. E a
a ca ca ´
parte respons´vel pela recolha de informa¸˜es provenientes de diversas fontes.
a co
—Data Warehouse:
Local onde ficam concentrados os dados extra´ ıdos dos sistemas operacionais. A
vantagem de ter um reposit´rio de dados ` parte ´ a possibilidade de armazenar
o a e
informa¸˜es hist´ricas e agregadas, dando um melhor suporte para as an´lises
co o a
futuras.
—Front-end:
´
E a parte vis´ıvel aos utilizadores. Pode ser em forma de relat´rios padroniza-
o
dos, portal de intranet/internet, an´lises OLAP entre outras fun¸˜es, como Data
a co
mining ou simula¸˜es futuras.
co
7. ESQUEMA DE ESTRELA(STAR SCHEMA)
No sistema OLTP(Online Transactional Processing) usa-se uma t´cnica conhecida
e
como modelagem de dados ER(Entity-Relationship). No data warehouse utiliza-se
uma t´cnica de modelagem de dados que costuma-se chamar modelagem dimen-
e
sional. Modelagem dimensional ´ um modelo de call-base que suporta alto volume
e
de query. Esquema estrela(star schema) ´ uma ferramenta que ´ aplicada a mode-
e e
lagem dimensional e cont´m uma tabela de factos central. Tabela de factos cont´m
e e
atributos descritivos que s˜o usados para processar o query e chaves estrangeiras
a
para conectar `s tabelas de dimens˜o. An´lise de decis˜o de atributos consiste em
a a a a
medidas de desempenho, m´tricas operacionais, tamanho de agrega¸˜o e todas as
e ca
outras m´tricas que s˜o necess´rios para analisar o desempenho da organiza¸˜o. A
e a a ca
tabela de factos mostra o que ´ suportado pelo data warehouse para an´lise de de-
e a
cis˜o. Tabelas de dimens˜o cercam a tabela de factos central. Tabelas de dimens˜o
a a a
contˆm atributos que descrevem os dados inseridos na tabela de factos. Tabela
e
dimensional mostra como os dados ser˜o analisados.
a
Ap´s a an´lise do exemplo concreto do esquema de estrela(figura 2), considerou-
o a
SemEv 2012.
8. 8 · Aristidis Jesus
se que as necessidades de gest˜o da informa¸˜o da biblioteca s˜o uteis. Definiu-se a
a ca a ´
tabela de facto para o processo de circula¸˜o contendo dados como C´digo Empresta
ca o
e Multa, representando o n´mero da identifica¸˜o espec´
u ca ıfico de cada empr´stimo
e
do livro e o pagamento relativo ` entrega fora do prazo determinado. Tamb´m
a e
designa-se as dimens˜es adequadas para modelar o data warehouse como um sis-
o
tema de apoio ` decis˜o; por exemplo Dimens˜o Curso, Data, Editor, Aluno, Livro,
a a a
Autor, Docente, Tipo e Fonte. Na “Dimens˜o Tipo“(figura 2) de empr´stimo do
a e
livro pretende defini-lo como o empr´stimo para uso na escola ou empr´stimo domi-
e e
cili´rio.
a
8. ˜
CONCLUSOES
Ap´s o desenvolvimento do conceito de data warehouse da Biblioteca e a an´lise do
o a
mesmo, obt´m-se algumas conclus˜es e sugest˜es que se considerou importantes:
e o o
—O modelo de data warehouse que foi desenhado e constru´ como o processo de
ıdo
circula¸˜o de livros, pode garantir o acesso aos gestores da biblioteca de tomada
ca
de decis˜es.
o
—Na fase de planeamento, o assunto do data warehouse pode ser desenvolvido em
v´rios aspectos, de acordo com as necessidades da biblioteca.
a
—No momento de an´lise do data warehouse, precisam ser desenvolvidas ferramen-
a
tas de an´lise, ou seja, OLAP e Minera¸˜o de dados.
a ca
ˆ
REFERENCIAS
Aranha Filho, F. J. E. 2005. Perfil de usu´rio da biblioteca karl a. boedecker: gera¸˜o de valor
a ca
para pesquisadores por meio de coopera¸˜o indirecta. http://hdl.handle.net/10438/2959.
ca
(online em Des 20, 2011).
Caldeira, C. P. 2008. Data Warehouse:Conceitos e Modelos. Edi¸˜o S´
ca ılabos,Lda.
Inmon, W. H. 1997. Como construir o data warehouse. 1–37p.
K.Tanaka, A. Arquitectura de data warehouse. http://www.uniriotec.br/~tanaka/SAIN. (on-
line em Des 27, 2011).
Nicole Amboni, Guilherme Cintra, E. d. O. Estrat´gia de crm aplicada a dsi:uma proposta
e
para as bibliotecas universit´rias. Gest˜o de Informa¸˜o, 1–16p.
a a ca
Panegassi, L. F. 2006. Data warehouse.
Ralph kimball, M. R. The Data Warehouse: The Complete Guide to Dimensional Modeling.
Wiley Computer Publishing,New York,John Wiley & Sons,Inc, Second Edition.
Santana, M. F. 2010. O conceito de data warehousing aplicado a gest˜o de informa¸˜es em
` a co
bibliotecas. 137–158.
Wikipedia. Extract, transformation,load. http://en.wikipedia.org/wiki/Extract,
_transform,_load. (online em Des 28, 2011).
Wikipedia. Star schema. http://en.wikipedia.org/wiki/Star_schema. (online em Des 27,
2011).
SemEv 2012.