O documento discute os desafios da integração de dados de sistemas heterogêneos. Apresenta as abordagens de integração virtual e materializada e métodos como Global-As-View e Local-As-View para mapear esquemas de dados. Também discute como a Web aumentou a heterogeneidade de dados e a necessidade de semântica para integrar dados na Web.
3. Porque integrar?
Sist. de Suporte
a Decisão
Outras áreas
Linguagens de
Programação
Inteligência
Artificial
Sistemas
Distribuídos
& Internet
Sistemas de Bancos
de Dados
TemporalEspacial
Espaço Temporal
BD Multimídia
BD Dimensional
DW
BD Distribuídos
BDOO
BDDOO
BD Ativo
BDD
BDD Ativo
BDOO
Ativo
BD de
Restrições
BD OO
Espacial
BD XML Nativo
[Lóscio, 2014]
3
4. Porque integrar?
• Heterogeneidade
– nível físico (diferentes plataformas de hardware e
software).
– nível lógico (diferentes modelos de dados).
– nível conceitual (diferentes esquemas e
conceitos).
4
5. Porque integrar?
“Integration of multiple information systems
aims at combining selected systems so that
they form a unified new whole and give users
the illusion of interacting with one single
information system.”
[Patrick Ziegler and Klaus R. Dittrich, 2004]
5
6. Sistemas de Integração de Dados
• Objetivo dos sistemas de integração de dados
– permitir que usuários consultem simultaneamente
múltiplas fontes de dados
• Heterogêneas
• Distribuídas
• Autônomas
– Manter transparentes os procedimentos de
acesso, extração e integração dos dados
6
8. Sistemas de Integração de Dados
• Virtual
– Os dados são recuperados diretamente das fontes.
– As consultas são enviadas diretamente às fontes
de dados .
– Os resultados individuais obtidos são integrados e
enviados ao usuário.
– Vantagem: Os dados estão sempre atualizados.
– Desvantagem: Os custos de processamento das
consultas e de acesso às fontes são elevados.
8
9. Sistemas de Integração de Dados
• Materializada
– Os dados da fontes distintas são extraídos e
materializados localmente em repositórios
chamados datawarehouses.
– Vantagem: As consultas são realizadas sobre a
base materializada.
• Melhor desempenho
– Desvantagem: Necessidade de manter a base
materializada sempre atualizada
9
10. Arquitetura para Integração de Dados
• Arquiteturas Clássicas para Integração de Dados
– Esquema Global
• Construção de um esquema global a partir da integração dos
esquemas das fontes de dados locais.
• As fontes de dados distribuídas e heterogêneas podem ser
acessadas de maneira uniforme e transparente através deste
esquema global.
– Federada
• Bancos de dados cooperantes e autônomos que participam
da federação para permitir um compartilhamento parcial e
controlado de seus dados.
• São oferecidos múltiplos esquemas integrados, de acordo
com os requisitos das aplicações
– estáticos e definidos a priori
10
14. Arquitetura para Integração de Dados
• Dataspaces
– Fase de inicialização rápida e de baixo custo, por meio da
geração incremental e automática dos mapeamentos.
– Como consequência disto, os resultados recuperados pelas
consultas são imprecisos.
– Isto se deve a baixa qualidade dos mapeamentos, que por
muitas vezes, são obtidos de maneira automática pelas
ferramentas existentes.
– Não há uma definição clara do esquema de mediação ou
esquema global, já que o mesmo é um sistema bastante
flexível, podendo variar conforme a necessidade.
14
15. Principais Desafios
• Modelagem de Dados
• Definição da visão integrada
• Reformulação de consultas
• Construção de tradutores
15
16. Sistemas de Integração de Dados
• Para que ocorra a integração de dados, devem
ser definidos relacionamentos ou
mapeamentos entre cada esquema fonte e o
esquema de mediação.
• Um mapeamento especifica como instâncias
de dados de um esquema correspondem à
instância de dados de outro esquema.
16
17. Abordagem para definição de
Mapeamentos
• Para especificar a descrição das fontes de
dados:
– Global-As-View (GAV)
– Local-As-View (LAV)
– Global-Local-as-View (GLAV)
17
18. • Global-As-View (GAV)
– Cada entidade no esquema de mediação tem uma
correspondência com o esquema da fonte de
dado.
– Neste caso a reformulação de consultas torna-se
mais simples.
Abordagem para definição de
Mapeamentos
18
19. • Local-As-View (GAV)
– Cada elemento em uma fonte local é definido
como uma visão sobre o esquema de mediação.
– Torna mais fácil a manutenção das fontes de
dados.
– O processo de decomposição de consultas é mais
complexo.
Abordagem para definição de
Mapeamentos
19
20. Abordagem para definição de
Mapeamentos
Fonte de dados1
Estudante1
• 𝑚𝑎𝑡1
• 𝑛𝑜𝑚𝑒1
• 𝑐𝑢𝑟𝑠𝑜1
• 𝑛𝑜𝑡𝑎1
Fonte de dados2
Estudante1
• 𝑚𝑎𝑡2
• 𝑛𝑜𝑚𝑒2
• 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2
Avaliação1
• 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2
• 𝑐𝑢𝑟𝑠𝑜2
• 𝑎𝑣𝑎𝑙_𝑒𝑠𝑐𝑟𝑖𝑡𝑎2
Esquema de
mediação
Estudante 𝑚
• Mat 𝑚
• Nome 𝑚
• Curso 𝑚
• Nota 𝑚
• Aval_escrita 𝑚
20
21. Abordagem para definição de
Mapeamentos
Fonte de dados1
Estudante1
• 𝑚𝑎𝑡1
• 𝑛𝑜𝑚𝑒1
• 𝑐𝑢𝑟𝑠𝑜1
• 𝑛𝑜𝑡𝑎1
Fonte de dados2
Estudante1
• 𝑚𝑎𝑡2
• 𝑛𝑜𝑚𝑒2
• 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2
Avaliação1
• 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2
• 𝑐𝑢𝑟𝑠𝑜2
• 𝑎𝑣𝑎𝑙_𝑒𝑠𝑐𝑟𝑖𝑡𝑎2
Esquema de
mediação
Estudante 𝑚
• Mat 𝑚
• Nome 𝑚
• Curso 𝑚
• Nota 𝑚
• Aval_escrita 𝑚
Global-As-View (GAV)
21
22. Abordagem para definição de
Mapeamentos
Fonte de dados1
Estudante1
• 𝑚𝑎𝑡1
• 𝑛𝑜𝑚𝑒1
• 𝑐𝑢𝑟𝑠𝑜1
• 𝑛𝑜𝑡𝑎1
Fonte de dados2
Estudante1
• 𝑚𝑎𝑡2
• 𝑛𝑜𝑚𝑒2
• 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2
Avaliação1
• 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2
• 𝑐𝑢𝑟𝑠𝑜2
• 𝑎𝑣𝑎𝑙_𝑒𝑠𝑐𝑟𝑖𝑡𝑎2
Esquema de
mediação
Estudante 𝑚
• Mat 𝑚
• Nome 𝑚
• Curso 𝑚
• Nota 𝑚
• Aval_escrita 𝑚
Local-As-View (GAV)
22
24. E com o advento da Web... Ainda é
necessário integrar os dados?
A Web
revolucionou a
forma como os
dados são gerados
e manipulados!
24
25. Desafios para Integração de Dados na
Web
• Existem algumas diferenças que precisam ser consideradas quando
fontes de dados Web são integradas como:
– O número de fontes de dados pode ser grande, o que dificulta os
processos de integração de esquemas e resolução de conflitos.
– As fontes de dados
• são muito dinâmicas e assim a adição ou remoção de fontes de
dados deve ser feita de maneira a minimizar o impacto na visão
integrada.
• são bastante heterogêneas, podendo ser desde sistemas de
gerenciamento de bancos de dados até simples arquivos.
• podem ser não estruturadas ou semiestruturadas e, na maioria
das vezes, não fornecem informações suficientes para a integração
dos esquemas.
25
26. Desafios para Integração de Dados na
Web
• Os dados na Web
– são organizados para serem lidos ou compreendidos por humanos e
não por agentes de software.
– é necessário processar a semântica envolvida naquele dado, num
determinado contexto.
• Semântica diz respeito à atribuição de significado a elementos,
dados ou expressões que precisam ser interpretados numa dada
situação.
– atribuir significado aos dados interligando-os com outros conjuntos de
dados ou outros domínios de conhecimento, conseguindo, assim, criar
uma relação de significância entre os conteúdos publicados na
Internet de modo que seja perceptível tanto pelo usuário quanto pelos
agentes de software.
– Essa visão da Web é denominada de Web Semântica (Semantic Web)
26
27. E o que é Web Semântica?
Como ela ajuda no processo de
integração de dados na Web?
Cenas dos próximos capítulos. Não percam!!!
27
28. Referências
• [Franklin et al. 2005] Franklin, M., Halevy, A., Maier, D. From Databases to
Dataspaces: A New Abstraction for Information Management. In: SIGMOD
’05: Proceedings of the 2005 ACM SIGMOD international conference on
Management of data (2005) 27–33.
• [Halevy 2003] Havely, A. Y., Data Integration: A Status Report. . In
proceedings of BTW, 2003.
• [Halevy et al. 2006a] Halevy, A., Rajaraman, A., Ordille, J.: Data
integration: the teenage years. In: VLDB’06: 32nd International Conference
on Very Large Data Bases, ACM (2006).
• [Halevy et al. 2006b] Halevy, A., Franklin, M., Maier, D. Principles of
Dataspace Systems. In: PODS ’06: Proceedings of the twenty-fifth ACM
SIGMOD-SIGACT-SIGART symposium on Principles of database systems,
ACM (2006).
• [Heath and Bizer 2011] Heath, T., Bizer, C., Linked Data: Evolving the Web
into a Global Data Space (1st edition). Synthesis Lectures on the Semantic
Web: Theory and Technology. Morgan & Claypool, 2011.
28
29. Referências
• [Herschel and Heese 2005] Herschel, S. and Heese, R. Humboldt
Discoverer: A Semantic P2P index for PDMS. In: Proc. of the International
Workshop Data Integration and the Semantic Web, Porto, Portugal, 2005.
• [Lóscio 2003] Lóscio, B. F. Managing the Evolution of XML-based Mediation
Queries. Ph.D. Thesis, Federal University of Pernambuco, Brazil, 2003.
• [Navathe et al. 1986] Navathe, S. B., Elmasri, R. and Larson, J. (1986).
Integrating user views in database design. IEEE Computer, vol. 19, no. 1.
• [Madhavan et al. 2007] Madhavan, J., Cohen, S., Dong, X.L., Halevy, A.Y.,
Jeffery, S.R., Ko, D., Yu, C. Web-scale data integration: You can afford to
pay as you go. In: Proc. of Third Biennial Conference on Innovative Data
Systems Research, 2007, Asilomar, CA, USA.
29
30. Referências
• [Pires 2009] Pires, C. E. S. (2009). Ontology-based Clustering in a Peer Data
Management System. PhD thesis, Federal University of Pernambuco.
• [Salles et al. 2007] Salles, M.A.V., Dittrich, J.P., Karakashian, S.K., Girard,
O.R., Blunschi, L.: iTrails: Pay-as-you-go Information Integration in
Dataspaces. In: VLDB’07: 33rd International Conference on Very Large
Data Bases, ACM (2007).
• [Sarma et al 2008] Sarma, A. D., Dong, X., Halevy, A. 2008. Bootstrapping
pay-as-you-go data integration systems. In Proceedings of the 2008 ACM
SIGMOD international conference on Management of data (SIGMOD '08).
ACM, New York, NY, USA, 861-874.
• [Sung et al. 2005] Sung, L. G. A., Ahmed, N., Blanco, R., Li, H, Soliman, M.
A., Hadaller, D. A Survey of Data Management in Peer-to-Peer Systems. In:
School of Computer Science, University of Waterloo, 2005.
30