Este documento apresenta um resumo de uma dissertação de mestrado sobre reescrita de consultas em federações de dados interligados. A abordagem proposta gera correspondências entre esquemas de forma incremental e "pay-as-you-go" para permitir a reescrita de consultas sem todas as correspondências estarem disponíveis inicialmente. O trabalho descreve os objetivos, definições, uma visão geral da abordagem e um exemplo ilustrativo.
Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências
1. Reescrita de Consultas em Federações de
Dados Interligados usando uma Abordagem
pay-as-you-go para a Descoberta de
Correspondências
Danusa Ribeiro
drbc@cin.ufpe.br
Orientadora: Bernadette Farias Lóscio
bfl@cin.ufpe.br
Nível: Mestrado
Ano de Ingresso no programa: 2012
Época esperada de conclusão: Março de 2014
Workshop de Teses e Dissertações – SBBD 2012
2. Agenda
Introdução
Motivação
Caracterização da Contribuição
Trabalhos Relacionados
Estado Atual do Trabalho
Referências
Workshop de Teses e Dissertações – SBBD 2012
2
3. Introdução
Workshop de Teses e Dissertações – SBBD 2012
3
4. Introdução
• Um dos principais desafios em Sistemas para
Integração de Dados são:
Reescrita de consultas
Workshop de Teses e Dissertações – SBBD 2012
4
5. Introdução
Um componente fundamental para a reescrita
de consultas é conjunto de mapeamentos entre
o esquema de mediação e os esquemas locais
Q
Esquema
de
Mediação
Q + M1 Q + M2 Q + M3
Q’ Q’’ Q’’’
A B C
Workshop de Teses e Dissertações – SBBD 2012
5
6. Introdução
Atualizado em Setembro de 2011
http://richard.cyganiak.de/2007/10/lod/
Workshop de Teses e Dissertações – SBBD 2012
6
7. Introdução
• Arquiteturas de Aplicações LD
Centralizada
Navegação entre links
Federada
Workshop de Teses e Dissertações – SBBD 2012
7
8. Objetivos
Objetivo Geral: propor uma solução para o problema de reescrita de consultas
em federações de conjuntos de dados interligados (Linked Data).
Objetivos Específicos:
Especificação de um processo pay-as-you-go para a geração de
correspondências
Especificação de um processo para reescrita de consultas em
federações de dados interligados
Desenvolvimento de um protótipo com funcionalidades para a
extração de termos de uma consulta, reescrita de consulta e
apresentação dos resultados
Workshop de Teses e Dissertações – SBBD 2012
8
9. Definições Preliminares
• Federação de dados interligados I = {S, M, C} onde:
S = {s1,...,sn}: conjunto de conjuntos de dados interligados
M: esquema de mediação
C = {c1,...,cn}: um conjunto de correspodências entre M e
cada um dos conjuntos de dados
Workshop de Teses e Dissertações – SBBD 2012
9
10. Definição do Problema
Dada uma federação de dados interligados I = {S, M, C}, estamos
interessados em propor uma solução para o seguinte problema:
dada uma consulta Q submetida em I de acordo com o esquema
de mediação M, como decompor Q em uma ou mais consultas a
serem executadas sobre um ou mais conjuntos de dados si
considerando que nem todas as correspondências necessárias
para a reescrita de Q estão disponíveis em C ?
Workshop de Teses e Dissertações – SBBD 2012
10
11. Visão Geral da Abordagem
Consulta Q
Extração de Mediador
Termos
Ontologia de
Mediação
Visualização
Busca de Geração de Novas dos Resultados
Correspondências Correspondência
Repositório de
Correspondências Geração de Integração dos
Subconsultas Resultados
Federação de Dados
Ontologia Local I Ontologia Local II Ontologia Local N
Interligados
SPARQL SPARQL SPARQL
Endpoint Endpoint Endpoint
RDF RDF RDF
Workshop de Teses e Dissertações – SBBD 2012
11
12. Caracterização da Contribuição
• Correspondências entre o esquema de mediação e os conjuntos
de dados
Pay-as-you-go
As correspondências necessárias para o processo de
reescrita de uma consulta Q serão identificadas no
momento da execução da consulta e de acordo com as
propriedades que estão sendo consultados por Q
Workshop de Teses e Dissertações – SBBD 2012
12
16. Um exemplo
• Para ilustrar a abordagem proposta:
– Seja I = {S, M, C} uma federação de dados interligados
construída sobre o domínio de dados bibliográficos, onde:
S = {DBLP, ACM, DBpedia}
M = {Ontologia de Mediação}
C =
Workshop de Teses e Dissertações – SBBD 2012
16
17. Um exemplo
Classes Propriedades
Publication Identifier, Title, Abstract
Person Name, Biography,
HomePage, Author
University Name, Address, Country
Classes e Propriedades da Ontologia de
Mediação
Ontologia de Mediação
Workshop de Teses e Dissertações – SBBD 2012
17
18. Um exemplo
• Seja a consulta q1 : “Retorne os títulos dos artigos publicados
pelo autor Alon Y. Halevy. Além disso, recupere a homepage
do autor bem como uma breve apresentação sobre o mesmo”
SELECT ?title, ?homepage, ?bio
WHERE {
?publication Title ?title .
?publication Author ?author .
?author HomePage ?homepage .
?author Biography ?bio .
?author Name “Alon Y. Halevy” .
}
Workshop de Teses e Dissertações – SBBD 2012
18
19. Um exemplo
i. Extração dos termos da consulta
– {Title, Author, HomePage, Biography e Name}
ii. Identificação de correspondências
Ontologia de Mediação ACM DBLP DBpedia
Name akt:full-name akt:full-name dbpedia:name, foaf:surname,
foaf:givenName
Biography - - rdf:comment
HomePage - - foaf:page, foaf:homepage
Title akt:has-title akt:has-title -
Workshop de Teses e Dissertações – SBBD 2012
19
20. Um exemplo
Consulta q1 Resultado
PREFIX Binding Value
akt:<http://www.aktors.org/ontology/portal#> 1 ?title Guest Editorial
PREFIX akts: 2 ?title Answering queries using views
iii. Geração de subconsultas (reescrita)
<http://www.aktors.org/ontology/support#> 3 ?title Queries independent of updates
SELECT DISTINCT ?title WHERE { 4 ?title Logic-based techniques in data…
?publication akt:has-title ?title .
?publication akt:has-author ?author . 5 ?title MiniCon: A scalable algorithm …
?author akt:full-name "Alon Y. Halevy".}Limit 5
Consulta q2 Resultado
PREFIX akt: Binding Value
<http://www.aktors.org/ontology/portal#> 1 ?title Equivalence, Query-Reachability …
PREFIX akts: 2 ?title Constraints and Redundancy in…
<http://www.aktors.org/ontology/support#> 3 ?title Exploiting Irrelevance…
SELECT DISTINCT ?title WHERE { 4 ?title Queries Independent of Updates.
?publication akt:has-title ?title .
?publication akt:has-author ?author . 5 ?title Query Optimization by…
?author akt:full-name "Alon Y. Halevy".}Limit 5
Consulta q3 Resultado
PREFIX foaf: <http://xmlns.com/foaf/0.1/> Binding Value
PREFIX dbpedia: <http://dbpedia.org/resource/> 1 ?homepage http://alonhalevy.blogspot.com/
SELECT DISTINCT ?homepage, ?bio WHERE {
?y dbpedia-owl:wikiPageExternalLink ?homepage .
?y rdfs:comment ?bio . ?bio Alon Yitzchack Halevy is..
?y rdf:type foaf:Person .
?y dbpprop:name "Halevy, Alon Y."@en}
Workshop de Teses e Dissertações – SBBD 2012
20
21. Um exemplo
iv. Integração dos resultados
Biography Alon Yitzchack Halevy is a renowned Israeli-American
computer scientist and a leading researcher in the area of
data integration. …
HomePage http://en.wikipedia.org/wiki/Alon_Y._Halevy
Title Guest Editorial, Answering queries using views, Queries
independent of updates…
Workshop de Teses e Dissertações – SBBD 2012
21
22. Trabalhos Relacionados
• [Markis et al. 2012] SPARQL-RW: Transparent Query Access
over Mapped RDF Data Sources
– reescrita de consultas SPARQL
– integrar dados RDF
• [Lee et al. 2010] An intelligent query processing for
distributed ontologies
– reescrita de consultas SPARQL
– Integrar dados Linked Data
Workshop de Teses e Dissertações – SBBD 2012
22
23. Próximos Passos
• Especificação dos processos para:
– Extração dos termos da consulta
– Geração de correspondências
– Geração das subconsultas (reescrita)
• Caracterização dos Mapeamentos entre as Múltiplas
Ontologias
• Definição de um cenário para a realização de testes
Workshop de Teses e Dissertações – SBBD 2012
23
24. Contribuições
i. Uma metodologia para geração incremental de
correspondências entre ontologias a partir do uso das
propriedades providas por OWL, RDF, RDFS, SKOS
ii. Especificação do processo de reescrita de consultas SPARQL
em federações de conjuntos de dados interligados
iii. Implementação de um protótipo para validação das
abordagens propostas
Workshop de Teses e Dissertações – SBBD 2012
24
25. Referências
• [Bizer et al 2009] Bizer C., Heath T., Berners-Lee T. (2009) Linked data -
the story so far. Int. J. Semantic Web Inf. Syst, 2009.
• [Franklin et al. 2005] Franklin, M., Halevy, A., Maier, D. “From Databases to
Dataspaces: A New Abstraction for Information Management”. In: SIGMOD
’05: ACM SIGMOD international conference on Management of Data
(2005).
• [Halevy et al. 2006a] Halevy, A., Rajaraman, A., Ordille, J.: “Data
integration: the teenage years”. In: VLDB’06: 32nd International Conference
on Very Large Data Bases, ACM (2006).
• [Herschel & Heese 2005] Herschel, S., Heese, R. “Humboldt Discoverer: A
Semantic P2P index for PDMS”. In: Proc. of the International Workshop
Data Integration and the Semantic Web, Porto, Portugal, 2005.
Workshop de Teses e Dissertações – SBBD 2012
25
26. Referências
• [Lee et al. 2009] Lee, J., Park, J. H., Park, M. J., Chung, C. W., Min, J. K.
(2010). “An intelligent query processing for distributed ontologies”, Journal
of Systems and Software, Volume 83, Issue 1, January 2010, Pages 85-95.
• [Lóscio 2003] Lóscio, B. F. “Managing the Evolution of XML-based
Mediation Queries”. Ph.D. Thesis, Federal University of Pernambuco,
Brazil, 2003.
• [Makris et al. 2012] Makris, K., Bikakis, N., Giodasis, N., Christodoulakis, S.
(2012). “SPARQL-RW: Transparent Query Access over Mapped RDF Data
Sources”. EDBT, 2012., Berlin, Germany.
• [Mendes et al. 2012] Pablo N. M., Hannes, M., Bizer, C. (2012). Sieve:
linked data quality assessment and fusion. In Proceedings of the 2012 Joint
EDBT/ICDT Workshops (EDBT-ICDT '12), ACM, New York, NY.
Workshop de Teses e Dissertações – SBBD 2012
26
27. Obrigada!!!
drbc@cin.ufpe.br
Agradecimentos
Workshop de Teses e Dissertações – SBBD 2012
27