SlideShare uma empresa Scribd logo
1 de 48
Baixar para ler offline
Explorando o Feedback do Usuário para
 Classificação de Fontes de Dados em
Sistemas de Integração Pay-as-you-go
            Aluno: Hélio Rodrigues de Oliveira
                     hro@cin.ufpe.br
          Orientadora: Bernadette Farias Lóscio
                     bfl@cin.ufpe.br
               Centro de Informática (CIn)
        Pós-Graduação em Ciência da Computação
       Universidade Federal de Pernambuco (UFPE)
Roteiro
• Motivação

• Objetivos e Contribuições do Trabalho

• Fundamentação Teórica

• Abordagem para Classificação de Fontes de Dados
  utilizando o Feedback do Usuário

• Implementação e Experimentos

• Considerações Finais

• Trabalhos Futuros
Motivação
• Integração de Dados é uma importante área de pesquisa!
   – Os sistemas de integração de dados buscam oferecer uma visão
     unificada de dados distribuídos em fontes autônomas e heterogêneas
• Com o crescimento da Web, intensificou-se a necessidade de
  soluções de integração de dados!
   – Grandes volumes de dados e facilidade de acesso
• A facilidade de acesso a grandes volumes de dados traz vantagens
  e desvantagens
   – Maior quantidade de informação
   – Porém, nem sempre confiável
• Os sistemas de integração de dados Pay-as-you-go podem ser
  considerados
Motivação

Pergunta: Que fontes são mais relevantes para
     um Sistema de Integração de Dados
               Pay-as-you-go?


• Possível Solução:
   – Definição de uma técnica para medir a relevância da fonte de
     dados, e a partir desta medida, classificá-las
   – Utilizar o feedback do usuário como parte do cálculo da
     relevância
Objetivos
• Objetivo Geral:

  Especificação de uma abordagem para auxiliar a
   seleção de fontes de dados a serem incluídas em
  um sistema de integração de dados pay-as-you-go
Objetivos
• Objetivos Específicos:
   – Estudos dirigidos na área de integração de dados pay-as-you-
     go, feedback do usuário e seleção de fontes
   – Definição de métricas para o cálculo de relevância das fontes de
     dados
   – Formalização do feedback do usuário
   – Especificação de uma abordagem para classificação e seleção
     de fontes de dados utilizando o feedback do usuário
   – Implementação dos algoritmos de análise de relevância e
     inferência de feedback
   – Implementação do protótipo para auxílio nos testes
   – Realização de experimentos com a aplicação da abordagem
     sobre fontes de dados bibliográficos
Fundamentação Teórica

• Integração de Dados
• Feedback do usuário
• Seleção de Fontes
Integração de Dados

• Busca oferecer uma visão unificada dos dados das
  fontes
• Diversas soluções propostas
   – Abordagens Convencionais (mediadores / datawarehouse)
   – PDMS
   – Sistemas de integração de dados pay-as-you-go
Abordagem Convencional
PDMS
Abordagem Pay-as-you-go


• Baixo custo de inicialização
• Geração incremental e automática de mapeamentos
• Resultados podem ser imprecisos
• Flexível e escalável
• Uso do feedback do usuário para refinamento dos
  mapeamentos
• Facilidade de inclusão de novas fontes
• Uma nova fonte pode não ser relevante
Fundamentação Teórica

• Integração de Dados
• Feedback do usuário
• Seleção de Fontes
Feedback do Usuário

• O feedback do usuário é um tema bastante discutido
• Necessidade de obter informações essenciais através
  do usuário, de forma explícita ou não
• Feedback em Recuperação da Informação
   – Explícito
   – Implícito
   – Pseudo Feedback
• Feedback em Sistemas de Int. Pay-as-you-go
   – Conjunto de anotações providas pelo usuário sobre um artefato
   – Artefato: consultas, mapeamentos, esq. mediação, dentre outros
Feedback do Usuário

• Em nossa abordagem:
  – Feedback explícito
  – Anotação sobre os resultados das consultas
  – Formalização do feedback para obtenção da medida
    de relevância
Fundamentação Teórica

• Integração de Dados
• Feedback do usuário
• Seleção de Fontes de Dados
Seleção de Fontes de Dados

• A grande quantidade de fontes de dados
  disponíveis exige a seleção de fontes relevantes
• A seleção é necessário devido a:
  – Dinamicidade das fontes
  – Heterogeneidade dos esquemas
  – Qualidade dos dados


 Selecionar fontes relevantes tornou-se essencial
Seleção de Fontes

• As abordagens possuem dois direcionamentos
• Soluções baseadas em palavra-chave
  – Técnicas utilizadas em recuperação da informação
  – Bag of words
  – estrutural
• Soluções baseadas em consultas federadas
  – Consultas estruturadas
  – Estrutural e/ou semântica
  – Reescrita de consultas
Trabalhos Relacionados
Abordagem Proposta

• Auxiliar a seleção de fontes de dados a serem incluídas
  em um sistema de integração de dados pay-as-you-go


• Classificação de fontes candidatas de acordo com a
  relevância


• Análise de relevância baseada no feedback do usuário
Abordagem - Definições

• Sistema de Integração de Dados Pay-as-you-go I=(Si,Qi)
• Conjunto de fontes de dados inicial (Si)


• Consultas de integração (Qi)


• Termo do resultado da consulta (ti)
Abordagem - Definições

• Anotação de feedback

   – T: tupla
   – V: valor (True positive, False Positive, False negative)
• Feedback de uma consulta q

• Feedback do usuário u
Abordagem - Definições

• Precision do feedback da consulta q



• Recall do feedback da consulta q



• F-measure do feedback da consulta q
Formalização do Problema

  Problema. Seja I = (QI ,SI) um SID pay-as-you-go, o
     feedback do usuário UF(u) com relação à QI e o
 conjunto de fontes candidatas DSI a serem adicionadas.
 Devemos classificar as fontes contidas em DSI, para
 auxiliar o usuário na escolha de fontes relevantes, que
 poderão ser adicionadas no conjunto SI. Consideramos
 que uma fonte ds é relevante, com respeito a QI , se os
 resultados obtidos em QI melhoram, de acordo com os
    requisitos do usuário, após a adição de ds a SI.
Análise de relevância

• Muitos trabalhos consideram apenas a estrutura
• Dados incompletos e incorretos podem ser retornados
• Necessário capturar os requisitos que um SID espera
  atender (consultas)
• Utilizamos dois conceitos:
• Peso de uma consulta (w)
   – frequência
• Benefício de uma fonte em relação à consulta (B)
Análise de relevância

• Relevância de uma fonte de dados candidata (R)
Algoritmo
Algoritmo
Exemplo
• Sist. Int. Pay-as-you-go sobre dados bibliográficos em
  Ciência da Computação
• Bases candidatas: ds1, ds2 e ds3
• Consultas de integração: q1, q2 e q3
   – Consulta 1. Retorne os títulos dos artigos publicados em
     journals no ano de 2011.
   – Consulta 2. Retorne os artigos que citam referências ao
     SIGMOD 2011.
   – Consulta 3. Retorne o nome dos autores que publicaram no I-
     SEMANTICS 2011.
Objetivo: classificar as fontes segundo os valores de relevância
  obtidos
Exemplo

Caso da fonte candidata ds1:
Exemplos de anotações obtidas sobre os resultados das
  consultas sobre ds1 – UF(u)
ufq1 = { <“Creative Learning with Serious Games”,True Positive>,
        <“The Challenges in Developing E-Content”,False Positive>,
        <“Automated Assessment, Face to Face”,False Negative>}
ufq2 = { <“Processing theta-joins using MapReduce”,True Positive>,
        <“Automated Assessment, Face to Face”,False Positive>}
ufq3 = { <"Nikola Tomasevic",True Positive>,
        <"Philipp Heim",False Negative>,
        <"Hélio Rodrigues",False Positive>}
Exemplo

1) Inicialmente, obtém-se os valores de F-measure. Neste
   caso temos:
• Fq1 = 0.95
• Fq2 = 0.67
• Fq3 = 0.78


2) Próximo passo executar a inferência do feedback. O
   resultado gera um conj. de anotações UF'(u).
Exemplo

Exemplos de anotações obtidas sobre os resultados das
  consultas – UF’(u)
uf′q1 = { <“Creative Learning with Serious Games”,True Positive>,
         <“The Challenges in Developing E-Content”,False Positive>,
         <“Automated Assessment, Face to Face”,True Positive>}
uf′q2 = { <“Interaction record matching”, False Negative>,
         <“Automated Assessment, Face to Face”, False Positive>}
uf′q3 = { <"Nikola Tomasevic",True Positive>,
         <"Philipp Heim",False Negative>}
Exemplo

3) Obtém-se os valores de F'-measure. Neste caso temos:
• F'q1 = 0.85
• F'q2 = 0.9
• F'q3 = 0.8


4) A partir de F e F', calculamos os valores de benefícios
   para cada consulta
   – B(ds1,q1) = 0.89
   – B(ds1,q2) = 1.34
   – B(ds1,q3) = 1.02
Exemplo

5) Consideramos os pesos das consultas iguais a 1.


6) Por fim, calculamos o valor de R(ds1) = 4.32


Repetindo os passos para ds2 e ds3, obtemos:
   – R(ds2) = 4.26
   – R(ds3) = 3.69


A classificação final em ordem decrescente no valor de
  relevância seria: (ds1, ds2, ds3).
Implementação

• Protótipo DSFilter para validação dos experimentos
• Arquitetura 3 camadas
• Componentes principais:
   – GUI
   – Gerenciador de Consultas
   – Gerenciador de Feedback
   – Analisador de Relevância
   – Gerenciador do Repositório de Dados
Arquitetura
Casos de Uso
Experimento

• Cenário: domínio de dados bibliográficos em Ciência da
  Computação
• Modelo de dados: RDF
• Entradas:
   – Qi : 13 consultas SPARQL
   – Si : DBLP
   – DS : 30 datasets candidatos
Experimento

• Máquina utilizada:
   – DELL Inspiron
   – Core i7 2 x 2.10 GHz
   – 8GB RAM
   – SO Linux
   – Java JDK 1.7
• Outras tecnologias: Jena API, Jena TDB, PostgreSQL


• O experimento executa 12 testes de cálculo de
  relevância para cada fonte candidata em DS
Experimento
Cada teste considera três critérios/variáveis
– Número de consultas
– Número de anotações
– Tipos de anotações
Experimento

• A partir destes testes, foram realizadas três análises:
   – Quantidade de consultas
   – Quantidade de anotações
   – Tipos de anotações de feedback
Experimento

• Análise 1: Quantidade de consultas
Experimento

• Análise 2: Quantidade de anotações
Experimento

• Análise 3: Tipos de anotações de feedback
Experimento - Considerações

• Quanto maior o número de anotações corretas, mais
  confiáveis serão os valores de Relevância
• Ao aumentarmos o número de anotações, aumentando
  o valor de R. Ou seja, se a base´já era considerada boa,
  o valor vai tender a ser melhor ainda
• O feedback é o ponto-chave desse comportamento de R
• O processo não garante que fontes boas terão altos
  valores de R
• Mas o processo garante que fontes ruins não terão altos
  valores de relevância
Considerações Finais

• Abordagem para classificação de fontes de dados
   – Necessidade dos sistemas e aplicações em selecionar fontes
     relevantes
   – Foco em sistemas de integração pay-as-you-go, porém
     extensível a qualquer abordagem
   – Feedback do usuário como foco central do processo de análise
     de relevância
   – Independência do modelo de dados
• Experimentos
   – Avaliação do comportamento do valor de relevância
   – Influência da qualidade do feedback no resultado final
Considerações Finais
• Contribuições
  – Especificação da Abordagem
      • Formalização do Feedback do Usuário
      • Definição da medida de relevância
      • Especificação do processo de inferência de feedback
  – Desenvolvimento de um protótipo
• Publicação
  – Feedback-based data set recommendation for building linked data
    applications. In Proceedings of the 8th International Conference on
    Semantic Systems, I-SEMANTICS, pages 49–55, Graz, Austria.
  – Link
Trabalhos Futuros

• Tratamento do Feedback para vários usuários
• Melhoria das técnicas de inferência das anotações de
  feedback
• Realização de um checkup das fontes de dados na Web
• Avaliação da qualidade da abordagem
Obrigado!

Mais conteúdo relacionado

Destaque

Spring 2012 state of project keystone
Spring 2012 state of project keystoneSpring 2012 state of project keystone
Spring 2012 state of project keystoneJoseph Heck
 
Modelagem de sistemas da informação – aula 03 mai2011
Modelagem de sistemas da informação – aula 03 mai2011Modelagem de sistemas da informação – aula 03 mai2011
Modelagem de sistemas da informação – aula 03 mai2011Universal.org.mx
 
Mandarin bible old testament 1 kings
Mandarin bible old testament 1 kingsMandarin bible old testament 1 kings
Mandarin bible old testament 1 kingsChineseBibles
 
1.5 hearing
1.5 hearing1.5 hearing
1.5 hearingwan2114
 
Innovation Principles 2_ideas
Innovation Principles 2_ideasInnovation Principles 2_ideas
Innovation Principles 2_ideasAnderson Penha
 
ENJ - 300 Módulo III El Juicio. Primera Parte
ENJ - 300 Módulo III El Juicio. Primera ParteENJ - 300 Módulo III El Juicio. Primera Parte
ENJ - 300 Módulo III El Juicio. Primera ParteENJ
 
Competencias e habilidades1
Competencias e habilidades1Competencias e habilidades1
Competencias e habilidades1Glauco Duarte
 
Homenagem Infantil 3 - Prof. Joelma - Bancários
Homenagem Infantil 3 - Prof. Joelma - BancáriosHomenagem Infantil 3 - Prof. Joelma - Bancários
Homenagem Infantil 3 - Prof. Joelma - BancáriosSéculo Colégio e Curso
 
Unix-Electronics
Unix-ElectronicsUnix-Electronics
Unix-Electronicshyejinpark
 
Agilidade em startups, Aplicação de práticas ágeis para a criação de MVPs par...
Agilidade em startups, Aplicação de práticas ágeis para a criação de MVPs par...Agilidade em startups, Aplicação de práticas ágeis para a criação de MVPs par...
Agilidade em startups, Aplicação de práticas ágeis para a criação de MVPs par...Leandro Faria
 

Destaque (20)

A Música
A MúsicaA Música
A Música
 
Spring 2012 state of project keystone
Spring 2012 state of project keystoneSpring 2012 state of project keystone
Spring 2012 state of project keystone
 
Modelagem de sistemas da informação – aula 03 mai2011
Modelagem de sistemas da informação – aula 03 mai2011Modelagem de sistemas da informação – aula 03 mai2011
Modelagem de sistemas da informação – aula 03 mai2011
 
簡報2
簡報2簡報2
簡報2
 
Mandarin bible old testament 1 kings
Mandarin bible old testament 1 kingsMandarin bible old testament 1 kings
Mandarin bible old testament 1 kings
 
1.5 hearing
1.5 hearing1.5 hearing
1.5 hearing
 
Innovation Principles 2_ideas
Innovation Principles 2_ideasInnovation Principles 2_ideas
Innovation Principles 2_ideas
 
Forbes&17%
Forbes&17%Forbes&17%
Forbes&17%
 
Lusofonia
LusofoniaLusofonia
Lusofonia
 
Jn bullying&sinais1
Jn bullying&sinais1Jn bullying&sinais1
Jn bullying&sinais1
 
Innovations in Information Communication Technology
Innovations in Information Communication TechnologyInnovations in Information Communication Technology
Innovations in Information Communication Technology
 
Lesson plan
Lesson planLesson plan
Lesson plan
 
ENJ - 300 Módulo III El Juicio. Primera Parte
ENJ - 300 Módulo III El Juicio. Primera ParteENJ - 300 Módulo III El Juicio. Primera Parte
ENJ - 300 Módulo III El Juicio. Primera Parte
 
Trabalho PI I
Trabalho PI ITrabalho PI I
Trabalho PI I
 
Competencias e habilidades1
Competencias e habilidades1Competencias e habilidades1
Competencias e habilidades1
 
Homenagem Infantil 3 - Prof. Joelma - Bancários
Homenagem Infantil 3 - Prof. Joelma - BancáriosHomenagem Infantil 3 - Prof. Joelma - Bancários
Homenagem Infantil 3 - Prof. Joelma - Bancários
 
Unix-Electronics
Unix-ElectronicsUnix-Electronics
Unix-Electronics
 
III Congreso Factura Electronica
III Congreso Factura ElectronicaIII Congreso Factura Electronica
III Congreso Factura Electronica
 
Csácarvalho página1
Csácarvalho página1Csácarvalho página1
Csácarvalho página1
 
Agilidade em startups, Aplicação de práticas ágeis para a criação de MVPs par...
Agilidade em startups, Aplicação de práticas ágeis para a criação de MVPs par...Agilidade em startups, Aplicação de práticas ágeis para a criação de MVPs par...
Agilidade em startups, Aplicação de práticas ágeis para a criação de MVPs par...
 

Semelhante a Apresentação da Dissertação

Recomendação de conteúdo baseada em interações multimodais
Recomendação de conteúdo baseada em interações multimodaisRecomendação de conteúdo baseada em interações multimodais
Recomendação de conteúdo baseada em interações multimodaisArthur Fortes
 
Case Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em PythonCase Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em PythonArthur Fortes
 
Análise de Redes Sociais - Agroplus
Análise de Redes Sociais - AgroplusAnálise de Redes Sociais - Agroplus
Análise de Redes Sociais - Agroplusequipeagroplus
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
O que é Analytics?
O que é Analytics?O que é Analytics?
O que é Analytics?Bruno Michel
 
awari-ds-aula4.pptx.pdf
awari-ds-aula4.pptx.pdfawari-ds-aula4.pptx.pdf
awari-ds-aula4.pptx.pdfMarcos993896
 
Tecnicas de Pesquisa de Mercado - Coleta de Dados - Aula 6
Tecnicas de Pesquisa de Mercado - Coleta de Dados - Aula 6Tecnicas de Pesquisa de Mercado - Coleta de Dados - Aula 6
Tecnicas de Pesquisa de Mercado - Coleta de Dados - Aula 6Ueliton da Costa Leonidio
 
Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Leandro Escobar
 
Sistemas de avaliação e sistemas de informação
Sistemas de avaliação e sistemas de informaçãoSistemas de avaliação e sistemas de informação
Sistemas de avaliação e sistemas de informaçãoRoberto C. S. Pacheco
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de DadosJoão Pedro Albino
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebFernando Hideo Fukuda
 
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetos
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetosCapítulo 11 - Como desenvolver sistemas de informação e gerenciar projetos
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetosEverton Souza
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Collaborative filtering
Collaborative filteringCollaborative filtering
Collaborative filteringZhang Yi Ling
 

Semelhante a Apresentação da Dissertação (20)

Recomendação de conteúdo baseada em interações multimodais
Recomendação de conteúdo baseada em interações multimodaisRecomendação de conteúdo baseada em interações multimodais
Recomendação de conteúdo baseada em interações multimodais
 
Case Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em PythonCase Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em Python
 
Integração de dados
Integração de dadosIntegração de dados
Integração de dados
 
Análise de Redes Sociais - Agroplus
Análise de Redes Sociais - AgroplusAnálise de Redes Sociais - Agroplus
Análise de Redes Sociais - Agroplus
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
O que é Analytics?
O que é Analytics?O que é Analytics?
O que é Analytics?
 
awari-ds-aula4.pptx.pdf
awari-ds-aula4.pptx.pdfawari-ds-aula4.pptx.pdf
awari-ds-aula4.pptx.pdf
 
Data mining
Data miningData mining
Data mining
 
Tecnicas de Pesquisa de Mercado - Coleta de Dados - Aula 6
Tecnicas de Pesquisa de Mercado - Coleta de Dados - Aula 6Tecnicas de Pesquisa de Mercado - Coleta de Dados - Aula 6
Tecnicas de Pesquisa de Mercado - Coleta de Dados - Aula 6
 
Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Mineração de dados_escobar2.0
Mineração de dados_escobar2.0
 
Sistemas de avaliação e sistemas de informação
Sistemas de avaliação e sistemas de informaçãoSistemas de avaliação e sistemas de informação
Sistemas de avaliação e sistemas de informação
 
Esquemas de metadados utilizados por repositórios digitais científicos latino...
Esquemas de metadados utilizados por repositórios digitais científicos latino...Esquemas de metadados utilizados por repositórios digitais científicos latino...
Esquemas de metadados utilizados por repositórios digitais científicos latino...
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de Dados
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da Web
 
Data mining
Data miningData mining
Data mining
 
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetos
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetosCapítulo 11 - Como desenvolver sistemas de informação e gerenciar projetos
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetos
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Collaborative filtering
Collaborative filteringCollaborative filtering
Collaborative filtering
 

Apresentação da Dissertação

  • 1. Explorando o Feedback do Usuário para Classificação de Fontes de Dados em Sistemas de Integração Pay-as-you-go Aluno: Hélio Rodrigues de Oliveira hro@cin.ufpe.br Orientadora: Bernadette Farias Lóscio bfl@cin.ufpe.br Centro de Informática (CIn) Pós-Graduação em Ciência da Computação Universidade Federal de Pernambuco (UFPE)
  • 2. Roteiro • Motivação • Objetivos e Contribuições do Trabalho • Fundamentação Teórica • Abordagem para Classificação de Fontes de Dados utilizando o Feedback do Usuário • Implementação e Experimentos • Considerações Finais • Trabalhos Futuros
  • 3. Motivação • Integração de Dados é uma importante área de pesquisa! – Os sistemas de integração de dados buscam oferecer uma visão unificada de dados distribuídos em fontes autônomas e heterogêneas • Com o crescimento da Web, intensificou-se a necessidade de soluções de integração de dados! – Grandes volumes de dados e facilidade de acesso • A facilidade de acesso a grandes volumes de dados traz vantagens e desvantagens – Maior quantidade de informação – Porém, nem sempre confiável • Os sistemas de integração de dados Pay-as-you-go podem ser considerados
  • 4. Motivação Pergunta: Que fontes são mais relevantes para um Sistema de Integração de Dados Pay-as-you-go? • Possível Solução: – Definição de uma técnica para medir a relevância da fonte de dados, e a partir desta medida, classificá-las – Utilizar o feedback do usuário como parte do cálculo da relevância
  • 5. Objetivos • Objetivo Geral: Especificação de uma abordagem para auxiliar a seleção de fontes de dados a serem incluídas em um sistema de integração de dados pay-as-you-go
  • 6. Objetivos • Objetivos Específicos: – Estudos dirigidos na área de integração de dados pay-as-you- go, feedback do usuário e seleção de fontes – Definição de métricas para o cálculo de relevância das fontes de dados – Formalização do feedback do usuário – Especificação de uma abordagem para classificação e seleção de fontes de dados utilizando o feedback do usuário – Implementação dos algoritmos de análise de relevância e inferência de feedback – Implementação do protótipo para auxílio nos testes – Realização de experimentos com a aplicação da abordagem sobre fontes de dados bibliográficos
  • 7. Fundamentação Teórica • Integração de Dados • Feedback do usuário • Seleção de Fontes
  • 8. Integração de Dados • Busca oferecer uma visão unificada dos dados das fontes • Diversas soluções propostas – Abordagens Convencionais (mediadores / datawarehouse) – PDMS – Sistemas de integração de dados pay-as-you-go
  • 10. PDMS
  • 11. Abordagem Pay-as-you-go • Baixo custo de inicialização • Geração incremental e automática de mapeamentos • Resultados podem ser imprecisos • Flexível e escalável • Uso do feedback do usuário para refinamento dos mapeamentos • Facilidade de inclusão de novas fontes • Uma nova fonte pode não ser relevante
  • 12. Fundamentação Teórica • Integração de Dados • Feedback do usuário • Seleção de Fontes
  • 13. Feedback do Usuário • O feedback do usuário é um tema bastante discutido • Necessidade de obter informações essenciais através do usuário, de forma explícita ou não • Feedback em Recuperação da Informação – Explícito – Implícito – Pseudo Feedback • Feedback em Sistemas de Int. Pay-as-you-go – Conjunto de anotações providas pelo usuário sobre um artefato – Artefato: consultas, mapeamentos, esq. mediação, dentre outros
  • 14. Feedback do Usuário • Em nossa abordagem: – Feedback explícito – Anotação sobre os resultados das consultas – Formalização do feedback para obtenção da medida de relevância
  • 15. Fundamentação Teórica • Integração de Dados • Feedback do usuário • Seleção de Fontes de Dados
  • 16. Seleção de Fontes de Dados • A grande quantidade de fontes de dados disponíveis exige a seleção de fontes relevantes • A seleção é necessário devido a: – Dinamicidade das fontes – Heterogeneidade dos esquemas – Qualidade dos dados Selecionar fontes relevantes tornou-se essencial
  • 17. Seleção de Fontes • As abordagens possuem dois direcionamentos • Soluções baseadas em palavra-chave – Técnicas utilizadas em recuperação da informação – Bag of words – estrutural • Soluções baseadas em consultas federadas – Consultas estruturadas – Estrutural e/ou semântica – Reescrita de consultas
  • 19. Abordagem Proposta • Auxiliar a seleção de fontes de dados a serem incluídas em um sistema de integração de dados pay-as-you-go • Classificação de fontes candidatas de acordo com a relevância • Análise de relevância baseada no feedback do usuário
  • 20. Abordagem - Definições • Sistema de Integração de Dados Pay-as-you-go I=(Si,Qi) • Conjunto de fontes de dados inicial (Si) • Consultas de integração (Qi) • Termo do resultado da consulta (ti)
  • 21. Abordagem - Definições • Anotação de feedback – T: tupla – V: valor (True positive, False Positive, False negative) • Feedback de uma consulta q • Feedback do usuário u
  • 22. Abordagem - Definições • Precision do feedback da consulta q • Recall do feedback da consulta q • F-measure do feedback da consulta q
  • 23. Formalização do Problema Problema. Seja I = (QI ,SI) um SID pay-as-you-go, o feedback do usuário UF(u) com relação à QI e o conjunto de fontes candidatas DSI a serem adicionadas. Devemos classificar as fontes contidas em DSI, para auxiliar o usuário na escolha de fontes relevantes, que poderão ser adicionadas no conjunto SI. Consideramos que uma fonte ds é relevante, com respeito a QI , se os resultados obtidos em QI melhoram, de acordo com os requisitos do usuário, após a adição de ds a SI.
  • 24. Análise de relevância • Muitos trabalhos consideram apenas a estrutura • Dados incompletos e incorretos podem ser retornados • Necessário capturar os requisitos que um SID espera atender (consultas) • Utilizamos dois conceitos: • Peso de uma consulta (w) – frequência • Benefício de uma fonte em relação à consulta (B)
  • 25. Análise de relevância • Relevância de uma fonte de dados candidata (R)
  • 28. Exemplo • Sist. Int. Pay-as-you-go sobre dados bibliográficos em Ciência da Computação • Bases candidatas: ds1, ds2 e ds3 • Consultas de integração: q1, q2 e q3 – Consulta 1. Retorne os títulos dos artigos publicados em journals no ano de 2011. – Consulta 2. Retorne os artigos que citam referências ao SIGMOD 2011. – Consulta 3. Retorne o nome dos autores que publicaram no I- SEMANTICS 2011. Objetivo: classificar as fontes segundo os valores de relevância obtidos
  • 29. Exemplo Caso da fonte candidata ds1: Exemplos de anotações obtidas sobre os resultados das consultas sobre ds1 – UF(u) ufq1 = { <“Creative Learning with Serious Games”,True Positive>, <“The Challenges in Developing E-Content”,False Positive>, <“Automated Assessment, Face to Face”,False Negative>} ufq2 = { <“Processing theta-joins using MapReduce”,True Positive>, <“Automated Assessment, Face to Face”,False Positive>} ufq3 = { <"Nikola Tomasevic",True Positive>, <"Philipp Heim",False Negative>, <"Hélio Rodrigues",False Positive>}
  • 30. Exemplo 1) Inicialmente, obtém-se os valores de F-measure. Neste caso temos: • Fq1 = 0.95 • Fq2 = 0.67 • Fq3 = 0.78 2) Próximo passo executar a inferência do feedback. O resultado gera um conj. de anotações UF'(u).
  • 31. Exemplo Exemplos de anotações obtidas sobre os resultados das consultas – UF’(u) uf′q1 = { <“Creative Learning with Serious Games”,True Positive>, <“The Challenges in Developing E-Content”,False Positive>, <“Automated Assessment, Face to Face”,True Positive>} uf′q2 = { <“Interaction record matching”, False Negative>, <“Automated Assessment, Face to Face”, False Positive>} uf′q3 = { <"Nikola Tomasevic",True Positive>, <"Philipp Heim",False Negative>}
  • 32. Exemplo 3) Obtém-se os valores de F'-measure. Neste caso temos: • F'q1 = 0.85 • F'q2 = 0.9 • F'q3 = 0.8 4) A partir de F e F', calculamos os valores de benefícios para cada consulta – B(ds1,q1) = 0.89 – B(ds1,q2) = 1.34 – B(ds1,q3) = 1.02
  • 33. Exemplo 5) Consideramos os pesos das consultas iguais a 1. 6) Por fim, calculamos o valor de R(ds1) = 4.32 Repetindo os passos para ds2 e ds3, obtemos: – R(ds2) = 4.26 – R(ds3) = 3.69 A classificação final em ordem decrescente no valor de relevância seria: (ds1, ds2, ds3).
  • 34. Implementação • Protótipo DSFilter para validação dos experimentos • Arquitetura 3 camadas • Componentes principais: – GUI – Gerenciador de Consultas – Gerenciador de Feedback – Analisador de Relevância – Gerenciador do Repositório de Dados
  • 37. Experimento • Cenário: domínio de dados bibliográficos em Ciência da Computação • Modelo de dados: RDF • Entradas: – Qi : 13 consultas SPARQL – Si : DBLP – DS : 30 datasets candidatos
  • 38. Experimento • Máquina utilizada: – DELL Inspiron – Core i7 2 x 2.10 GHz – 8GB RAM – SO Linux – Java JDK 1.7 • Outras tecnologias: Jena API, Jena TDB, PostgreSQL • O experimento executa 12 testes de cálculo de relevância para cada fonte candidata em DS
  • 39. Experimento Cada teste considera três critérios/variáveis – Número de consultas – Número de anotações – Tipos de anotações
  • 40. Experimento • A partir destes testes, foram realizadas três análises: – Quantidade de consultas – Quantidade de anotações – Tipos de anotações de feedback
  • 41. Experimento • Análise 1: Quantidade de consultas
  • 42. Experimento • Análise 2: Quantidade de anotações
  • 43. Experimento • Análise 3: Tipos de anotações de feedback
  • 44. Experimento - Considerações • Quanto maior o número de anotações corretas, mais confiáveis serão os valores de Relevância • Ao aumentarmos o número de anotações, aumentando o valor de R. Ou seja, se a base´já era considerada boa, o valor vai tender a ser melhor ainda • O feedback é o ponto-chave desse comportamento de R • O processo não garante que fontes boas terão altos valores de R • Mas o processo garante que fontes ruins não terão altos valores de relevância
  • 45. Considerações Finais • Abordagem para classificação de fontes de dados – Necessidade dos sistemas e aplicações em selecionar fontes relevantes – Foco em sistemas de integração pay-as-you-go, porém extensível a qualquer abordagem – Feedback do usuário como foco central do processo de análise de relevância – Independência do modelo de dados • Experimentos – Avaliação do comportamento do valor de relevância – Influência da qualidade do feedback no resultado final
  • 46. Considerações Finais • Contribuições – Especificação da Abordagem • Formalização do Feedback do Usuário • Definição da medida de relevância • Especificação do processo de inferência de feedback – Desenvolvimento de um protótipo • Publicação – Feedback-based data set recommendation for building linked data applications. In Proceedings of the 8th International Conference on Semantic Systems, I-SEMANTICS, pages 49–55, Graz, Austria. – Link
  • 47. Trabalhos Futuros • Tratamento do Feedback para vários usuários • Melhoria das técnicas de inferência das anotações de feedback • Realização de um checkup das fontes de dados na Web • Avaliação da qualidade da abordagem