SlideShare ist ein Scribd-Unternehmen logo
1 von 40
Downloaden Sie, um offline zu lesen
Introduc)on	
  to	
  Informa)on	
  Retrieval	
     	
  	
                            	
  	
  




       Ordenação	
  e	
  Recuperação	
  de	
  Dados	
  

                                               Aula	
  10:	
  	
  
                           Feedback	
  de	
  Relevância	
  e	
  Expansão	
  de	
  
                                              Consulta	
  
                                       Alexandre	
  Duarte	
  
                                  alexandre@di.ufpb.br	
  
                                                  	
  
                                                                                                1	
  
 	
                                     	
  	
  




Resumo	
  da	
  aula	
  de	
  hoje	
  

   §  Feedback	
  de	
  relevância	
  interaGvo:	
  melhorar	
  a	
  qualidade	
  
       dos	
  resultados	
  iniciais	
  informando	
  o	
  sistema	
  sobre	
  a	
  
       relevância	
  dos	
  resultados	
  retornados	
  


   §  Expansão	
  de	
  consulta:	
  melhorar	
  os	
  resultados	
  das	
  
       consultas	
  adicionando	
  sinônimos	
  e	
  termos	
  relacionados	
  à	
  
       consulta	
  




                                                                                          2	
  
 	
                 	
  	
  




Agenda	
  

❶    MoGvação	
  

❷    Feedback	
  de	
  relevância:	
  Básico	
  

❸    Feedback	
  de	
  relevância:	
  Detalhes	
  

❹    Expansão	
  de	
  consultas	
  


                                                                3	
  
 	
                 	
  	
  




Agenda	
  

❶    MoGvação	
  

❷    Feedback	
  de	
  relevância:	
  Básico	
  

❸    Feedback	
  de	
  relevância:	
  Detalhes	
  

❹    Expansão	
  de	
  consultas	
  


                                                                4	
  
 	
                                             	
  	
  

Como	
  podemos	
  melhorar	
  o	
  recall	
  em	
  uma	
  
busca?	
  
  §  Principal	
  assunto	
  de	
  hoje:	
  duas	
  formas	
  de	
  aumentar	
  o	
  
      recall:	
  feedback	
  de	
  relevância	
  e	
  expansão	
  de	
  consulta	
  
  §  Como	
  exemplo	
  cosidere	
  a	
  consulta	
  q:	
  [aeronave]	
  .	
  .	
  .	
  
  §  .	
  .	
  .	
  e	
  o	
  documento	
  d	
  contendo	
  avião,	
  mas	
  não	
  contendo	
  
      “aeronave”	
  
  §  Um	
  sistema	
  simples	
  não	
  retornará	
  d	
  para	
  a	
  consulta	
  q.	
  
  §  Mesmo	
  que	
  d	
  seja	
  o	
  documento	
  mais	
  relevante	
  para	
  q!	
  
  §  Queremos	
  mudar	
  isso:	
  
  §  Retornar	
  documentos	
  relevantes	
  mesmo	
  que	
  não	
  haja	
  
      nenhum	
  termo	
  em	
  comum	
  com	
  a	
  consulta	
  original	
  

                                                                                                       5	
  
 	
                                      	
  	
  




Opção	
  para	
  melhorar	
  o	
  recall	
  

   §  Local:	
  Fazer	
  uma	
  análise	
  “local”,	
  sob	
  demanda	
  da	
  consulta	
  
       do	
  usuário	
  
        §  Principal	
  método:	
  feedback	
  de	
  relevância	
  
        §  Parte	
  1	
  
   §  Global:	
  Fazer	
  uma	
  análise	
  global	
  para	
  produzir	
  um	
  
       thesaurus	
  
        §  Usar	
  thesaurus	
  para	
  expansão	
  de	
  consultas	
  
        §  Parte	
  2	
  



                                                                                               6	
  
 	
                 	
  	
  




Agenda	
  

❶    MoGvação	
  

❷    Feedback	
  de	
  relevância:	
  Básico	
  

❸    Feedback	
  de	
  relevância:	
  Detalhes	
  

❹    Expansão	
  de	
  consultas	
  


                                                                7	
  
 	
                                     	
  	
  




Feedback	
  de	
  relevância:	
  Ideia	
  básica	
  
  §  O	
  usuário	
  realiza	
  uma	
  consulta	
  simples.	
  
  §  O	
  mecanismo	
  de	
  busca	
  retorna	
  um	
  conjunto	
  de	
  
      documentos.	
  
  §  O	
  usuário	
  marca	
  alguns	
  documentos	
  como	
  relevantes	
  e	
  
      outros	
  como	
  não	
  relevantes.	
  
  §  O	
  mecanismo	
  de	
  busca	
  calcula	
  uma	
  nova	
  representação	
  
      para	
  a	
  necessidade	
  de	
  informação.	
  Espera-­‐se	
  que	
  seja	
  
      melhor	
  do	
  que	
  a	
  inicial.	
  
  §  O	
  mecanismo	
  realiza	
  a	
  mesma	
  busca	
  novamente	
  e	
  retorna	
  
      novos	
  resultados.	
  
  §  Novos	
  resultados	
  têm	
  melhor	
  recall	
  
                                                                                          8	
  
 	
                                          	
  	
  




Feedback	
  de	
  relevância	
  

  §  Isso	
  pode	
  ser	
  feito	
  de	
  forma	
  iteraGva:	
  várias	
  rodadas	
  de	
  
      feedback.	
  
  §  Usaremos	
  o	
  termo	
  recuperação	
  ad	
  hoc	
  para	
  nos	
  referir	
  a	
  
      recuperação	
  sem	
  feedback	
  de	
  relevância	
  




                                                                                                  9	
  
 	
                 	
  	
  




Agenda	
  

❶    MoGvação	
  

❷    Feedback	
  de	
  relevância:	
  Básico	
  

❸    Feedback	
  de	
  relevância:	
  Detalhes	
  

❹    Expansão	
  de	
  consultas	
  


                                                                10	
  
 	
                                                                         	
  	
  

	
  	
  Conceito	
  chave	
  para	
  feedback	
  de	
  relevância:	
  
Centroíde	
  
          §  O	
  centroíde	
  é	
  o	
  centro	
  de	
  massa	
  de	
  um	
  conjunto	
  de	
  
              pontos.	
  
          §  Lembre-­‐se	
  que	
  representamos	
  documentos	
  como	
  em	
  um	
  
              espaço.	
  
          §  Portanto:	
  podemos	
  calcular	
  o	
  centroide	
  de	
  um	
  conjunto	
  de	
  
              documentos.	
  
          §  Definição:	
  
 	
  
 	
  
 onde	
  D	
  é	
  um	
  conjunto	
  de	
  documentos	
  e	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  é	
  o	
  vetor	
  que	
  
 uGlizamos	
  para	
  representar	
  um	
  documento	
  d.	
  

                                                                                                                                                                       11	
  
 	
     	
  	
  




	
  	
  Centroíde:	
  Exemplo	
  




                                                    12	
  
 	
                                                       	
  	
  




Algoritmo	
  de	
  Rocchio’	
  
  §  O	
  algoritmo	
  de	
  Rocchio’	
  implementa	
  o	
  feedback	
  de	
  
      relevância	
  em	
  um	
  modelo	
  de	
  espaço	
  vetorial.	
  
  §  Ele	
  escolhe	
  a	
  consulta	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  que	
  maximiza	
  a	
  seguinte	
  
      equação	
  


  	
  
  	
  	
  Dr	
  :	
  conjunto	
  de	
  documentos	
  relevantes;	
  Dnr	
  :	
  conjunto	
  de	
  
           documentos	
  não	
  relevantes	
  
  §  ObjeGvo:	
  qopt	
  	
  é	
  o	
  vetor	
  que	
  separa	
  documentos	
  relevantes	
  
           de	
  documentos	
  não	
  relevantes	
  de	
  forma	
  máxima	
  


                                                                                                                               13	
  
 	
                             	
  	
  




Algoritmo	
  de	
  Rocchio’	
  
   §  O	
  vetor	
  de	
  consulta	
  óGmo	
  é:	
  




   	
  
   §  Movemos	
  o	
  centroíde	
  dos	
  documentos	
  relevantes	
  pela	
  
        diferença	
  dos	
  dois	
  centroídes.	
  




                                                                                      14	
  
 	
                                                                                              	
  	
  




       Calcular	
  o	
  vetor	
  de	
  Rocchio’	
  




	
  
     	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
círculos:	
  documentos	
  relevantes,	
  Xs:	
  documentos	
  não	
  relevantes	
  
	
  
                                                                                                                                                                                                                   15	
  
 	
                                         	
  	
  




 Algoritmo	
  de	
  Rocchio’	
  ilustrado	
  




	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  :	
  centroíde	
  dos	
  documentos	
  relevantes	
  
                                                                                                                           16	
  
 	
                                                          	
  	
  




 Algoritmo de Rocchio’ ilustrado




	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  não	
  separa	
  os	
  documentos	
  relevantes	
  dos	
  não	
  
relevantes.	
                                                                                                                              17	
  
 	
                                                  	
  	
  




 Algoritmo de Rocchio’ ilustrado




	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  centroíde	
  dos	
  documentos	
  não	
  relevantes.	
  
                                                                                                                                  18	
  
 	
             	
  	
  




Algoritmo de Rocchio’ ilustrado




                                             19	
  
 	
                                                                     	
  	
  




 Algoritmo de Rocchio’ ilustrado




	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  -­‐	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Diferença	
  entre	
  os	
  dois	
  vetores	
  
                                                                                                                                                                                        20	
  
 	
                     	
  	
  




 Algoritmo de Rocchio’ ilustrado




	
  
Adicionar	
  a	
  diferença	
  ao	
  vetor	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  …	
  
                                                                                                         21	
  
 	
     	
  	
  




 Algoritmo de Rocchio’ ilustrado




	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  …	
  para	
  obter	
  	
  
                                                                                           22	
  
 	
                                                               	
  	
  




 Algoritmo de Rocchio’ ilustrado




	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  separa	
  os	
  documentos	
  relevantes	
  dos	
  não	
  relevantes	
  
perfeitamente.	
                                                                                                                               23	
  
 	
                                                               	
  	
  




 Algoritmo de Rocchio’ ilustrado




	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  separa	
  os	
  documentos	
  relevantes	
  dos	
  não	
  relevantes	
  
perfeitamente.	
                                                                                                                               24	
  
 	
                                         	
  	
  




Terminologia	
  


  §  Usamos	
  o	
  nome	
  Rocchio’	
  para	
  a	
  versão	
  teórica	
  e	
  mais	
  bem	
  
      ilustrada	
  do	
  algoritmo.	
  
  §  A	
  implementação	
  que	
  é	
  atualmente	
  uGlizada	
  na	
  maioria	
  
      dos	
  casos	
  é	
  denominada	
  SMART	
  –	
  usaremos	
  o	
  nome	
  
      Rocchio,	
  sem	
  o	
  ‘	
  ,	
  para	
  esta	
  versão.	
  




                                                                                                  25	
  
 	
                                         	
  	
  




Algoritmo	
  de	
  Rocchio	
  1971	
  (SMART)	
  
   Usado	
  na	
  práGca:	
  




     	
  qm:	
  vetor	
  de	
  consulta	
  modificado;	
  q0:	
  vetor	
  de	
  consulta	
  
         original;	
  Dr	
  e	
  Dnr	
  :	
  conjuntos	
  de	
  documentos	
  sabidamente	
  
         relevantes	
  e	
  não	
  relevantes;	
  α,	
  β,	
  e	
  γ:	
  pesos	
  
  §  A	
  nova	
  consulta	
  se	
  move	
  em	
  direção	
  aos	
  documentos	
  
         relevantes	
  e	
  para	
  longe	
  dos	
  documentos	
  não	
  relevantes.	
  
  §  Tradeoff	
  entre	
  α	
  e	
  β/γ:	
  se	
  temos	
  muitos	
  documentos	
  
         julgados	
  queremos	
  uma	
  relação	
  β/γ	
  maior.	
  


                                                                                                 26	
  
 	
                                                	
  	
  




Feedback	
  de	
  relevância	
  PosiGvo	
  vs.	
  negaGvo	
  


  §  Feedback	
  posiGvo	
  é	
  mais	
  valioso	
  que	
  feedback	
  negaGvo	
  
  §  Por	
  exemplo,	
  setar	
  β	
  =	
  0.75	
  e	
  γ	
  =	
  0.25	
  para	
  dar	
  maior	
  peso	
  
      ao	
  feedback	
  posiGvo.	
  
  §  Vários	
  sistemas	
  só	
  permitem	
  feedback	
  posiGvo.	
  




                                                                                                              27	
  
 	
                                        	
  	
  




Suposição	
  sobre	
  o	
  feedback	
  de	
  relevância	
  


  §  Quando	
  o	
  feedback	
  de	
  relevância	
  consegue	
  melhorar	
  o	
  
      recall?	
  
  §  Suposição	
  S1:	
  O	
  usuário	
  conhece	
  os	
  termos	
  na	
  coleção	
  o	
  
      suficiente	
  para	
  realizar	
  uma	
  consulta	
  inicial.	
  
  §  Suposição	
  S2:	
  Documentos	
  documentos	
  contém	
  termos	
  
      similares	
  (permiGndo	
  que	
  o	
  usuário	
  possa	
  “pular”	
  de	
  um	
  
      documento	
  relevante	
  para	
  outro	
  dando	
  o	
  feedback	
  sobre	
  
      sua	
  relevância).	
  


                                                                                               28	
  
 	
                                         	
  	
  




Violação	
  de	
  S1	
  


   §  Suposição	
  S1:	
  O	
  usuário	
  conhece	
  os	
  termos	
  na	
  coleção	
  o	
  
       suficiente	
  para	
  realizar	
  uma	
  consulta	
  inicial.	
  
   §  Violação:	
  Desvio	
  entre	
  o	
  vocabulário	
  do	
  usuário	
  e	
  o	
  
       vocabulário	
  da	
  coleção	
  
   §  Exemplo:	
  cosmonauta	
  /	
  astronauta	
  




                                                                                                  29	
  
 	
                                            	
  	
  




Violação	
  de	
  S2	
  

   §  Suposição	
  S2:	
  Documentos	
  relevantes	
  são	
  similares.	
  
   §  Exemplo	
  de	
  violação:	
  [contradições	
  políGcas	
  
       governamentais]	
  
   §  Vários	
  “protóGpos“	
  não	
  relacionados	
  
        §  Subsídios	
  para	
  plantadores	
  de	
  tabaco	
  vs.	
  campanhas	
  anG-­‐
            fumo	
  
        §  Ajuda	
  a	
  países	
  em	
  desenvolvimento	
  vs.	
  altos	
  impostos	
  de	
  
            importação	
  para	
  países	
  em	
  desenvolvimento	
  
   §  Feedback	
  de	
  relevância	
  para	
  documentos	
  sobre	
  tabaco	
  não	
  
       vai	
  ajudar	
  na	
  localização	
  de	
  documentos	
  relevantes	
  sobre	
  
       países	
  em	
  desenvolvimento.	
  
                                                                                                      30	
  
 	
                                        	
  	
  




Avaliação	
  do	
  feedback	
  de	
  relevância	
  

  §  UGlizar	
  uma	
  das	
  métricas	
  de	
  avaliação	
  que	
  vimos	
  na	
  úlGma	
  
      aula,	
  ex.,	
  precisão	
  nos	
  top	
  10:	
  P@10	
  
  §  Calcular	
  P@10	
  para	
  a	
  consulta	
  original	
  q0	
  
  §  Calcular	
  P@10	
  para	
  uma	
  consulta	
  q1	
  modificada	
  pelo	
  
      feedback	
  de	
  relevância	
  
  §  Na	
  maioria	
  dos	
  casos:	
  q1	
  é	
  espetacularmente	
  melhor	
  que	
  
      q0!	
  
  §  Esta	
  avaliação	
  seria	
  justa?	
  



                                                                                                31	
  
 	
                                        	
  	
  




Avaliação	
  do	
  feedback	
  de	
  relevância	
  

  §  Uma	
  avaliação	
  justa	
  deve	
  considerar	
  a	
  coleção	
  residual:	
  os	
  
      documentos	
  ainda	
  não	
  julgados	
  pelo	
  usuário.	
  
  §  Estudos	
  mostraram	
  que	
  o	
  feedback	
  de	
  relevância	
  pode	
  ser	
  
      avaliado	
  dessa	
  maneira	
  com	
  sucesso.	
  
  §  Conclusão	
  empírica,	
  uma	
  rodada	
  de	
  feedback	
  de	
  relevância	
  
      é	
  geralmente	
  muito	
  úGl.	
  Uma	
  segunda	
  rodada	
  tem	
  efeito	
  
      marginal	
  nos	
  resultados.	
  




                                                                                               32	
  
 	
                 	
  	
  




Agenda	
  

❶    MoGvação	
  

❷    Feedback	
  de	
  relevância:	
  Básico	
  

❸    Feedback	
  de	
  relevância:	
  Detalhes	
  

❹    Expansão	
  de	
  consultas	
  


                                                                33	
  
 	
                                         	
  	
  




Expansão	
  de	
  consulta	
  
  §  Expansão	
  de	
  consulta	
  é	
  uma	
  outra	
  forma	
  de	
  	
  aumentar	
  o	
  
      recall.	
  
  §  Usamos	
  a	
  expressão	
  “expansão	
  de	
  consulta	
  global”	
  para	
  
      nos	
  referir	
  a	
  “métodos	
  globais	
  para	
  expansão	
  de	
  
      consultas”.	
  
  §  Na	
  expansão	
  de	
  consulta	
  global,	
  as	
  consultas	
  são	
  
      modificadas	
  com	
  base	
  em	
  algum	
  recurso	
  global,	
  de	
  forma	
  
      independente	
  da	
  consulta.	
  
  §  Principal	
  informação	
  uGlizada:	
  (quasi-­‐)sinônimos	
  
  §  Uma	
  base	
  da	
  de	
  dados	
  que	
  armazena	
  (quasi-­‐)sinônimos	
  é	
  
      chamado	
  thesaurus.	
  
  §  Veremos	
  dois	
  Gpos	
  de	
  thesauri:	
  criados	
  manualmente	
  e	
  
      criados	
  automaGcamente.	
                                                               34	
  
 	
                   	
  	
  




Exemplo	
  de	
  Expansão	
  de	
  Consulta	
  




                                                             35	
  
 	
                                 	
  	
  




Tipos	
  de	
  feedback	
  do	
  usuário	
  


   §  O	
  usuário	
  dá	
  feedback	
  sobre	
  os	
  documentos.	
  
        §  Mais	
  comum	
  em	
  feedback	
  de	
  relevância	
  
   §  O	
  usuário	
  dá	
  feedback	
  em	
  palavras	
  ou	
  frases.	
  
        §  Mais	
  comum	
  em	
  expansão	
  de	
  consultas	
  




                                                                                          36	
  
 	
                                     	
  	
  




Tipos	
  de	
  expansão	
  de	
  consulta	
  


   §  Thesaurus	
  manual	
  (manGdo	
  pelos	
  editores,	
  ex.,	
  PubMed)	
  
   §  Thesaurus	
  derivado	
  automaGcamente	
  (ex.,	
  baseado	
  em	
  
       esta•sGcas	
  de	
  co-­‐ocorrência)	
  
   §  Baseado	
  em	
  mineração	
  de	
  logs	
  de	
  equivalência	
  de	
  
       consultas	
  (comum	
  na	
  web,	
  como	
  no	
  exemplo	
  do	
  carro)	
  




                                                                                          37	
  
 	
                                    	
  	
  

Expansão	
  de	
  consultas	
  baseada	
  em	
  
thesaurus	
  
  §  Para	
  cada	
  termo	
  t	
  da	
  consulta,	
  expandir	
  a	
  consulta	
  
      com	
  palavras	
  listadas	
  no	
  thesaurus	
  como	
  
      semanGcamente	
  relacionadas	
  a	
  t.	
  
  §  Geralmente	
  aumenta	
  o	
  recall	
  
  §  Pode	
  diminuir	
  significaGvamente	
  a	
  precisão	
  
  §  Usado	
  largamente	
  em	
  ferramentas	
  de	
  busca	
  
      especializadas	
  para	
  ciências	
  e	
  engenharia	
  
  §  É	
  muito	
  caro	
  criar	
  e	
  manter	
  um	
  thesaurus	
  
      manualmente.	
  


                                                                                       38	
  
 	
                    	
  	
  




Exemplo	
  de	
  thesaurus	
  manual:	
  PubMed	
  




                                                            39	
  
 	
                                              	
  	
  




Thesaurus	
  gerado	
  automaGcamente	
  
  §  TentaGva	
  de	
  gerar	
  um	
  thesaurus	
  automaGcamente	
  
      analisando	
  a	
  distribuição	
  das	
  palavras	
  nos	
  documentos	
  
  §  Noção	
  fundamental:	
  similaridade	
  entre	
  duas	
  palavras	
  
  §  Definição	
  1:	
  Duas	
  palavras	
  são	
  similares	
  se	
  co-­‐ocorrem	
  com	
  
      palavras	
  similares.	
  
       §  “carro”	
  ≈	
  “motocicleta”	
  porque	
  ambas	
  ocorrem	
  com	
  
           “estrada”,	
  “gasolina”	
  e	
  “placa”,	
  então	
  devem	
  ser	
  similares.	
  
  §  Definição	
  2:	
  Duas	
  palavras	
  são	
  similares	
  se	
  ocorrem	
  em	
  
      uma	
  dada	
  relação	
  gramaGcal	
  com	
  as	
  mesmas	
  palavras.	
  
       §  Você	
  pode	
  plantar,	
  descascar,	
  comer,	
  	
  etc,	
  maçãs	
  e	
  peras,	
  
           portanto	
  maçãs	
  e	
  peras	
  devem	
  ser	
  similares.	
  
  §  Co-­‐ocorrência	
  é	
  mais	
  robusta,	
  relação	
  gramaGcal	
  tem	
  
      maior	
  precisão.	
                                                                               40	
  

Weitere ähnliche Inhalte

Ähnlich wie Feedback de relevância e expansão de consulta

WTA2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recome...
WTA2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recome...WTA2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recome...
WTA2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recome...Celso Crivelaro
 
WTA 2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recom...
WTA 2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recom...WTA 2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recom...
WTA 2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recom...Celso Crivelaro
 
Um sistema para bibliotecas digitais de teses baseado em software aberto e me...
Um sistema para bibliotecas digitais de teses baseado em software aberto e me...Um sistema para bibliotecas digitais de teses baseado em software aberto e me...
Um sistema para bibliotecas digitais de teses baseado em software aberto e me...Flávio Araújo
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Avelino Ferreira Gomes Filho
 
Cap7 conh.central maio 2013
Cap7   conh.central maio 2013Cap7   conh.central maio 2013
Cap7 conh.central maio 2013Anabela Mesquita
 
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?Paulo Correia
 
[Jose Ahirton Lopes] Transfer Learning e GANS 101
[Jose Ahirton Lopes] Transfer Learning e GANS 101[Jose Ahirton Lopes] Transfer Learning e GANS 101
[Jose Ahirton Lopes] Transfer Learning e GANS 101Ahirton Lopes
 

Ähnlich wie Feedback de relevância e expansão de consulta (13)

WTA2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recome...
WTA2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recome...WTA2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recome...
WTA2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recome...
 
WTA 2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recom...
WTA 2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recom...WTA 2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recom...
WTA 2012 - Proposta de Modelo Adaptativo para Geração de Contextos na Recom...
 
Um sistema para bibliotecas digitais de teses baseado em software aberto e me...
Um sistema para bibliotecas digitais de teses baseado em software aberto e me...Um sistema para bibliotecas digitais de teses baseado em software aberto e me...
Um sistema para bibliotecas digitais de teses baseado em software aberto e me...
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...
 
O que é webquest
O que é webquestO que é webquest
O que é webquest
 
Cap7 conh.central maio 2013
Cap7   conh.central maio 2013Cap7   conh.central maio 2013
Cap7 conh.central maio 2013
 
Revisão Sistemática
Revisão SistemáticaRevisão Sistemática
Revisão Sistemática
 
Clustering (Agrupamento)
Clustering (Agrupamento)Clustering (Agrupamento)
Clustering (Agrupamento)
 
Modelo plus
Modelo plusModelo plus
Modelo plus
 
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
 
[Jose Ahirton Lopes] Transfer Learning e GANS 101
[Jose Ahirton Lopes] Transfer Learning e GANS 101[Jose Ahirton Lopes] Transfer Learning e GANS 101
[Jose Ahirton Lopes] Transfer Learning e GANS 101
 
Gic1
Gic1Gic1
Gic1
 
Web Quest aulaCC
Web Quest aulaCCWeb Quest aulaCC
Web Quest aulaCC
 

Mehr von Alexandre Duarte

Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosAlexandre Duarte
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Alexandre Duarte
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaAlexandre Duarte
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como CiênciaAlexandre Duarte
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: IntroduçãoAlexandre Duarte
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerAlexandre Duarte
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBAlexandre Duarte
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisAlexandre Duarte
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e ClassificaçãoAlexandre Duarte
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2DAlexandre Duarte
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1DAlexandre Duarte
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosAlexandre Duarte
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de SurveysAlexandre Duarte
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosAlexandre Duarte
 

Mehr von Alexandre Duarte (20)

Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de Dados
 

Feedback de relevância e expansão de consulta

  • 1. Introduc)on  to  Informa)on  Retrieval           Ordenação  e  Recuperação  de  Dados   Aula  10:     Feedback  de  Relevância  e  Expansão  de   Consulta   Alexandre  Duarte   alexandre@di.ufpb.br     1  
  • 2.         Resumo  da  aula  de  hoje   §  Feedback  de  relevância  interaGvo:  melhorar  a  qualidade   dos  resultados  iniciais  informando  o  sistema  sobre  a   relevância  dos  resultados  retornados   §  Expansão  de  consulta:  melhorar  os  resultados  das   consultas  adicionando  sinônimos  e  termos  relacionados  à   consulta   2  
  • 3.         Agenda   ❶  MoGvação   ❷  Feedback  de  relevância:  Básico   ❸  Feedback  de  relevância:  Detalhes   ❹  Expansão  de  consultas   3  
  • 4.         Agenda   ❶  MoGvação   ❷  Feedback  de  relevância:  Básico   ❸  Feedback  de  relevância:  Detalhes   ❹  Expansão  de  consultas   4  
  • 5.         Como  podemos  melhorar  o  recall  em  uma   busca?   §  Principal  assunto  de  hoje:  duas  formas  de  aumentar  o   recall:  feedback  de  relevância  e  expansão  de  consulta   §  Como  exemplo  cosidere  a  consulta  q:  [aeronave]  .  .  .   §  .  .  .  e  o  documento  d  contendo  avião,  mas  não  contendo   “aeronave”   §  Um  sistema  simples  não  retornará  d  para  a  consulta  q.   §  Mesmo  que  d  seja  o  documento  mais  relevante  para  q!   §  Queremos  mudar  isso:   §  Retornar  documentos  relevantes  mesmo  que  não  haja   nenhum  termo  em  comum  com  a  consulta  original   5  
  • 6.         Opção  para  melhorar  o  recall   §  Local:  Fazer  uma  análise  “local”,  sob  demanda  da  consulta   do  usuário   §  Principal  método:  feedback  de  relevância   §  Parte  1   §  Global:  Fazer  uma  análise  global  para  produzir  um   thesaurus   §  Usar  thesaurus  para  expansão  de  consultas   §  Parte  2   6  
  • 7.         Agenda   ❶  MoGvação   ❷  Feedback  de  relevância:  Básico   ❸  Feedback  de  relevância:  Detalhes   ❹  Expansão  de  consultas   7  
  • 8.         Feedback  de  relevância:  Ideia  básica   §  O  usuário  realiza  uma  consulta  simples.   §  O  mecanismo  de  busca  retorna  um  conjunto  de   documentos.   §  O  usuário  marca  alguns  documentos  como  relevantes  e   outros  como  não  relevantes.   §  O  mecanismo  de  busca  calcula  uma  nova  representação   para  a  necessidade  de  informação.  Espera-­‐se  que  seja   melhor  do  que  a  inicial.   §  O  mecanismo  realiza  a  mesma  busca  novamente  e  retorna   novos  resultados.   §  Novos  resultados  têm  melhor  recall   8  
  • 9.         Feedback  de  relevância   §  Isso  pode  ser  feito  de  forma  iteraGva:  várias  rodadas  de   feedback.   §  Usaremos  o  termo  recuperação  ad  hoc  para  nos  referir  a   recuperação  sem  feedback  de  relevância   9  
  • 10.         Agenda   ❶  MoGvação   ❷  Feedback  de  relevância:  Básico   ❸  Feedback  de  relevância:  Detalhes   ❹  Expansão  de  consultas   10  
  • 11.            Conceito  chave  para  feedback  de  relevância:   Centroíde   §  O  centroíde  é  o  centro  de  massa  de  um  conjunto  de   pontos.   §  Lembre-­‐se  que  representamos  documentos  como  em  um   espaço.   §  Portanto:  podemos  calcular  o  centroide  de  um  conjunto  de   documentos.   §  Definição:       onde  D  é  um  conjunto  de  documentos  e                                          é  o  vetor  que   uGlizamos  para  representar  um  documento  d.   11  
  • 12.            Centroíde:  Exemplo   12  
  • 13.         Algoritmo  de  Rocchio’   §  O  algoritmo  de  Rocchio’  implementa  o  feedback  de   relevância  em  um  modelo  de  espaço  vetorial.   §  Ele  escolhe  a  consulta                    que  maximiza  a  seguinte   equação        Dr  :  conjunto  de  documentos  relevantes;  Dnr  :  conjunto  de   documentos  não  relevantes   §  ObjeGvo:  qopt    é  o  vetor  que  separa  documentos  relevantes   de  documentos  não  relevantes  de  forma  máxima   13  
  • 14.         Algoritmo  de  Rocchio’   §  O  vetor  de  consulta  óGmo  é:     §  Movemos  o  centroíde  dos  documentos  relevantes  pela   diferença  dos  dois  centroídes.   14  
  • 15.         Calcular  o  vetor  de  Rocchio’                                                                                                     círculos:  documentos  relevantes,  Xs:  documentos  não  relevantes     15  
  • 16.         Algoritmo  de  Rocchio’  ilustrado                                :  centroíde  dos  documentos  relevantes   16  
  • 17.         Algoritmo de Rocchio’ ilustrado                                não  separa  os  documentos  relevantes  dos  não   relevantes.   17  
  • 18.         Algoritmo de Rocchio’ ilustrado                                centroíde  dos  documentos  não  relevantes.   18  
  • 19.         Algoritmo de Rocchio’ ilustrado 19  
  • 20.         Algoritmo de Rocchio’ ilustrado                                  -­‐                            Diferença  entre  os  dois  vetores   20  
  • 21.         Algoritmo de Rocchio’ ilustrado   Adicionar  a  diferença  ao  vetor                      …   21  
  • 22.         Algoritmo de Rocchio’ ilustrado                      …  para  obter     22  
  • 23.         Algoritmo de Rocchio’ ilustrado                                    separa  os  documentos  relevantes  dos  não  relevantes   perfeitamente.   23  
  • 24.         Algoritmo de Rocchio’ ilustrado                                    separa  os  documentos  relevantes  dos  não  relevantes   perfeitamente.   24  
  • 25.         Terminologia   §  Usamos  o  nome  Rocchio’  para  a  versão  teórica  e  mais  bem   ilustrada  do  algoritmo.   §  A  implementação  que  é  atualmente  uGlizada  na  maioria   dos  casos  é  denominada  SMART  –  usaremos  o  nome   Rocchio,  sem  o  ‘  ,  para  esta  versão.   25  
  • 26.         Algoritmo  de  Rocchio  1971  (SMART)   Usado  na  práGca:    qm:  vetor  de  consulta  modificado;  q0:  vetor  de  consulta   original;  Dr  e  Dnr  :  conjuntos  de  documentos  sabidamente   relevantes  e  não  relevantes;  α,  β,  e  γ:  pesos   §  A  nova  consulta  se  move  em  direção  aos  documentos   relevantes  e  para  longe  dos  documentos  não  relevantes.   §  Tradeoff  entre  α  e  β/γ:  se  temos  muitos  documentos   julgados  queremos  uma  relação  β/γ  maior.   26  
  • 27.         Feedback  de  relevância  PosiGvo  vs.  negaGvo   §  Feedback  posiGvo  é  mais  valioso  que  feedback  negaGvo   §  Por  exemplo,  setar  β  =  0.75  e  γ  =  0.25  para  dar  maior  peso   ao  feedback  posiGvo.   §  Vários  sistemas  só  permitem  feedback  posiGvo.   27  
  • 28.         Suposição  sobre  o  feedback  de  relevância   §  Quando  o  feedback  de  relevância  consegue  melhorar  o   recall?   §  Suposição  S1:  O  usuário  conhece  os  termos  na  coleção  o   suficiente  para  realizar  uma  consulta  inicial.   §  Suposição  S2:  Documentos  documentos  contém  termos   similares  (permiGndo  que  o  usuário  possa  “pular”  de  um   documento  relevante  para  outro  dando  o  feedback  sobre   sua  relevância).   28  
  • 29.         Violação  de  S1   §  Suposição  S1:  O  usuário  conhece  os  termos  na  coleção  o   suficiente  para  realizar  uma  consulta  inicial.   §  Violação:  Desvio  entre  o  vocabulário  do  usuário  e  o   vocabulário  da  coleção   §  Exemplo:  cosmonauta  /  astronauta   29  
  • 30.         Violação  de  S2   §  Suposição  S2:  Documentos  relevantes  são  similares.   §  Exemplo  de  violação:  [contradições  políGcas   governamentais]   §  Vários  “protóGpos“  não  relacionados   §  Subsídios  para  plantadores  de  tabaco  vs.  campanhas  anG-­‐ fumo   §  Ajuda  a  países  em  desenvolvimento  vs.  altos  impostos  de   importação  para  países  em  desenvolvimento   §  Feedback  de  relevância  para  documentos  sobre  tabaco  não   vai  ajudar  na  localização  de  documentos  relevantes  sobre   países  em  desenvolvimento.   30  
  • 31.         Avaliação  do  feedback  de  relevância   §  UGlizar  uma  das  métricas  de  avaliação  que  vimos  na  úlGma   aula,  ex.,  precisão  nos  top  10:  P@10   §  Calcular  P@10  para  a  consulta  original  q0   §  Calcular  P@10  para  uma  consulta  q1  modificada  pelo   feedback  de  relevância   §  Na  maioria  dos  casos:  q1  é  espetacularmente  melhor  que   q0!   §  Esta  avaliação  seria  justa?   31  
  • 32.         Avaliação  do  feedback  de  relevância   §  Uma  avaliação  justa  deve  considerar  a  coleção  residual:  os   documentos  ainda  não  julgados  pelo  usuário.   §  Estudos  mostraram  que  o  feedback  de  relevância  pode  ser   avaliado  dessa  maneira  com  sucesso.   §  Conclusão  empírica,  uma  rodada  de  feedback  de  relevância   é  geralmente  muito  úGl.  Uma  segunda  rodada  tem  efeito   marginal  nos  resultados.   32  
  • 33.         Agenda   ❶  MoGvação   ❷  Feedback  de  relevância:  Básico   ❸  Feedback  de  relevância:  Detalhes   ❹  Expansão  de  consultas   33  
  • 34.         Expansão  de  consulta   §  Expansão  de  consulta  é  uma  outra  forma  de    aumentar  o   recall.   §  Usamos  a  expressão  “expansão  de  consulta  global”  para   nos  referir  a  “métodos  globais  para  expansão  de   consultas”.   §  Na  expansão  de  consulta  global,  as  consultas  são   modificadas  com  base  em  algum  recurso  global,  de  forma   independente  da  consulta.   §  Principal  informação  uGlizada:  (quasi-­‐)sinônimos   §  Uma  base  da  de  dados  que  armazena  (quasi-­‐)sinônimos  é   chamado  thesaurus.   §  Veremos  dois  Gpos  de  thesauri:  criados  manualmente  e   criados  automaGcamente.   34  
  • 35.         Exemplo  de  Expansão  de  Consulta   35  
  • 36.         Tipos  de  feedback  do  usuário   §  O  usuário  dá  feedback  sobre  os  documentos.   §  Mais  comum  em  feedback  de  relevância   §  O  usuário  dá  feedback  em  palavras  ou  frases.   §  Mais  comum  em  expansão  de  consultas   36  
  • 37.         Tipos  de  expansão  de  consulta   §  Thesaurus  manual  (manGdo  pelos  editores,  ex.,  PubMed)   §  Thesaurus  derivado  automaGcamente  (ex.,  baseado  em   esta•sGcas  de  co-­‐ocorrência)   §  Baseado  em  mineração  de  logs  de  equivalência  de   consultas  (comum  na  web,  como  no  exemplo  do  carro)   37  
  • 38.         Expansão  de  consultas  baseada  em   thesaurus   §  Para  cada  termo  t  da  consulta,  expandir  a  consulta   com  palavras  listadas  no  thesaurus  como   semanGcamente  relacionadas  a  t.   §  Geralmente  aumenta  o  recall   §  Pode  diminuir  significaGvamente  a  precisão   §  Usado  largamente  em  ferramentas  de  busca   especializadas  para  ciências  e  engenharia   §  É  muito  caro  criar  e  manter  um  thesaurus   manualmente.   38  
  • 39.         Exemplo  de  thesaurus  manual:  PubMed   39  
  • 40.         Thesaurus  gerado  automaGcamente   §  TentaGva  de  gerar  um  thesaurus  automaGcamente   analisando  a  distribuição  das  palavras  nos  documentos   §  Noção  fundamental:  similaridade  entre  duas  palavras   §  Definição  1:  Duas  palavras  são  similares  se  co-­‐ocorrem  com   palavras  similares.   §  “carro”  ≈  “motocicleta”  porque  ambas  ocorrem  com   “estrada”,  “gasolina”  e  “placa”,  então  devem  ser  similares.   §  Definição  2:  Duas  palavras  são  similares  se  ocorrem  em   uma  dada  relação  gramaGcal  com  as  mesmas  palavras.   §  Você  pode  plantar,  descascar,  comer,    etc,  maçãs  e  peras,   portanto  maçãs  e  peras  devem  ser  similares.   §  Co-­‐ocorrência  é  mais  robusta,  relação  gramaGcal  tem   maior  precisão.   40