O documento apresenta uma aula sobre feedback de relevância e expansão de consulta para melhorar os resultados de busca. A aula discute como o feedback do usuário sobre a relevância dos resultados pode ser usado para melhorar a representação da consulta. Também aborda como a expansão de consulta com sinônimos e termos relacionados pode aumentar o recall sem reduzir a precisão.
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Feedback de relevância e expansão de consulta
1. Introduc)on
to
Informa)on
Retrieval
Ordenação
e
Recuperação
de
Dados
Aula
10:
Feedback
de
Relevância
e
Expansão
de
Consulta
Alexandre
Duarte
alexandre@di.ufpb.br
1
2.
Resumo
da
aula
de
hoje
§ Feedback
de
relevância
interaGvo:
melhorar
a
qualidade
dos
resultados
iniciais
informando
o
sistema
sobre
a
relevância
dos
resultados
retornados
§ Expansão
de
consulta:
melhorar
os
resultados
das
consultas
adicionando
sinônimos
e
termos
relacionados
à
consulta
2
3.
Agenda
❶ MoGvação
❷ Feedback
de
relevância:
Básico
❸ Feedback
de
relevância:
Detalhes
❹ Expansão
de
consultas
3
4.
Agenda
❶ MoGvação
❷ Feedback
de
relevância:
Básico
❸ Feedback
de
relevância:
Detalhes
❹ Expansão
de
consultas
4
5.
Como
podemos
melhorar
o
recall
em
uma
busca?
§ Principal
assunto
de
hoje:
duas
formas
de
aumentar
o
recall:
feedback
de
relevância
e
expansão
de
consulta
§ Como
exemplo
cosidere
a
consulta
q:
[aeronave]
.
.
.
§ .
.
.
e
o
documento
d
contendo
avião,
mas
não
contendo
“aeronave”
§ Um
sistema
simples
não
retornará
d
para
a
consulta
q.
§ Mesmo
que
d
seja
o
documento
mais
relevante
para
q!
§ Queremos
mudar
isso:
§ Retornar
documentos
relevantes
mesmo
que
não
haja
nenhum
termo
em
comum
com
a
consulta
original
5
6.
Opção
para
melhorar
o
recall
§ Local:
Fazer
uma
análise
“local”,
sob
demanda
da
consulta
do
usuário
§ Principal
método:
feedback
de
relevância
§ Parte
1
§ Global:
Fazer
uma
análise
global
para
produzir
um
thesaurus
§ Usar
thesaurus
para
expansão
de
consultas
§ Parte
2
6
7.
Agenda
❶ MoGvação
❷ Feedback
de
relevância:
Básico
❸ Feedback
de
relevância:
Detalhes
❹ Expansão
de
consultas
7
8.
Feedback
de
relevância:
Ideia
básica
§ O
usuário
realiza
uma
consulta
simples.
§ O
mecanismo
de
busca
retorna
um
conjunto
de
documentos.
§ O
usuário
marca
alguns
documentos
como
relevantes
e
outros
como
não
relevantes.
§ O
mecanismo
de
busca
calcula
uma
nova
representação
para
a
necessidade
de
informação.
Espera-‐se
que
seja
melhor
do
que
a
inicial.
§ O
mecanismo
realiza
a
mesma
busca
novamente
e
retorna
novos
resultados.
§ Novos
resultados
têm
melhor
recall
8
9.
Feedback
de
relevância
§ Isso
pode
ser
feito
de
forma
iteraGva:
várias
rodadas
de
feedback.
§ Usaremos
o
termo
recuperação
ad
hoc
para
nos
referir
a
recuperação
sem
feedback
de
relevância
9
10.
Agenda
❶ MoGvação
❷ Feedback
de
relevância:
Básico
❸ Feedback
de
relevância:
Detalhes
❹ Expansão
de
consultas
10
11.
Conceito
chave
para
feedback
de
relevância:
Centroíde
§ O
centroíde
é
o
centro
de
massa
de
um
conjunto
de
pontos.
§ Lembre-‐se
que
representamos
documentos
como
em
um
espaço.
§ Portanto:
podemos
calcular
o
centroide
de
um
conjunto
de
documentos.
§ Definição:
onde
D
é
um
conjunto
de
documentos
e
é
o
vetor
que
uGlizamos
para
representar
um
documento
d.
11
12.
Centroíde:
Exemplo
12
13.
Algoritmo
de
Rocchio’
§ O
algoritmo
de
Rocchio’
implementa
o
feedback
de
relevância
em
um
modelo
de
espaço
vetorial.
§ Ele
escolhe
a
consulta
que
maximiza
a
seguinte
equação
Dr
:
conjunto
de
documentos
relevantes;
Dnr
:
conjunto
de
documentos
não
relevantes
§ ObjeGvo:
qopt
é
o
vetor
que
separa
documentos
relevantes
de
documentos
não
relevantes
de
forma
máxima
13
14.
Algoritmo
de
Rocchio’
§ O
vetor
de
consulta
óGmo
é:
§ Movemos
o
centroíde
dos
documentos
relevantes
pela
diferença
dos
dois
centroídes.
14
15.
Calcular
o
vetor
de
Rocchio’
círculos:
documentos
relevantes,
Xs:
documentos
não
relevantes
15
16.
Algoritmo
de
Rocchio’
ilustrado
:
centroíde
dos
documentos
relevantes
16
17.
Algoritmo de Rocchio’ ilustrado
não
separa
os
documentos
relevantes
dos
não
relevantes.
17
18.
Algoritmo de Rocchio’ ilustrado
centroíde
dos
documentos
não
relevantes.
18
19.
Algoritmo de Rocchio’ ilustrado
19
20.
Algoritmo de Rocchio’ ilustrado
-‐
Diferença
entre
os
dois
vetores
20
21.
Algoritmo de Rocchio’ ilustrado
Adicionar
a
diferença
ao
vetor
…
21
22.
Algoritmo de Rocchio’ ilustrado
…
para
obter
22
23.
Algoritmo de Rocchio’ ilustrado
separa
os
documentos
relevantes
dos
não
relevantes
perfeitamente.
23
24.
Algoritmo de Rocchio’ ilustrado
separa
os
documentos
relevantes
dos
não
relevantes
perfeitamente.
24
25.
Terminologia
§ Usamos
o
nome
Rocchio’
para
a
versão
teórica
e
mais
bem
ilustrada
do
algoritmo.
§ A
implementação
que
é
atualmente
uGlizada
na
maioria
dos
casos
é
denominada
SMART
–
usaremos
o
nome
Rocchio,
sem
o
‘
,
para
esta
versão.
25
26.
Algoritmo
de
Rocchio
1971
(SMART)
Usado
na
práGca:
qm:
vetor
de
consulta
modificado;
q0:
vetor
de
consulta
original;
Dr
e
Dnr
:
conjuntos
de
documentos
sabidamente
relevantes
e
não
relevantes;
α,
β,
e
γ:
pesos
§ A
nova
consulta
se
move
em
direção
aos
documentos
relevantes
e
para
longe
dos
documentos
não
relevantes.
§ Tradeoff
entre
α
e
β/γ:
se
temos
muitos
documentos
julgados
queremos
uma
relação
β/γ
maior.
26
27.
Feedback
de
relevância
PosiGvo
vs.
negaGvo
§ Feedback
posiGvo
é
mais
valioso
que
feedback
negaGvo
§ Por
exemplo,
setar
β
=
0.75
e
γ
=
0.25
para
dar
maior
peso
ao
feedback
posiGvo.
§ Vários
sistemas
só
permitem
feedback
posiGvo.
27
28.
Suposição
sobre
o
feedback
de
relevância
§ Quando
o
feedback
de
relevância
consegue
melhorar
o
recall?
§ Suposição
S1:
O
usuário
conhece
os
termos
na
coleção
o
suficiente
para
realizar
uma
consulta
inicial.
§ Suposição
S2:
Documentos
documentos
contém
termos
similares
(permiGndo
que
o
usuário
possa
“pular”
de
um
documento
relevante
para
outro
dando
o
feedback
sobre
sua
relevância).
28
29.
Violação
de
S1
§ Suposição
S1:
O
usuário
conhece
os
termos
na
coleção
o
suficiente
para
realizar
uma
consulta
inicial.
§ Violação:
Desvio
entre
o
vocabulário
do
usuário
e
o
vocabulário
da
coleção
§ Exemplo:
cosmonauta
/
astronauta
29
30.
Violação
de
S2
§ Suposição
S2:
Documentos
relevantes
são
similares.
§ Exemplo
de
violação:
[contradições
políGcas
governamentais]
§ Vários
“protóGpos“
não
relacionados
§ Subsídios
para
plantadores
de
tabaco
vs.
campanhas
anG-‐
fumo
§ Ajuda
a
países
em
desenvolvimento
vs.
altos
impostos
de
importação
para
países
em
desenvolvimento
§ Feedback
de
relevância
para
documentos
sobre
tabaco
não
vai
ajudar
na
localização
de
documentos
relevantes
sobre
países
em
desenvolvimento.
30
31.
Avaliação
do
feedback
de
relevância
§ UGlizar
uma
das
métricas
de
avaliação
que
vimos
na
úlGma
aula,
ex.,
precisão
nos
top
10:
P@10
§ Calcular
P@10
para
a
consulta
original
q0
§ Calcular
P@10
para
uma
consulta
q1
modificada
pelo
feedback
de
relevância
§ Na
maioria
dos
casos:
q1
é
espetacularmente
melhor
que
q0!
§ Esta
avaliação
seria
justa?
31
32.
Avaliação
do
feedback
de
relevância
§ Uma
avaliação
justa
deve
considerar
a
coleção
residual:
os
documentos
ainda
não
julgados
pelo
usuário.
§ Estudos
mostraram
que
o
feedback
de
relevância
pode
ser
avaliado
dessa
maneira
com
sucesso.
§ Conclusão
empírica,
uma
rodada
de
feedback
de
relevância
é
geralmente
muito
úGl.
Uma
segunda
rodada
tem
efeito
marginal
nos
resultados.
32
33.
Agenda
❶ MoGvação
❷ Feedback
de
relevância:
Básico
❸ Feedback
de
relevância:
Detalhes
❹ Expansão
de
consultas
33
34.
Expansão
de
consulta
§ Expansão
de
consulta
é
uma
outra
forma
de
aumentar
o
recall.
§ Usamos
a
expressão
“expansão
de
consulta
global”
para
nos
referir
a
“métodos
globais
para
expansão
de
consultas”.
§ Na
expansão
de
consulta
global,
as
consultas
são
modificadas
com
base
em
algum
recurso
global,
de
forma
independente
da
consulta.
§ Principal
informação
uGlizada:
(quasi-‐)sinônimos
§ Uma
base
da
de
dados
que
armazena
(quasi-‐)sinônimos
é
chamado
thesaurus.
§ Veremos
dois
Gpos
de
thesauri:
criados
manualmente
e
criados
automaGcamente.
34
35.
Exemplo
de
Expansão
de
Consulta
35
36.
Tipos
de
feedback
do
usuário
§ O
usuário
dá
feedback
sobre
os
documentos.
§ Mais
comum
em
feedback
de
relevância
§ O
usuário
dá
feedback
em
palavras
ou
frases.
§ Mais
comum
em
expansão
de
consultas
36
37.
Tipos
de
expansão
de
consulta
§ Thesaurus
manual
(manGdo
pelos
editores,
ex.,
PubMed)
§ Thesaurus
derivado
automaGcamente
(ex.,
baseado
em
esta•sGcas
de
co-‐ocorrência)
§ Baseado
em
mineração
de
logs
de
equivalência
de
consultas
(comum
na
web,
como
no
exemplo
do
carro)
37
38.
Expansão
de
consultas
baseada
em
thesaurus
§ Para
cada
termo
t
da
consulta,
expandir
a
consulta
com
palavras
listadas
no
thesaurus
como
semanGcamente
relacionadas
a
t.
§ Geralmente
aumenta
o
recall
§ Pode
diminuir
significaGvamente
a
precisão
§ Usado
largamente
em
ferramentas
de
busca
especializadas
para
ciências
e
engenharia
§ É
muito
caro
criar
e
manter
um
thesaurus
manualmente.
38
39.
Exemplo
de
thesaurus
manual:
PubMed
39
40.
Thesaurus
gerado
automaGcamente
§ TentaGva
de
gerar
um
thesaurus
automaGcamente
analisando
a
distribuição
das
palavras
nos
documentos
§ Noção
fundamental:
similaridade
entre
duas
palavras
§ Definição
1:
Duas
palavras
são
similares
se
co-‐ocorrem
com
palavras
similares.
§ “carro”
≈
“motocicleta”
porque
ambas
ocorrem
com
“estrada”,
“gasolina”
e
“placa”,
então
devem
ser
similares.
§ Definição
2:
Duas
palavras
são
similares
se
ocorrem
em
uma
dada
relação
gramaGcal
com
as
mesmas
palavras.
§ Você
pode
plantar,
descascar,
comer,
etc,
maçãs
e
peras,
portanto
maçãs
e
peras
devem
ser
similares.
§ Co-‐ocorrência
é
mais
robusta,
relação
gramaGcal
tem
maior
precisão.
40