O documento analisa os modelos de recuperação de informação, discutindo o problema da grande quantidade de informação disponível, as soluções oferecidas por sistemas de recuperação de informação e definindo o que é recuperação de informação e o que constitui um documento neste contexto.
1. Análise dos Modelos de
Recuperação de Informação
Diogo
Benicá
Pereira
Trabalho
para
Conclusão
de
Curso
|
Orientador:
André
Marcos
da
Silva
Faculdade
Campo
Limpo
Paulista
Faculdade
Campo
Limpo
Paulista Dez/2012 01
2. qual o problema?
Muita
informação!
Não
é
fácil
encontrar
um
dado
relevante
no
meio
de
tanta
informação.
Faculdade
Campo
Limpo
Paulista Dez/2012 02
3. qual a solução?
Documentos Necessidade
Sistemas
de
Recuperação
de
Informação Perda de
Informação
Especificação
Indexação
da Consulta
Para
a
tarefa
de
buscar
informação
relevante
dentro
de
Representação
Índices dos Documentos Consultas
um
conjunto
de
documentos
documentos.
Recuperação
Lista de Documentos
Faculdade
Campo
Limpo
Paulista Dez/2012 03
4. o que é IR?
“
Informa;on
Retrieval
“
Encontrar
material
de
natureza
não-‐estruturada
que
saQsfaz
uma
informação
requerida
a
parQr
de
grandes
coleções.
- Mainning
Faculdade
Campo
Limpo
Paulista Dez/2012 04
5. o que é um documento?
Um
documento
pode
ser
qualquer
unidade
Um
texto
inteiro,
um
capítulo,
um
parágrago,
etc.
Lorem
164. cupidatat
A
escolha
depende
do
resultado
desejado
Faculdade
Campo
Limpo
Paulista Dez/2012 05
165. como funciona?
Modelos
de
Recuperação
Modelos
quan;ta;vos Modelos
dinâmicos
Booleano Sistemas
especialistas
Vetorial Redes
neurais
ProbabilísQco Algoritmos
genéQcos
Booleano
estendido
Fuzzy
Faculdade
Campo
Limpo
Paulista Dez/2012 06
166. modelo booleano
Álgebra
booleana
Sistema
para
manipular
regras
e
símbolos.
Lógica
aristotélica
AQngir
conhecimento
sem
contradição.
Verdadeiro
ou
Falso
Faculdade
Campo
Limpo
Paulista Dez/2012 07
167. modelo booleano
Expressões
booleanas
termo1
AND
(termo2
OR
termo3)
ex.
“Recuperação”
AND
(“Informação”
OR
“Texto”)
termo1
n
unidades
termo2
ex.
“Recuperação”
5
unidades
“Informação”
Faculdade
Campo
Limpo
Paulista Dez/2012 08
168. como funciona
Modelos
de
Recuperação
Modelos
quan;ta;vos Modelos
dinâmicos
Booleano Sistemas
especialistas
Vetorial Redes
neurais
ProbabilísQco Algoritmos
genéQcos
Booleano
estendido
Fuzzy
Faculdade
Campo
Limpo
Paulista Dez/2012 09
169. modelo vetorial
Resultados
parciais
Uso
de
pesos
nos
termos
para
determinar
quanto
cada
documento
é
semelhante
à
expressão
de
busca.
Tudo
são
vetores
Documentos
e
expressões
de
busca
são
representados
como
vetores.
Documento Peso
termo1 Peso
termo2 Peso
termo3 Peso
termo4
Faculdade
Campo
Limpo
Paulista Dez/2012 10
170. como funciona
Modelos
de
Recuperação
Modelos
quan;ta;vos Modelos
dinâmicos
Booleano Sistemas
especialistas
Vetorial Redes
neurais
ProbabilísQco Algoritmos
genéQcos
Booleano
estendido
Fuzzy
Faculdade
Campo
Limpo
Paulista Dez/2012 11
171. modelo probabilistíco
Teoria
da
probabilidade
Experimentos
aleatórios
em
condições
iguais
com
resultados
diferentes.
Probabilidade
de
um
evento
Evento 1
Resultados
possíveis 6
Faculdade
Campo
Limpo
Paulista Dez/2012 12
172. como funciona
Modelos
de
Recuperação
Modelos
quan;ta;vos Modelos
dinâmicos
Booleano Sistemas
especialistas
Vetorial Redes
neurais
ProbabilísQco Algoritmos
genéQcos
Booleano
estendido
Fuzzy
Faculdade
Campo
Limpo
Paulista Dez/2012 13
173. modelo booleano estendido
União
do
modelo
booleano
e
do
vetorial
Junta
a
potencialidade
do
booleano
com
a
precisão
do
vetorial.
Operadores
com
pesos
Os
operadores
(AND
e
OR)
também
possuem
pesos.
Faculdade
Campo
Limpo
Paulista Dez/2012 14
174. como funciona
Modelos
de
Recuperação
Modelos
quan;ta;vos Modelos
dinâmicos
Booleano Sistemas
especialistas
Vetorial Redes
neurais
ProbabilísQco Algoritmos
genéQcos
Booleano
estendido
Fuzzy
Faculdade
Campo
Limpo
Paulista Dez/2012 15
175. modelo fuzzy
Baseado
na
lógica
fuzzy
Opera
com
incerteza
e
verdade
parcial
Um
elemento
tem
um
grau
de
perQnência
em
um
conjunto.
cidade
1 75% 25% cidade
2
Cidade
1 Cidade
2
Elemento
Faculdade
Campo
Limpo
Paulista Dev/2012 16
176. como funciona
Modelos
de
Recuperação
Modelos
quan;ta;vos Modelos
dinâmicos
Booleano Sistemas
especialistas
Vetorial Redes
neurais
ProbabilísQco Algoritmos
genéQcos
Booleano
estendido
Fuzzy
Faculdade
Campo
Limpo
Paulista Dez/2012 17
177. sistemas especialistas
Emula
a
especialização
humana
em
um
domínio
Entrada
de
conhecimento
a
parQr
de
especialistas.
Regras,
inferência
e
feedback
Através
de
regras
SE
-‐
ENTÃO
faz
inferência
e
adquire
mais
conhecimento
através
do
feedback
do
usuário.
Faculdade
Campo
Limpo
Paulista Dez/2012 18
178. como funciona
Modelos
de
Recuperação
Modelos
quan;ta;vos Modelos
dinâmicos
Booleano Sistemas
especialistas
Vetorial Redes
neurais
ProbabilísQco Algoritmos
genéQcos
Booleano
estendido
Fuzzy
Faculdade
Campo
Limpo
Paulista Dez/2012 19
179. redes neurais
Sistema
modelando
os
circuitos
cerebrais
Procura
obter
um
comportamento
inteligente.
Vários
neurônios
formam
uma
rede
neural
Cada
neurônio
tem
várias
entradas
e
uma
função
que
transforma
em
uma
saída.
Capacidade
de
aprender
com
exemplos
Melhora
gradual
de
desempenho
através
de
inferências.
Faculdade
Campo
Limpo
Paulista Dez/2012 20
180. algoritmos genéticos
Baseado
na
teoria
evolucionista
de
Darwin
Seleção
natural
Os
algoritmos
se
“reproduzem”
e
se
adaptam
para
que
cada
geração
seja
melhor
em
resolver
o
problema.
Faculdade
Campo
Limpo
Paulista Dez/2012 21
181. na prática
Análise
dos
modelos
Criação
de
protóQpos
dos
modelos
booleano,
vetorial
e
booleano
estendido.
Comparação
Análise
do
tempo
de
execução,
uso
de
memória
e
qualidade
de
resultado.
Ambiente
PHP
5.3
(executado
no
terminal).
Faculdade
Campo
Limpo
Paulista Dez/2012 22
182. na prática (documento)
Documentos
Cada
modelo
será
testado
com
9
diferentes
documentos
de
texto.
Os
documentos
têm
aproximadamente
150,
900
e
1800
palavras.
Expressão
de
busca
Para
cada
grupo
de
documentos
será
aplicada
uma
expressão
de
busca
com
3
e
depois
6
termos.
Ex:
termo1
AND
termo2
OR
termo3
termo1
AND
(termo2
OR
termo3)
AND
termo4
OR
(termo5
AND
termo6)
Faculdade
Campo
Limpo
Paulista Dez/2012 23
183. resultados (Modelo
booleano)
Uso
de
Memória Tempo
de
Execução
150 palavras 900 palavras 1800 palavras 150 palavras 900 palavras 1800 palavras
0,00019
1000 kb 947
kb 947
kb 0,00019 s
0,00016
0,00015
0,00014
750 kb 681
kb 681
kb 0,00014 s
0,00012
500 kb 458
kb 458
kb 0,00010 s 0,00009
250 kb 0,00005 s
0 kb 0s
3 termos 6 termos 3 termos 6 termos
Faculdade
Campo
Limpo
Paulista Dez/2012 24
184. resultados (Modelo
vetorial)
Uso
de
Memória Tempo
de
Execução
150 palavras 900 palavras 1800 palavras 150 palavras 900 palavras 1800 palavras
1000 kb 967
kb 967
kb 0,02000 s
0,01753 0,01775
750 kb 697
kb 697
kb 0,01500 s
500 kb 465
kb 465
kb 0,01000 s 0,00890 0,00903
250 kb 0,00500 s
0,00221 0,00222
0 kb 0s
3 termos 6 termos 3 termos 6 termos
Faculdade
Campo
Limpo
Paulista Dez/2012 25
185. resultados (Modelo
booleano
estendido)
Uso
de
Memória Tempo
de
Execução
150 palavras 900 palavras 1800 palavras 150 palavras 900 palavras 1800 palavras
1000 kb 967
kb 967
kb 0,03000 s 0,02676 0,02681
750 kb 697
kb 697
kb 0,02250 s
0,01511 0,01513
500 kb 465
kb 465
kb 0,01500 s
250 kb 0,00750 s
0,00328 0,00332
0 kb 0s
3 termos 6 termos 3 termos 6 termos
Faculdade
Campo
Limpo
Paulista Dez/2012 26
186. conclusões (experimento)
Modelo
booleano
é
muito
rápido!
Seguido
do
modelo
vetorial
e
depois
o
modelo
booleano
estendido.
Modelo
booleano
estendido
tem
melhores
resultados
Crescimento
linear
de
memória
e
tempo
Todos
os
modelos
apresentaram
um
crescimento
linear
em
relação
ao
tamanho
dos
documento.
Faculdade
Campo
Limpo
Paulista Dez/2012 27
187. conclusões (geral)
Modelos
quan;ta;vos
estão
consolidados
Presentes
na
web
e
na
maioria
dos
sistemas
de
recuperação.
Modelos
dinâmicos
ainda
são
complexos
Dircil
implementação
e
de
domínio
específico.
Modelos
quan;ta;vos
não
são
tolerantes
à
falhas
Erros
de
gramáQca,
semânQca
e
cultura
não
são
levados
em
conta.
Faculdade
Campo
Limpo
Paulista Dez/2012 28