SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
Análise dos Modelos de
                  Recuperação de Informação
                                               Diogo	
  Benicá	
  Pereira




                   Trabalho	
  para	
  Conclusão	
  de	
  Curso	
  |	
  Orientador:	
  André	
  Marcos	
  da	
  Silva
                                                 Faculdade	
  Campo	
  Limpo	
  Paulista


Faculdade	
  Campo	
  Limpo	
  Paulista                   Dez/2012                                                      01
qual o problema?
   Muita	
  informação!
   Não	
  é	
  fácil	
  encontrar	
  um	
  dado	
  relevante	
  no	
  
   meio	
  de	
  tanta	
  informação.




Faculdade	
  Campo	
  Limpo	
  Paulista       Dez/2012                   02
qual a solução?
                                                     Documentos                         Necessidade

   Sistemas	
  de	
  Recuperação
   de	
  Informação                                                     Perda de
                                                                      Informação
                                                                                        Especificação
                                                     Indexação
                                                                                         da Consulta
   Para	
  a	
  tarefa	
  de	
  buscar	
  
   informação	
  relevante	
  dentro	
  de	
                        Representação
                                                       Índices     dos Documentos        Consultas
   um	
  conjunto	
  de	
  documentos
                                documentos.

                                                                     Recuperação




                                                                  Lista de Documentos


Faculdade	
  Campo	
  Limpo	
  Paulista   Dez/2012                                                   03
o que é IR?


“
                                          Informa;on	
  Retrieval
                                                                               “
             Encontrar	
  material	
  de	
  natureza	
  não-­‐estruturada	
  que	
  
                saQsfaz	
  uma	
  informação	
  requerida	
  a	
  parQr	
  de	
  
                                   grandes	
  coleções.
                                                              - Mainning



Faculdade	
  Campo	
  Limpo	
  Paulista         Dez/2012                               04
o que é um documento?
   Um	
  documento	
  pode	
  ser	
  qualquer	
  unidade
   Um	
  texto	
  inteiro,	
  um	
  capítulo,	
  um	
  parágrago,	
  etc.
             Lorem
 ipsum
 dolor
 sit
 amet,
                                            Lorem
 ipsum
 dolor
 sit
 amet,
                                            Lorem
 ipsum
 dolor
 sit
 amet,
 
             consectetur
 adipisicing
 elit,
 sed
 do
                                   consectetur
 adipisicing
 elit,
 sed
 do
                                   consectetur

Weitere ähnliche Inhalte

Andere mochten auch

jQuery - A biblioteca javascript
jQuery - A biblioteca javascriptjQuery - A biblioteca javascript
jQuery - A biblioteca javascriptDiogo Benicá
 
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...Célia Dias
 
Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011Patricia Neubert
 
A coordenação de eventos como aspecto complementar à formação do profissional...
A coordenação de eventos como aspecto complementar à formação do profissional...A coordenação de eventos como aspecto complementar à formação do profissional...
A coordenação de eventos como aspecto complementar à formação do profissional...Semana Biblioteconomia
 
O processo de análise de assunto
O processo de análise de assuntoO processo de análise de assunto
O processo de análise de assuntojani_jpa2012
 
A documentação Jurídica no contexto do Centro de Documentação - Roseli Miranda
A documentação Jurídica no contexto do Centro de Documentação - Roseli MirandaA documentação Jurídica no contexto do Centro de Documentação - Roseli Miranda
A documentação Jurídica no contexto do Centro de Documentação - Roseli MirandaSemana Biblioteconomia
 
Ciência da Informação: histórico e delimitação do campo
Ciência da Informação: histórico e delimitação do campoCiência da Informação: histórico e delimitação do campo
Ciência da Informação: histórico e delimitação do campoGiseli Adornato de Aguiar
 
Filtragem e recuperação da informação
Filtragem e recuperação da informaçãoFiltragem e recuperação da informação
Filtragem e recuperação da informaçãoVanessa Biff
 
Raid1 en Windows Server 2003 R2
Raid1 en Windows Server 2003 R2Raid1 en Windows Server 2003 R2
Raid1 en Windows Server 2003 R2Andres Alvarez
 
Aula 2 Recuperação de Informação: operadores booleanos e aspectos linguísticos
Aula 2   Recuperação de Informação: operadores booleanos e aspectos linguísticosAula 2   Recuperação de Informação: operadores booleanos e aspectos linguísticos
Aula 2 Recuperação de Informação: operadores booleanos e aspectos linguísticosFilipe Reis
 
Divulgação Científica - Fábio F. de Albuquerque
Divulgação Científica - Fábio F. de AlbuquerqueDivulgação Científica - Fábio F. de Albuquerque
Divulgação Científica - Fábio F. de AlbuquerqueSemana Biblioteconomia
 
Backups e restauração de dados
Backups e restauração de dadosBackups e restauração de dados
Backups e restauração de dadoselliando dias
 
A questão de Referência - Denis Grogan
A questão de Referência - Denis GroganA questão de Referência - Denis Grogan
A questão de Referência - Denis GroganPatricia Neubert
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendaçãosaspi2
 
Aula Resumo - Sistema de Infornacao SUS
Aula Resumo - Sistema de Infornacao SUSAula Resumo - Sistema de Infornacao SUS
Aula Resumo - Sistema de Infornacao SUSIgor Alves
 

Andere mochten auch (20)

jQuery - A biblioteca javascript
jQuery - A biblioteca javascriptjQuery - A biblioteca javascript
jQuery - A biblioteca javascript
 
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...
 
Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011
 
Apresentação angel
Apresentação angelApresentação angel
Apresentação angel
 
A coordenação de eventos como aspecto complementar à formação do profissional...
A coordenação de eventos como aspecto complementar à formação do profissional...A coordenação de eventos como aspecto complementar à formação do profissional...
A coordenação de eventos como aspecto complementar à formação do profissional...
 
O processo de análise de assunto
O processo de análise de assuntoO processo de análise de assunto
O processo de análise de assunto
 
A documentação Jurídica no contexto do Centro de Documentação - Roseli Miranda
A documentação Jurídica no contexto do Centro de Documentação - Roseli MirandaA documentação Jurídica no contexto do Centro de Documentação - Roseli Miranda
A documentação Jurídica no contexto do Centro de Documentação - Roseli Miranda
 
Analise de Assunto
Analise de AssuntoAnalise de Assunto
Analise de Assunto
 
Ciência da Informação: histórico e delimitação do campo
Ciência da Informação: histórico e delimitação do campoCiência da Informação: histórico e delimitação do campo
Ciência da Informação: histórico e delimitação do campo
 
Filtragem e recuperação da informação
Filtragem e recuperação da informaçãoFiltragem e recuperação da informação
Filtragem e recuperação da informação
 
Arquivo invertido
Arquivo invertidoArquivo invertido
Arquivo invertido
 
Raid1 en Windows Server 2003 R2
Raid1 en Windows Server 2003 R2Raid1 en Windows Server 2003 R2
Raid1 en Windows Server 2003 R2
 
Aula 2 Recuperação de Informação: operadores booleanos e aspectos linguísticos
Aula 2   Recuperação de Informação: operadores booleanos e aspectos linguísticosAula 2   Recuperação de Informação: operadores booleanos e aspectos linguísticos
Aula 2 Recuperação de Informação: operadores booleanos e aspectos linguísticos
 
Divulgação Científica - Fábio F. de Albuquerque
Divulgação Científica - Fábio F. de AlbuquerqueDivulgação Científica - Fábio F. de Albuquerque
Divulgação Científica - Fábio F. de Albuquerque
 
Origens e evolução da Ciência da Informação
Origens e evolução da Ciência da InformaçãoOrigens e evolução da Ciência da Informação
Origens e evolução da Ciência da Informação
 
Apresentação da tese defesa oral
Apresentação da tese defesa oralApresentação da tese defesa oral
Apresentação da tese defesa oral
 
Backups e restauração de dados
Backups e restauração de dadosBackups e restauração de dados
Backups e restauração de dados
 
A questão de Referência - Denis Grogan
A questão de Referência - Denis GroganA questão de Referência - Denis Grogan
A questão de Referência - Denis Grogan
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
 
Aula Resumo - Sistema de Infornacao SUS
Aula Resumo - Sistema de Infornacao SUSAula Resumo - Sistema de Infornacao SUS
Aula Resumo - Sistema de Infornacao SUS
 

Análise dos Modelos de Recuperação de Informação

  • 1. Análise dos Modelos de Recuperação de Informação Diogo  Benicá  Pereira Trabalho  para  Conclusão  de  Curso  |  Orientador:  André  Marcos  da  Silva Faculdade  Campo  Limpo  Paulista Faculdade  Campo  Limpo  Paulista Dez/2012 01
  • 2. qual o problema? Muita  informação! Não  é  fácil  encontrar  um  dado  relevante  no   meio  de  tanta  informação. Faculdade  Campo  Limpo  Paulista Dez/2012 02
  • 3. qual a solução? Documentos Necessidade Sistemas  de  Recuperação de  Informação Perda de Informação Especificação Indexação da Consulta Para  a  tarefa  de  buscar   informação  relevante  dentro  de   Representação Índices dos Documentos Consultas um  conjunto  de  documentos documentos. Recuperação Lista de Documentos Faculdade  Campo  Limpo  Paulista Dez/2012 03
  • 4. o que é IR? “ Informa;on  Retrieval “ Encontrar  material  de  natureza  não-­‐estruturada  que   saQsfaz  uma  informação  requerida  a  parQr  de   grandes  coleções. - Mainning Faculdade  Campo  Limpo  Paulista Dez/2012 04
  • 5. o que é um documento? Um  documento  pode  ser  qualquer  unidade Um  texto  inteiro,  um  capítulo,  um  parágrago,  etc. Lorem
  • 10.   Lorem
  • 13.  sit
  • 15.   Lorem
  • 18.  sit
  • 20.   consectetur
  • 23.  sed
  • 24.  do
  • 25.   consectetur
  • 28.  sed
  • 29.  do
  • 30.   consectetur
  • 33.  sed
  • 34.  do
  • 35.   eiusmod
  • 36.  tempor. eiusmod
  • 37.  tempor. eiusmod
  • 38.  tempor. incididunt
  • 39.  ut
  • 41.  et
  • 43.   incididunt
  • 44.  ut
  • 46.  et
  • 48.   incididunt
  • 49.  ut
  • 51.  et
  • 53.   magna
  • 55.  Ut
  • 57.  ad
  • 59.   magna
  • 61.  Ut
  • 63.  ad
  • 65.   magna
  • 67.  Ut
  • 69.  ad
  • 71.   veniam,
  • 75.   veniam,
  • 79.   veniam,
  • 83.   ullamco.
  • 84.   ullamco.
  • 85.   ullamco.
  • 86.   Laboris
  • 88.  ut
  • 90.  ex
  • 91.  ea
  • 92.   Laboris
  • 94.  ut
  • 96.  ex
  • 97.  ea
  • 98.   Laboris
  • 100.  ut
  • 102.  ex
  • 103.  ea
  • 104.   commodo
  • 106.  Duis
  • 107.  aute
  • 109.   commodo
  • 111.  Duis
  • 112.  aute
  • 114.   commodo
  • 116.  Duis
  • 117.  aute
  • 119.   dolor
  • 120.  in
  • 122.  in
  • 124.   dolor
  • 125.  in
  • 127.  in
  • 129.   dolor
  • 130.  in
  • 132.  in
  • 134.   velit
  • 135.  esse
  • 138.  eu
  • 140.   velit
  • 141.  esse
  • 144.  eu
  • 146.   velit
  • 147.  esse
  • 150.  eu
  • 152.   nulla
  • 153.  pariatur. nulla
  • 154.  pariatur. nulla
  • 155.  pariatur. Excepteur
  • 156.  sint
  • 158.  cupidatat Excepteur
  • 159.  sint
  • 161.  cupidatat Excepteur
  • 162.  sint
  • 164.  cupidatat A  escolha  depende  do  resultado  desejado Faculdade  Campo  Limpo  Paulista Dez/2012 05
  • 165. como funciona? Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido Fuzzy Faculdade  Campo  Limpo  Paulista Dez/2012 06
  • 166. modelo booleano Álgebra  booleana Sistema  para  manipular  regras  e  símbolos. Lógica  aristotélica AQngir  conhecimento  sem  contradição. Verdadeiro  ou  Falso Faculdade  Campo  Limpo  Paulista Dez/2012 07
  • 167. modelo booleano Expressões  booleanas termo1    AND    (termo2    OR    termo3) ex.    “Recuperação”    AND  (“Informação”    OR    “Texto”) termo1    n  unidades    termo2 ex.    “Recuperação”    5  unidades    “Informação” Faculdade  Campo  Limpo  Paulista Dez/2012 08
  • 168. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido Fuzzy Faculdade  Campo  Limpo  Paulista Dez/2012 09
  • 169. modelo vetorial Resultados  parciais Uso  de  pesos  nos  termos  para  determinar  quanto  cada   documento  é  semelhante  à  expressão  de  busca. Tudo  são  vetores Documentos  e  expressões  de  busca  são  representados  como  vetores. Documento Peso  termo1 Peso  termo2 Peso  termo3 Peso  termo4 Faculdade  Campo  Limpo  Paulista Dez/2012 10
  • 170. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido Fuzzy Faculdade  Campo  Limpo  Paulista Dez/2012 11
  • 171. modelo probabilistíco Teoria  da  probabilidade Experimentos  aleatórios  em  condições  iguais  com  resultados   diferentes. Probabilidade  de  um  evento Evento 1 Resultados  possíveis 6 Faculdade  Campo  Limpo  Paulista Dez/2012 12
  • 172. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido Fuzzy Faculdade  Campo  Limpo  Paulista Dez/2012 13
  • 173. modelo booleano estendido União  do  modelo  booleano  e  do  vetorial Junta  a  potencialidade  do  booleano  com  a  precisão  do  vetorial. Operadores  com  pesos Os  operadores  (AND  e  OR)  também  possuem  pesos. Faculdade  Campo  Limpo  Paulista Dez/2012 14
  • 174. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido Fuzzy Faculdade  Campo  Limpo  Paulista Dez/2012 15
  • 175. modelo fuzzy Baseado  na  lógica  fuzzy Opera  com  incerteza  e  verdade  parcial Um  elemento  tem  um  grau  de  perQnência  em  um  conjunto. cidade  1 75% 25% cidade  2 Cidade  1 Cidade  2 Elemento Faculdade  Campo  Limpo  Paulista Dev/2012 16
  • 176. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido Fuzzy Faculdade  Campo  Limpo  Paulista Dez/2012 17
  • 177. sistemas especialistas Emula  a  especialização  humana  em  um  domínio Entrada  de  conhecimento  a  parQr  de  especialistas. Regras,  inferência  e  feedback Através  de  regras  SE  -­‐  ENTÃO  faz  inferência  e  adquire  mais   conhecimento  através  do  feedback  do  usuário. Faculdade  Campo  Limpo  Paulista Dez/2012 18
  • 178. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido Fuzzy Faculdade  Campo  Limpo  Paulista Dez/2012 19
  • 179. redes neurais Sistema  modelando  os  circuitos  cerebrais Procura  obter  um  comportamento  inteligente. Vários  neurônios  formam  uma  rede  neural Cada  neurônio  tem  várias  entradas  e  uma  função  que  transforma   em  uma  saída. Capacidade  de  aprender  com  exemplos Melhora  gradual  de  desempenho  através  de  inferências. Faculdade  Campo  Limpo  Paulista Dez/2012 20
  • 180. algoritmos genéticos Baseado  na  teoria  evolucionista  de  Darwin Seleção  natural Os  algoritmos  se  “reproduzem”  e  se  adaptam  para  que  cada   geração  seja  melhor  em  resolver  o  problema. Faculdade  Campo  Limpo  Paulista Dez/2012 21
  • 181. na prática Análise  dos  modelos Criação  de  protóQpos  dos  modelos  booleano,  vetorial  e  booleano   estendido. Comparação Análise  do  tempo  de  execução,  uso  de  memória  e  qualidade  de   resultado. Ambiente PHP  5.3  (executado  no  terminal). Faculdade  Campo  Limpo  Paulista Dez/2012 22
  • 182. na prática (documento) Documentos Cada  modelo  será  testado  com  9  diferentes  documentos  de  texto. Os  documentos  têm  aproximadamente  150,  900  e  1800  palavras. Expressão  de  busca Para  cada  grupo  de  documentos  será  aplicada  uma  expressão  de   busca  com  3  e  depois  6  termos.   Ex:  termo1  AND  termo2  OR  termo3 termo1  AND  (termo2  OR  termo3)  AND  termo4  OR  (termo5  AND  termo6) Faculdade  Campo  Limpo  Paulista Dez/2012 23
  • 183. resultados (Modelo  booleano) Uso  de  Memória Tempo  de  Execução 150 palavras 900 palavras 1800 palavras 150 palavras 900 palavras 1800 palavras 0,00019 1000 kb 947  kb 947  kb 0,00019 s 0,00016 0,00015 0,00014 750 kb 681  kb 681  kb 0,00014 s 0,00012 500 kb 458  kb 458  kb 0,00010 s 0,00009 250 kb 0,00005 s 0 kb 0s 3 termos 6 termos 3 termos 6 termos Faculdade  Campo  Limpo  Paulista Dez/2012 24
  • 184. resultados (Modelo  vetorial) Uso  de  Memória Tempo  de  Execução 150 palavras 900 palavras 1800 palavras 150 palavras 900 palavras 1800 palavras 1000 kb 967  kb 967  kb 0,02000 s 0,01753 0,01775 750 kb 697  kb 697  kb 0,01500 s 500 kb 465  kb 465  kb 0,01000 s 0,00890 0,00903 250 kb 0,00500 s 0,00221 0,00222 0 kb 0s 3 termos 6 termos 3 termos 6 termos Faculdade  Campo  Limpo  Paulista Dez/2012 25
  • 185. resultados (Modelo  booleano  estendido) Uso  de  Memória Tempo  de  Execução 150 palavras 900 palavras 1800 palavras 150 palavras 900 palavras 1800 palavras 1000 kb 967  kb 967  kb 0,03000 s 0,02676 0,02681 750 kb 697  kb 697  kb 0,02250 s 0,01511 0,01513 500 kb 465  kb 465  kb 0,01500 s 250 kb 0,00750 s 0,00328 0,00332 0 kb 0s 3 termos 6 termos 3 termos 6 termos Faculdade  Campo  Limpo  Paulista Dez/2012 26
  • 186. conclusões (experimento) Modelo  booleano  é  muito  rápido! Seguido  do  modelo  vetorial  e  depois  o  modelo  booleano  estendido. Modelo  booleano  estendido  tem  melhores  resultados Crescimento  linear  de  memória  e  tempo Todos  os  modelos  apresentaram  um  crescimento  linear  em  relação  ao   tamanho  dos  documento. Faculdade  Campo  Limpo  Paulista Dez/2012 27
  • 187. conclusões (geral) Modelos  quan;ta;vos  estão  consolidados Presentes  na  web  e  na  maioria  dos  sistemas  de  recuperação. Modelos  dinâmicos  ainda  são  complexos Dircil  implementação  e  de  domínio  específico. Modelos  quan;ta;vos  não  são  tolerantes  à  falhas Erros  de  gramáQca,  semânQca  e  cultura  não  são  levados  em  conta. Faculdade  Campo  Limpo  Paulista Dez/2012 28
  • 188. fim Faculdade  Campo  Limpo  Paulista Dez/2012 29
  • 189. ? Faculdade  Campo  Limpo  Paulista Dez/2012 30