SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
Lais Oselame Nobrega
Vanessa Levati Biff
UNIVERSIDADE FEDERAL DE SANTA CATARINA
Departamento de Ciência da Informação
Programa de Pós-Graduação em Ciência da Informação
Disciplina: Recuperação Inteligente da Informação
Profº: Dr. Angel Godoy Vieira
Março, 2016
Processo de RI
Fonte: Adaptado de Baeza-Yates e Ribeiro-Neto, 1999.
Depende do modelo de
recuperação utilizado
Representação da linguagem
de consulta
Representação dos
Documentos
Termos da
consulta
Termos do
documento
Similaridade entre consulta e documento
Classificação
Fonte: Baeza-Yates e Ribeiro-Neto, 1999.
Foram desenvolvidos em
ambientes fechados, universo
documental é restrito.
Não são totalmente aptos a serem
úteis na web.
Fonte: Crestani e Pasi, 1999.
Quando...
- O usuário não tem ideia clara
da informação de precisa, ou
não sabe expressar sua
necessidade de informação.
Soft Information
Retrieval
Incorporam novas técnicas à
recuperação da informação.
São capazes de representar a
incerteza e imprecisão no
processo de recuperação da
informação.
Fonte: Crestani e Pasi, 1999.
Teoria dos conjuntos difusos (Fuzzy set theory)
Conjuntos Clássicos Conjuntos Difusos
1 0 [1,0]
Teoria dos conjuntos difusos (Fuzzy set theory)
Baixo
Alto
Alto
Baixo
Conjuntos Clássicos Conjuntos Difusos
0,2
0,5
Teoria dos conjuntos difusos (Fuzzy set theory)
 Um elemento pode ser membro de um conjunto apenas parcialmente. Um valor
entre zero (0) e um (1) indicará o quanto o elemento é membro do conjunto.
 A pertinência em um conjunto difuso não é uma questão binária, mas, considera
de um grau de intensidade de pertinência.
Fonte: Crestani e Pasi, 1999. Baeza-Yates e Ribeiro-Neto, 1999.
Teoria dos conjuntos difusos (Fuzzy set theory)
 Aumentam a flexibilidade dos SRI.
 Os principais níveis de aplicação da teoria dos conjuntos difusos para RI
compreendem:
Fonte: Crestani e Pasi, 1999.
- A definição de extensões do modelo booleano, no que respeita tanto a representação de
documentos e a linguagem de consulta;
- A definição de mecanismos associativos, tais como tesauro difuso e agrupamento difuso.
Método booleano estendido
Poluição Rio São Paulo
1 0 1
0 1 1
1 1 1
Consulta conjuntiva:
Poluição do rio de São Paulo
Poluição AND rio AND São Paulo
Doc 1
Doc 2
Doc 3
Método Booleano Clássico
1Doc 3
Resultado da consulta
Método booleano estendido
Poluição Ri0 São Paulo
0,5 0,4 0,3
0,6 0,7 0
0,8 0,8 0,5
Consulta conjuntiva:
Poluição do rio de São Paulo
Poluição AND rio AND São Paulo
Doc 1
Doc 2
Doc 3
Método Booleano Estendido
0,76
0,55
0,30
Para a consulta AND - ponto 1 é o mais desejável
Para a consulta OR - ponto 0 é o menos desejável
Doc 3
Doc 1
Doc 2
Resultado
Método booleano estendido
 Permite buscas parciais, através da atribuição de pesos aos termos.
 Combina características do modelo vetorial com propriedades da álgebra
booleana.
Fonte: Crestani e Pasi, 1999.
- O termo pode não aparecer no documento e ser relevante.
- O termo pode aparecer no documento e não ser relevante, por não ter outros termos relacionados.
Processo de RI
Fonte: Adaptado de Baeza-Yates e Ribeiro-Neto, 1999.
Representação da linguagem
de consulta
Representação dos
Documentos
Termos da
consulta
Termos do
documento
Similaridade entre consulta e documento
Classificação
Aplicando a Teoria dos
conjuntos difusos
Representação difusa do documento
 É feita com base na definição de uma função de indexação ponderada, que
para cada termo produz um valor numérico que varia de 0 à 1, que
representa o peso do termo t para o documento d e expressa o quanto esse
termo é significativo na descrição do conteúdo do documento.
 O uso de pesos faz com que o mecanismo de recuperação seja capaz de
classificar os documentos por ordem decrescente de relevância para a
consulta do usuário.
Fonte: Crestani e Pasi, 1999.
Representação difusa do documento
 Geralmente esta função baseia-se no cálculo da frequência de ocorrência
dos termos em todo o texto.
Fonte: Crestani e Pasi, 1999.
Bordogna e Pasi (1995) propõem uma
representação difusa para documentos semi
estruturados na qual o peso de um termo é
atribuído com base na sua localização no
texto.
 São modelados com base em tesauros e sinônimos, criados a partir de
uma matriz de correlação termo-a-termo:
 : número de docs que contêm termo Lixo
 : número de docs que contêm termo Poluição
 : número de docs que contêm ambos os termos Poluição e Lixo
partir daí, temos a noção de proximidade entre termos .
Representação difusa do documento
Fonte: Crestani e Pasi, 1999
Representação difusa do documento
Fonte: Crestani e Pasi, 1999
Lixo
Rios
Sujeira
D1
Poluição
Lixo
Sujeira
Termo: Poluição
Se um documento contém o termo Lixo que é fortemente correlacionado
a Poluição, então o termo Lixo é um bom índice representativo
mesmo que Poluição não apareça no documento!
Tesauros difusos
 Auxilia na definição da proximidade entre os termos.
 Pode ser utilizado para expandir os termos de consulta inicial através das
relações existentes entre seus índices.
Fonte: Crestani e Pasi, 1999
Extensão difusa da linguagem de consulta
 Considera termos vagos, ambíguos e imprecisos.
 Considera as variáveis linguísticas, determinando critérios por níveis de
importância atribuindo pesos.
Cidades quentes
T(quente): {muito quente, quente, não tão quente, quase quente, pouco quente}
T(quente): {1....0}
O critério evolui de um simples sim/não, verdadeiro/falso, [0,1], para algo mais flexível.
Agrupamento difusos de documentos
Agrupamento/Clustering é uma técnica de aprendizado de máquina opera
agrupando dados semelhantes.
 Em vez de identificar dados como pertencentes a grupos específicos ,
agrupamento difuso tenta identificar o grau em que um conjunto de dados
pertence a um grupo .
 Na abordagem de agrupamento difuso, um ponto de dados pode
pertencer a mais de um grupo .
Fonte: Crestani e Pasi, 1999
Agrupamento difuso
Agrupamento Clássico Agrupamento Difusos
Alto/Baixo
Representação Simplificada de um Neurônio
Os dendritos captam os estímulos recebidos em um
determinado período de tempo e os transmitem ao
corpo do neurônio, onde são processados.
Quando tais estímulos atingirem determinado limite, o
corpo da célula envia novo impulso que se propaga pelo
axônio e é transmitido às células vizinhas por meio de
sinapses.
Este processo pode se repetir em várias camadas de
neurônios. Como resultado, a informação de entrada é
processada, podendo levar o cérebro a comandar
reações
físicas.
Modelo Matemático Neural
• um conjunto de n conexões de entrada (x1, x2, ..., xn),
caracterizadas por pesos (p1, p2, ..., pn);
• um somador para acumular os sinais de entrada;
• uma função de ativação que limita o intervalo
permissível de amplitude do sinal de saída (y) a um valor
fixo.
As redes neurais artificiais são modelos que buscam
simular o processamento de informação do cérebro
humano.
Característica Marcante Rede Neural
Uma das propriedades mais importantes de uma rede neural artificial é a
capacidade de aprender por intermédio de exemplos e fazer
inferências sobre o que aprendeu, melhorando gradativamente o seu
desempenho. As redes neurais utilizam um algoritmo de aprendizagem
cuja tarefa é ajustar os pesos de suas conexões (BRAGA; CARVALHO;
LUDEMIR, 2000, cap. 2).
Redes neurais na recuperação de informação
Mozer (1984) foi o pioneiro na utilização de técnicas de
redes neurais na recuperação de informação.
Os sinais tornam-se mais fracos a cada iteração, e o processo
de propagação eventualmente para.
Redes neurais na recuperação de informação
Os termos de indexação ativados pelos de termos de
busca enviam sinais para os documentos.
Os documentos ativados enviam sinais que são
conduzidos de volta aos termos de indexação.
Entre os documentos resultantes, podem aparecer alguns
que não estão diretamente relacionados aos termos
utilizados na expressão de busca, mas que foram
inferidos durante a pesquisa e possuem certo grau de
relacionamento com a necessidade de informação do
usuário.
Redes neurais na recuperação de informação
Ao final do processo da pesquisa, o grau de ativação de cada documento pode ser utilizado como critério de
ordenamento dos itens resultantes. Os documentos com maior nível de ativação são geralmente aqueles
que possuem todos os termos utilizados na expressão de busca, seguidos dos documentos que possuem
somente alguns dos termos de busca e dos que foram apenas inferidos
durante o processo de pesquisa.
Redes neurais na recuperação de informação
Desenvolvido por Belew (1989), o sistema Adaptative
Information Retrieval (AIR).
Têm habilidade de aprender por meio da alteração dos
pesos associados às ligações entre os nós.
Durante a pesquisa, é feita a ativação dos nós da rede e,
quando o sistema se estabiliza, os nós e as ligações que
foram inferidos são apresentados ao usuário. Para que o
usuário possa atribuir um grau de relevância para cada
um dos itens recuperados.
CRESTANI, Fabio and PASI,Gabriella. Soft Information Retrieval: Applications of Fuzzy Set Theory and Neural Networks. In: NeuroFuzzy
Techniques for Intelligent Information Systems. Publisher: Physica Verlag (Springer Verlag), 1999.
Mohd Wazih Ahma; Dr. M A. Ansari. A Survey: Soft computing in Intelligent Information Retrieval Systems. 2012 12th International
Conference on Computational Science and Its Applications.
BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier. Chapter 2. Modeling. In: Modern Information Retrieval. New York: Addison Wesley,
1999. p.34-49.
Md. Abu Kausar, Md. Nasar and Sanjeev Kumar Singh. Information Retrieval using Soft Computing: An Overview. International Journal
of Scientific & Engineering Research, Volume 4, Issue 4, April, 2013. ISSN 2229.
FERNEDA, Edberto. Redes neurais e sua aplicação em sistemas de recuperação de informação. Ciência da Informação, v.35, n.1, p. 25-30,
jan./abr. 2006.
TORRA, Vicenço, MIYAMOTO, Sadaaki, LANAU, Sergi. Exploration of textual document archives using a fuzzy hierarchical clustering
algorithm in the GAMBAL system . Information Processing & Management, v. 41, n.3, p. 587-598, maio 2005.
Referências

Weitere ähnliche Inhalte

Andere mochten auch

O processo de análise de assunto
O processo de análise de assuntoO processo de análise de assunto
O processo de análise de assunto
jani_jpa2012
 

Andere mochten auch (16)

O processo de análise de assunto
O processo de análise de assuntoO processo de análise de assunto
O processo de análise de assunto
 
A documentação Jurídica no contexto do Centro de Documentação - Roseli Miranda
A documentação Jurídica no contexto do Centro de Documentação - Roseli MirandaA documentação Jurídica no contexto do Centro de Documentação - Roseli Miranda
A documentação Jurídica no contexto do Centro de Documentação - Roseli Miranda
 
Ciência da Informação: histórico e delimitação do campo
Ciência da Informação: histórico e delimitação do campoCiência da Informação: histórico e delimitação do campo
Ciência da Informação: histórico e delimitação do campo
 
Analise de Assunto
Analise de AssuntoAnalise de Assunto
Analise de Assunto
 
Filtragem e recuperação da informação
Filtragem e recuperação da informaçãoFiltragem e recuperação da informação
Filtragem e recuperação da informação
 
Arquivo invertido
Arquivo invertidoArquivo invertido
Arquivo invertido
 
Aula 2 Recuperação de Informação: operadores booleanos e aspectos linguísticos
Aula 2   Recuperação de Informação: operadores booleanos e aspectos linguísticosAula 2   Recuperação de Informação: operadores booleanos e aspectos linguísticos
Aula 2 Recuperação de Informação: operadores booleanos e aspectos linguísticos
 
Divulgação Científica - Fábio F. de Albuquerque
Divulgação Científica - Fábio F. de AlbuquerqueDivulgação Científica - Fábio F. de Albuquerque
Divulgação Científica - Fábio F. de Albuquerque
 
Origens e evolução da Ciência da Informação
Origens e evolução da Ciência da InformaçãoOrigens e evolução da Ciência da Informação
Origens e evolução da Ciência da Informação
 
Apresentação da tese defesa oral
Apresentação da tese defesa oralApresentação da tese defesa oral
Apresentação da tese defesa oral
 
A questão de Referência - Denis Grogan
A questão de Referência - Denis GroganA questão de Referência - Denis Grogan
A questão de Referência - Denis Grogan
 
Aula 01 - Recuperação da Informação
Aula 01 - Recuperação da InformaçãoAula 01 - Recuperação da Informação
Aula 01 - Recuperação da Informação
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
 
Defesa de tese do mestrado
Defesa de tese do mestradoDefesa de tese do mestrado
Defesa de tese do mestrado
 
Planejamento e Org. de Eventos
Planejamento e Org. de EventosPlanejamento e Org. de Eventos
Planejamento e Org. de Eventos
 
Classificação e tipologia de eventos
Classificação e tipologia de eventosClassificação e tipologia de eventos
Classificação e tipologia de eventos
 

Ähnlich wie Soft information retrieval / Modelos de recuperação alternativos

O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
Cristiane Marcelino
 
Analise de redes sociais: How forensic scientists learn to investigate cases ...
Analise de redes sociais: How forensic scientists learn to investigate cases ...Analise de redes sociais: How forensic scientists learn to investigate cases ...
Analise de redes sociais: How forensic scientists learn to investigate cases ...
Rafael Machado Alves
 
AnáLise Da InformaçãO
AnáLise Da InformaçãOAnáLise Da InformaçãO
AnáLise Da InformaçãO
lulinha
 

Ähnlich wie Soft information retrieval / Modelos de recuperação alternativos (20)

Aula 4
Aula 4Aula 4
Aula 4
 
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
 
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
O FAZER CIÊNCIA EM UM AMBIENTE VIRTUAL DE APRENDIZAGEM: A EMERGÊNCIA DE UM OL...
 
Analise de redes sociais: How forensic scientists learn to investigate cases ...
Analise de redes sociais: How forensic scientists learn to investigate cases ...Analise de redes sociais: How forensic scientists learn to investigate cases ...
Analise de redes sociais: How forensic scientists learn to investigate cases ...
 
ID3 Algorithm
ID3 AlgorithmID3 Algorithm
ID3 Algorithm
 
Papel dos vocabulários no acesso e reuso de recursos digitais na web
Papel dos vocabulários no acesso e reuso de recursos digitais na webPapel dos vocabulários no acesso e reuso de recursos digitais na web
Papel dos vocabulários no acesso e reuso de recursos digitais na web
 
ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ...
ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ...ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ...
ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ...
 
Representação da Informação
Representação da InformaçãoRepresentação da Informação
Representação da Informação
 
Sociologia da Informação 7.pptx
Sociologia da Informação 7.pptxSociologia da Informação 7.pptx
Sociologia da Informação 7.pptx
 
Web Semântica
Web SemânticaWeb Semântica
Web Semântica
 
Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS
Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOSEnancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS
Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS
 
DissertacaoBechara
DissertacaoBecharaDissertacaoBechara
DissertacaoBechara
 
1ª aula indexacao 2013
1ª aula indexacao 20131ª aula indexacao 2013
1ª aula indexacao 2013
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...
 
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
 
AnáLise Da InformaçãO
AnáLise Da InformaçãOAnáLise Da InformaçãO
AnáLise Da InformaçãO
 
Apresentação banca
Apresentação bancaApresentação banca
Apresentação banca
 
Lakatos
LakatosLakatos
Lakatos
 
Lakatos
LakatosLakatos
Lakatos
 
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
 

Mehr von Vanessa Biff

Organização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
Organização do acervo fotográfico da biblioteca escolar Sebastião Neto CamposOrganização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
Organização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
Vanessa Biff
 

Mehr von Vanessa Biff (11)

O Pensamento pedagógico Renascentista ao Positivista
O Pensamento pedagógico Renascentista ao PositivistaO Pensamento pedagógico Renascentista ao Positivista
O Pensamento pedagógico Renascentista ao Positivista
 
O papel da biblioteca escolar na formação de leitores
O papel da biblioteca escolar na formação de leitoresO papel da biblioteca escolar na formação de leitores
O papel da biblioteca escolar na formação de leitores
 
Relações entre leitura, letramento, identidade e o papel da biblioteca escolar
Relações entre leitura, letramento, identidade  e o papel da biblioteca escolarRelações entre leitura, letramento, identidade  e o papel da biblioteca escolar
Relações entre leitura, letramento, identidade e o papel da biblioteca escolar
 
Letramento informacional em bibliotecas públicas
Letramento informacional em bibliotecas públicasLetramento informacional em bibliotecas públicas
Letramento informacional em bibliotecas públicas
 
Marxismo e filosofia da linguagem
Marxismo e filosofia da linguagemMarxismo e filosofia da linguagem
Marxismo e filosofia da linguagem
 
Apresentação defesa de mestrado
Apresentação defesa de mestradoApresentação defesa de mestrado
Apresentação defesa de mestrado
 
Recuperação colaborativa da informação
Recuperação colaborativa da informaçãoRecuperação colaborativa da informação
Recuperação colaborativa da informação
 
Agentes inteligentes
Agentes inteligentesAgentes inteligentes
Agentes inteligentes
 
Desenvolvimento de coleções em centro de documentação: um relato de experiên...
Desenvolvimento de coleções em centro de documentação: um relato de experiên...Desenvolvimento de coleções em centro de documentação: um relato de experiên...
Desenvolvimento de coleções em centro de documentação: um relato de experiên...
 
Organização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
Organização do acervo fotográfico da biblioteca escolar Sebastião Neto CamposOrganização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
Organização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
 
A Experiência do CEDRIC na gestão documental do CTCL
A Experiência do CEDRIC na gestão documental do CTCLA Experiência do CEDRIC na gestão documental do CTCL
A Experiência do CEDRIC na gestão documental do CTCL
 

Kürzlich hochgeladen

Kürzlich hochgeladen (8)

Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 

Soft information retrieval / Modelos de recuperação alternativos

  • 1. Lais Oselame Nobrega Vanessa Levati Biff UNIVERSIDADE FEDERAL DE SANTA CATARINA Departamento de Ciência da Informação Programa de Pós-Graduação em Ciência da Informação Disciplina: Recuperação Inteligente da Informação Profº: Dr. Angel Godoy Vieira Março, 2016
  • 2. Processo de RI Fonte: Adaptado de Baeza-Yates e Ribeiro-Neto, 1999. Depende do modelo de recuperação utilizado Representação da linguagem de consulta Representação dos Documentos Termos da consulta Termos do documento Similaridade entre consulta e documento Classificação
  • 3. Fonte: Baeza-Yates e Ribeiro-Neto, 1999.
  • 4. Foram desenvolvidos em ambientes fechados, universo documental é restrito. Não são totalmente aptos a serem úteis na web. Fonte: Crestani e Pasi, 1999. Quando... - O usuário não tem ideia clara da informação de precisa, ou não sabe expressar sua necessidade de informação.
  • 5. Soft Information Retrieval Incorporam novas técnicas à recuperação da informação. São capazes de representar a incerteza e imprecisão no processo de recuperação da informação. Fonte: Crestani e Pasi, 1999.
  • 6.
  • 7. Teoria dos conjuntos difusos (Fuzzy set theory) Conjuntos Clássicos Conjuntos Difusos 1 0 [1,0]
  • 8. Teoria dos conjuntos difusos (Fuzzy set theory) Baixo Alto Alto Baixo Conjuntos Clássicos Conjuntos Difusos 0,2 0,5
  • 9. Teoria dos conjuntos difusos (Fuzzy set theory)  Um elemento pode ser membro de um conjunto apenas parcialmente. Um valor entre zero (0) e um (1) indicará o quanto o elemento é membro do conjunto.  A pertinência em um conjunto difuso não é uma questão binária, mas, considera de um grau de intensidade de pertinência. Fonte: Crestani e Pasi, 1999. Baeza-Yates e Ribeiro-Neto, 1999.
  • 10. Teoria dos conjuntos difusos (Fuzzy set theory)  Aumentam a flexibilidade dos SRI.  Os principais níveis de aplicação da teoria dos conjuntos difusos para RI compreendem: Fonte: Crestani e Pasi, 1999. - A definição de extensões do modelo booleano, no que respeita tanto a representação de documentos e a linguagem de consulta; - A definição de mecanismos associativos, tais como tesauro difuso e agrupamento difuso.
  • 11. Método booleano estendido Poluição Rio São Paulo 1 0 1 0 1 1 1 1 1 Consulta conjuntiva: Poluição do rio de São Paulo Poluição AND rio AND São Paulo Doc 1 Doc 2 Doc 3 Método Booleano Clássico 1Doc 3 Resultado da consulta
  • 12. Método booleano estendido Poluição Ri0 São Paulo 0,5 0,4 0,3 0,6 0,7 0 0,8 0,8 0,5 Consulta conjuntiva: Poluição do rio de São Paulo Poluição AND rio AND São Paulo Doc 1 Doc 2 Doc 3 Método Booleano Estendido 0,76 0,55 0,30 Para a consulta AND - ponto 1 é o mais desejável Para a consulta OR - ponto 0 é o menos desejável Doc 3 Doc 1 Doc 2 Resultado
  • 13. Método booleano estendido  Permite buscas parciais, através da atribuição de pesos aos termos.  Combina características do modelo vetorial com propriedades da álgebra booleana. Fonte: Crestani e Pasi, 1999. - O termo pode não aparecer no documento e ser relevante. - O termo pode aparecer no documento e não ser relevante, por não ter outros termos relacionados.
  • 14. Processo de RI Fonte: Adaptado de Baeza-Yates e Ribeiro-Neto, 1999. Representação da linguagem de consulta Representação dos Documentos Termos da consulta Termos do documento Similaridade entre consulta e documento Classificação Aplicando a Teoria dos conjuntos difusos
  • 15. Representação difusa do documento  É feita com base na definição de uma função de indexação ponderada, que para cada termo produz um valor numérico que varia de 0 à 1, que representa o peso do termo t para o documento d e expressa o quanto esse termo é significativo na descrição do conteúdo do documento.  O uso de pesos faz com que o mecanismo de recuperação seja capaz de classificar os documentos por ordem decrescente de relevância para a consulta do usuário. Fonte: Crestani e Pasi, 1999.
  • 16. Representação difusa do documento  Geralmente esta função baseia-se no cálculo da frequência de ocorrência dos termos em todo o texto. Fonte: Crestani e Pasi, 1999. Bordogna e Pasi (1995) propõem uma representação difusa para documentos semi estruturados na qual o peso de um termo é atribuído com base na sua localização no texto.
  • 17.  São modelados com base em tesauros e sinônimos, criados a partir de uma matriz de correlação termo-a-termo:  : número de docs que contêm termo Lixo  : número de docs que contêm termo Poluição  : número de docs que contêm ambos os termos Poluição e Lixo partir daí, temos a noção de proximidade entre termos . Representação difusa do documento Fonte: Crestani e Pasi, 1999
  • 18. Representação difusa do documento Fonte: Crestani e Pasi, 1999 Lixo Rios Sujeira D1 Poluição Lixo Sujeira Termo: Poluição Se um documento contém o termo Lixo que é fortemente correlacionado a Poluição, então o termo Lixo é um bom índice representativo mesmo que Poluição não apareça no documento!
  • 19. Tesauros difusos  Auxilia na definição da proximidade entre os termos.  Pode ser utilizado para expandir os termos de consulta inicial através das relações existentes entre seus índices. Fonte: Crestani e Pasi, 1999
  • 20. Extensão difusa da linguagem de consulta  Considera termos vagos, ambíguos e imprecisos.  Considera as variáveis linguísticas, determinando critérios por níveis de importância atribuindo pesos. Cidades quentes T(quente): {muito quente, quente, não tão quente, quase quente, pouco quente} T(quente): {1....0} O critério evolui de um simples sim/não, verdadeiro/falso, [0,1], para algo mais flexível.
  • 21. Agrupamento difusos de documentos Agrupamento/Clustering é uma técnica de aprendizado de máquina opera agrupando dados semelhantes.  Em vez de identificar dados como pertencentes a grupos específicos , agrupamento difuso tenta identificar o grau em que um conjunto de dados pertence a um grupo .  Na abordagem de agrupamento difuso, um ponto de dados pode pertencer a mais de um grupo . Fonte: Crestani e Pasi, 1999
  • 22. Agrupamento difuso Agrupamento Clássico Agrupamento Difusos Alto/Baixo
  • 23.
  • 24.
  • 25. Representação Simplificada de um Neurônio Os dendritos captam os estímulos recebidos em um determinado período de tempo e os transmitem ao corpo do neurônio, onde são processados. Quando tais estímulos atingirem determinado limite, o corpo da célula envia novo impulso que se propaga pelo axônio e é transmitido às células vizinhas por meio de sinapses. Este processo pode se repetir em várias camadas de neurônios. Como resultado, a informação de entrada é processada, podendo levar o cérebro a comandar reações físicas.
  • 26. Modelo Matemático Neural • um conjunto de n conexões de entrada (x1, x2, ..., xn), caracterizadas por pesos (p1, p2, ..., pn); • um somador para acumular os sinais de entrada; • uma função de ativação que limita o intervalo permissível de amplitude do sinal de saída (y) a um valor fixo. As redes neurais artificiais são modelos que buscam simular o processamento de informação do cérebro humano.
  • 27. Característica Marcante Rede Neural Uma das propriedades mais importantes de uma rede neural artificial é a capacidade de aprender por intermédio de exemplos e fazer inferências sobre o que aprendeu, melhorando gradativamente o seu desempenho. As redes neurais utilizam um algoritmo de aprendizagem cuja tarefa é ajustar os pesos de suas conexões (BRAGA; CARVALHO; LUDEMIR, 2000, cap. 2).
  • 28. Redes neurais na recuperação de informação Mozer (1984) foi o pioneiro na utilização de técnicas de redes neurais na recuperação de informação. Os sinais tornam-se mais fracos a cada iteração, e o processo de propagação eventualmente para.
  • 29. Redes neurais na recuperação de informação Os termos de indexação ativados pelos de termos de busca enviam sinais para os documentos. Os documentos ativados enviam sinais que são conduzidos de volta aos termos de indexação. Entre os documentos resultantes, podem aparecer alguns que não estão diretamente relacionados aos termos utilizados na expressão de busca, mas que foram inferidos durante a pesquisa e possuem certo grau de relacionamento com a necessidade de informação do usuário.
  • 30. Redes neurais na recuperação de informação Ao final do processo da pesquisa, o grau de ativação de cada documento pode ser utilizado como critério de ordenamento dos itens resultantes. Os documentos com maior nível de ativação são geralmente aqueles que possuem todos os termos utilizados na expressão de busca, seguidos dos documentos que possuem somente alguns dos termos de busca e dos que foram apenas inferidos durante o processo de pesquisa.
  • 31. Redes neurais na recuperação de informação Desenvolvido por Belew (1989), o sistema Adaptative Information Retrieval (AIR). Têm habilidade de aprender por meio da alteração dos pesos associados às ligações entre os nós. Durante a pesquisa, é feita a ativação dos nós da rede e, quando o sistema se estabiliza, os nós e as ligações que foram inferidos são apresentados ao usuário. Para que o usuário possa atribuir um grau de relevância para cada um dos itens recuperados.
  • 32. CRESTANI, Fabio and PASI,Gabriella. Soft Information Retrieval: Applications of Fuzzy Set Theory and Neural Networks. In: NeuroFuzzy Techniques for Intelligent Information Systems. Publisher: Physica Verlag (Springer Verlag), 1999. Mohd Wazih Ahma; Dr. M A. Ansari. A Survey: Soft computing in Intelligent Information Retrieval Systems. 2012 12th International Conference on Computational Science and Its Applications. BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier. Chapter 2. Modeling. In: Modern Information Retrieval. New York: Addison Wesley, 1999. p.34-49. Md. Abu Kausar, Md. Nasar and Sanjeev Kumar Singh. Information Retrieval using Soft Computing: An Overview. International Journal of Scientific & Engineering Research, Volume 4, Issue 4, April, 2013. ISSN 2229. FERNEDA, Edberto. Redes neurais e sua aplicação em sistemas de recuperação de informação. Ciência da Informação, v.35, n.1, p. 25-30, jan./abr. 2006. TORRA, Vicenço, MIYAMOTO, Sadaaki, LANAU, Sergi. Exploration of textual document archives using a fuzzy hierarchical clustering algorithm in the GAMBAL system . Information Processing & Management, v. 41, n.3, p. 587-598, maio 2005. Referências