Este documento discute medidas de similaridade entre documentos eletrônicos e fornece três frases:
1) Métodos como análise de texto, extração de sintagmas nominais e classificação automática são usados para medir a similaridade entre documentos.
2) A extração e classificação de sintagmas nominais aprimora as medidas de similaridade, diminuindo falsos positivos e melhorando a homogeneidade dos grupos formados.
3) O documento conclui que o uso de sintagmas nominais melhora os resultados da classific
Análise de redes por co-ocorrência de palavras-chave: Identificação de possív...
Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS
1. MEDIDAS DE SIMILARIDADE
EM DOCUMENTOS
ELETRONICOS
Prof. Luiz Cláudio Gomes Maia
Prof. Renato Rocha Souza
Escola de Ciência da Informação, UFMG
2. conteúdo
Tecnologia e aplicação na CI
Medidas de Similaridade
Análise de texto
Extração automática de descritores
Extração dos SN
Classificação dos SN extraídos
Uso de SNs para indicar similaridade
4. outras aplicações
Medidas de similaridade: análise de ligações
Sites de compras
TV Digital
Redes Sociais
Last.fm,Orkut, etc...
Google e PageRank
Análise de citações
Fonte: JANSSENS, 2007; SANTOS SILVA, 2005
Fabio Santos Silva em
projeto denominado
Sistema de
Recomendação
Personalizada de
Programas deTV
(SRPTV).
Rocchio - 1971
kNN -Yang em 1994
5. clustering
Clustering corresponde as técnicas que
permitem subdividir um conjunto de
objetos em grupos. O objetivo é fazer que
cada grupo (ou cluster) seja o mais
homogêneo possível levando em
consideração que os objetos do grupo
tenham propriedades similares e que os
objetos nos outros grupos sejam diferentes.
Fonte: JANSSENS, 2007
8. A classificação automática toma como base
as propriedades do objeto que se pretende
classificar e através delas define a(s)
classes(s) a qual pertence.
Ao classificar que um documento é similar a
outro é necessário realizar um processo de
associação entre estes documentos. Um
documento com metadados (incluindo
descritores) torna o processo de classificação
automática mais eficaz.
Fonte: SVENONIOUS, 1985
9. análise de texto
Bag of words
Corpus
Criação dos dicionários
Stopwords
MedidasTF, IDF,TF-IDF
Coseno, Distância Euclidiana
SupportVector Machines (SVM)
13. dificuldades
Polissemia: a palavra pode ter vários
significados. Exemplo: chave (solução de um
problema; ferramenta para abertura de portas; e
também ferramenta para apertar parafusos);
Sinonímia: duas palavras podem designar o
mesmo significado. Exemplo: abóbora e
jerimum;
Duas ou mais palavras podem combinar-se em
ordem diferente designando idéias
completamente diversas. Exemplo: crimes,
juvenis, vítimas (vítimas de crimes juvenis;
vítimas juvenis de crimes).
Fonte: Guern, 2001; Kuramoto, 2002
14. sintagmas nominais
"conjunto de elementos que constituem uma
unidade significativa dentro da oração e que
mantêm entre si relações de dependência e de
ordem. Organizam-se em torno de um
elemento fundamental, denominado núcleo,
que pode, por si só, constituir o sintagma."
“é a menor parte do discurso portadora de
informação”.
Fonte: KOCH & SILVA, 1986; KURAMOTO, 1996
15. De SN para descritores
Proposto:
1a - organização
1b - insumos básicos
2 – camada de ozônio
3 - âmbito da representação das atividades
econômicas
1a 0,2
1b 0,8
2 1,1
3 1,4
4 1,2
5 0,8
Fonte: Souza, 2005
16. descritores
Texto: Quem mexeu no meu queijo?
Spencer Johnson
Termos:
que, queijo, não, para, Haw
Termos sem Stopwords
Queijo, Haw, quando, estava, novo
Sintagmas Nominais
Queijo, Haw, a história, o labirinto, mudança
Sintagmas Nominais pontuados
Queijo, Haw, a história do queijo, o labirinto, mudança
17. extração de SN
“O processo de reconhecimento, extração e
indexação não automatizada, além de ser inviável
economicamente em se tratando de grandes
volumes de documentos, pode prejudicar a
uniformidade no processo de reconhecimento,
extração e indexação dos sintagmas nominais.”
“A inexistência dessas ferramentas impede uma
avaliação mais consistente envolvendo amostras
de dados com maior volume de documentos. “
Fonte: Kuramoto, 2002
18. extração de SN
Visual Interactive Syntax Learning (VISL),
da Universidade de Aarhus na Dinamarca.
Parser PALAVRAS
Dificuldades:
- via web
- pago
19. extração de SN
Outros softwares
CorpusTreinamento
Conhecimento de linguagens próprias de
programação
Outras línguas
22. ogma
Construção de um dicionário
475 palavras da gramática
41978 nomes e adjetivos
5000 verbos
verbos conjugados 292.720
Diversas regras e tratamentos realizados no
código.
24. extração de SN
O novo cálculo das aposentadorias resulta em valores menores do que os
atuais para quem perde o benefício com menos tempo de contribuição e
idade.
SN Extraídos OGMA
O novo cálculo de as aposentadorias; valores menores; o benefício com
menos tempo de contribuição e idade
SN Extraídos no método ED-CER
o novo cálculo de as aposentadorias; valores menores-do-que os atuais; o
benefício com menos tempo de contribuição e idade
SN Extraídos no trabalho deVISL
% o novo cálculo de as aposentadorias; % valores menores do que os atuais
% o benefício;% menos tempo de contribuição e idade
25. corpus
1 - Imagem, fotografia, imagem
2 - Uma proposta de modelo baseado naWeb 2.0
para...
3 - Arquitetura da Informação para Ambientes
Inform...
4 - X-Libras - Um Ambiente Informacional para a
Lín...
5 - Avaliação da usabilidade de ambientes...
6 - Análise da usabilidade de interface de
reposit...
28. Uma proposta de modelo baseado na
Web 2.0
Palavras-chave: Internet. Tecnologia da Informação. Web 2.0. Biblioteca 2.0.
Bibliotecas das Universidades
Federais.
20 x 80 web
31. principais conclusões
O uso de SN aprimora as medidas de
similaridade.
Diminuição de falsos positivos. Melhorando a
homogeneidade dos itens do cluster.
32. referências
JANSSENS, F.. Clustering of scientific fields by
integrating text Mining and bibliometrics,
Katholieke Universiteit Leuven: Faculteit
Ingenieurswetenschappen. Mei, 2007.
KOCH, I.V.; SILVA, M.C.P.S.. Lingüística aplicada
ao português: sintaxe. São Paulo, Cortez, 1985.
KURAMOTO, H.. Sintagmas Nominais: uma nova
proposta para a Recuperação da Informação.
DataGramaZero, v. 3, n. 1, fev. 2002.
33. referências
SANTOS SILVA, F.. Personalização de Conteúdo na
TVDI através de um Sistema de Recomendação
Personalizada de Programas deTV (SRPTV).Anais...
III Fórum de Oportunidades emTelevisão Digital
Interativa, Poços de Caldas, 2005.
SOUZA, R.R.. Uma proposta de metodologia para
escolha automática de descritores utilizando
sintagmas nominais.Tese de Doutorado.
Orientadora Profª. Lidia Alvarenga. ECI: UFMG,
2006.
SVENONIOUS, E.. Classification theory. March,
1985. 19p