Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS

MEDIDAS DE SIMILARIDADE
EM DOCUMENTOS
ELETRONICOS
Prof. Luiz Cláudio Gomes Maia
Prof. Renato Rocha Souza
Escola de Ciência da Informação, UFMG

conteúdo
 Tecnologia e aplicação na CI
 Medidas de Similaridade
 Análise de texto
 Extração automática de descritores
 Extração dos SN
 Classificação dos SN extraídos
 Uso de SNs para indicar similaridade

medidas de similaridade
Aplicáveis a:
 Textos
 Imagens e fotos
 Rostos
 Sons
 Identificação de música

outras aplicações
Medidas de similaridade: análise de ligações
 Sites de compras
 TV Digital
 Redes Sociais
 Last.fm,Orkut, etc...
 Google e PageRank
 Análise de citações
Fonte: JANSSENS, 2007; SANTOS SILVA, 2005
Fabio Santos Silva em
projeto denominado
Sistema de
Recomendação
Personalizada de
Programas deTV
(SRPTV).
Rocchio - 1971
kNN -Yang em 1994

clustering
 Clustering corresponde as técnicas que
permitem subdividir um conjunto de
objetos em grupos. O objetivo é fazer que
cada grupo (ou cluster) seja o mais
homogêneo possível levando em
consideração que os objetos do grupo
tenham propriedades similares e que os
objetos nos outros grupos sejam diferentes.
Fonte: JANSSENS, 2007

uso em repositórios
GRUPO A
GRUPO B

objetivo
Comparação similaridade de documentos
eletrônicos:
 Análise dados (texto)
 Análise dos metadados (descritores)

 A classificação automática toma como base
as propriedades do objeto que se pretende
classificar e através delas define a(s)
classes(s) a qual pertence.
 Ao classificar que um documento é similar a
outro é necessário realizar um processo de
associação entre estes documentos. Um
documento com metadados (incluindo
descritores) torna o processo de classificação
automática mais eficaz.
Fonte: SVENONIOUS, 1985

análise de texto
 Bag of words
 Corpus
 Criação dos dicionários
 Stopwords
 MedidasTF, IDF,TF-IDF
 Coseno, Distância Euclidiana
 SupportVector Machines (SVM)

análise de texto

dificuldades

dificuldades
 Polissemia: a palavra pode ter vários
significados. Exemplo: chave (solução de um
problema; ferramenta para abertura de portas; e
também ferramenta para apertar parafusos);
 Sinonímia: duas palavras podem designar o
mesmo significado. Exemplo: abóbora e
jerimum;
 Duas ou mais palavras podem combinar-se em
ordem diferente designando idéias
completamente diversas. Exemplo: crimes,
juvenis, vítimas (vítimas de crimes juvenis;
vítimas juvenis de crimes).
Fonte: Guern, 2001; Kuramoto, 2002

sintagmas nominais
 "conjunto de elementos que constituem uma
unidade significativa dentro da oração e que
mantêm entre si relações de dependência e de
ordem. Organizam-se em torno de um
elemento fundamental, denominado núcleo,
que pode, por si só, constituir o sintagma."
 “é a menor parte do discurso portadora de
informação”.
Fonte: KOCH & SILVA, 1986; KURAMOTO, 1996

De SN para descritores
Proposto:
 1a - organização
 1b - insumos básicos
 2 – camada de ozônio
 3 - âmbito da representação das atividades
econômicas
1a 0,2
1b 0,8
2 1,1
3 1,4
4 1,2
5 0,8
Fonte: Souza, 2005

descritores
Texto: Quem mexeu no meu queijo?
Spencer Johnson
 Termos:
 que, queijo, não, para, Haw
 Termos sem Stopwords
 Queijo, Haw, quando, estava, novo
 Sintagmas Nominais
 Queijo, Haw, a história, o labirinto, mudança
 Sintagmas Nominais pontuados
 Queijo, Haw, a história do queijo, o labirinto, mudança

extração de SN
 “O processo de reconhecimento, extração e
indexação não automatizada, além de ser inviável
economicamente em se tratando de grandes
volumes de documentos, pode prejudicar a
uniformidade no processo de reconhecimento,
extração e indexação dos sintagmas nominais.”
 “A inexistência dessas ferramentas impede uma
avaliação mais consistente envolvendo amostras
de dados com maior volume de documentos. “
Fonte: Kuramoto, 2002

extração de SN
 Visual Interactive Syntax Learning (VISL),
da Universidade de Aarhus na Dinamarca.
Parser PALAVRAS
Dificuldades:
- via web
- pago

extração de SN
 Outros softwares
 CorpusTreinamento
 Conhecimento de linguagens próprias de
programação
 Outras línguas

ED-CER
“o_AR trabalho_SU descreve_VB as_AR
Gramáticas_SU Síncronas_AJ
de_PR Adjunção_SU de_PR Árvores_SU
como_PR formalismo_SU para_PR
projeto_SU de_PR um_AR módulo_SU (...)
._PN”
Fonte: Miorelli, 2001

ogma
Construção de um dicionário
 475 palavras da gramática
 41978 nomes e adjetivos
 5000 verbos
 verbos conjugados 292.720
 Diversas regras e tratamentos realizados no
código.

extração de SN
O novo cálculo das aposentadorias resulta em valores menores do que os
atuais para quem perde o benefício com menos tempo de contribuição e
idade.
SN Extraídos OGMA
O novo cálculo de as aposentadorias; valores menores; o benefício com
menos tempo de contribuição e idade
SN Extraídos no método ED-CER
o novo cálculo de as aposentadorias; valores menores-do-que os atuais; o
benefício com menos tempo de contribuição e idade
SN Extraídos no trabalho deVISL
% o novo cálculo de as aposentadorias; % valores menores do que os atuais
% o benefício;% menos tempo de contribuição e idade

corpus
 1 - Imagem, fotografia, imagem
 2 - Uma proposta de modelo baseado naWeb 2.0
para...
 3 - Arquitetura da Informação para Ambientes
Inform...
 4 - X-Libras - Um Ambiente Informacional para a
Lín...
 5 - Avaliação da usabilidade de ambientes...
 6 - Análise da usabilidade de interface de
reposit...

Imagem, fotografia, imagem
Palavras-chave: Imagem. Fotografia. Informação e tecnologia e informação. Intersemioses.

Uma proposta de modelo baseado na
Web 2.0
Palavras-chave: Internet. Tecnologia da Informação. Web 2.0. Biblioteca 2.0.
Bibliotecas das Universidades
Federais.
20 x 80 web

principais conclusões
 O uso de SN aprimora as medidas de
similaridade.
 Diminuição de falsos positivos. Melhorando a
homogeneidade dos itens do cluster.

referências
 JANSSENS, F.. Clustering of scientific fields by
integrating text Mining and bibliometrics,
Katholieke Universiteit Leuven: Faculteit
Ingenieurswetenschappen. Mei, 2007.
 KOCH, I.V.; SILVA, M.C.P.S.. Lingüística aplicada
ao português: sintaxe. São Paulo, Cortez, 1985.
 KURAMOTO, H.. Sintagmas Nominais: uma nova
proposta para a Recuperação da Informação.
DataGramaZero, v. 3, n. 1, fev. 2002.

referências
 SANTOS SILVA, F.. Personalização de Conteúdo na
TVDI através de um Sistema de Recomendação
Personalizada de Programas deTV (SRPTV).Anais...
III Fórum de Oportunidades emTelevisão Digital
Interativa, Poços de Caldas, 2005.
 SOUZA, R.R.. Uma proposta de metodologia para
escolha automática de descritores utilizando
sintagmas nominais.Tese de Doutorado.
Orientadora Profª. Lidia Alvarenga. ECI: UFMG,
2006.
 SVENONIOUS, E.. Classification theory. March,
1985. 19p

Obrigado!
Contato:
luizmaia@luizmaia.com.br
www.luizmaia.com.br

Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS

Semelhante a Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS (20)

Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS