SlideShare uma empresa Scribd logo
1 de 34
MEDIDAS DE SIMILARIDADE
EM DOCUMENTOS
ELETRONICOS
Prof. Luiz Cláudio Gomes Maia
Prof. Renato Rocha Souza
Escola de Ciência da Informação, UFMG
conteúdo
 Tecnologia e aplicação na CI
 Medidas de Similaridade
 Análise de texto
 Extração automática de descritores
 Extração dos SN
 Classificação dos SN extraídos
 Uso de SNs para indicar similaridade
medidas de similaridade
Aplicáveis a:
 Textos
 Imagens e fotos
 Rostos
 Sons
 Identificação de música
outras aplicações
Medidas de similaridade: análise de ligações
 Sites de compras
 TV Digital
 Redes Sociais
 Last.fm,Orkut, etc...
 Google e PageRank
 Análise de citações
Fonte: JANSSENS, 2007; SANTOS SILVA, 2005
Fabio Santos Silva em
projeto denominado
Sistema de
Recomendação
Personalizada de
Programas deTV
(SRPTV).
Rocchio - 1971
kNN -Yang em 1994
clustering
 Clustering corresponde as técnicas que
permitem subdividir um conjunto de
objetos em grupos. O objetivo é fazer que
cada grupo (ou cluster) seja o mais
homogêneo possível levando em
consideração que os objetos do grupo
tenham propriedades similares e que os
objetos nos outros grupos sejam diferentes.
Fonte: JANSSENS, 2007
uso em repositórios
GRUPO A
GRUPO B
objetivo
Comparação similaridade de documentos
eletrônicos:
 Análise dados (texto)
 Análise dos metadados (descritores)
 A classificação automática toma como base
as propriedades do objeto que se pretende
classificar e através delas define a(s)
classes(s) a qual pertence.
 Ao classificar que um documento é similar a
outro é necessário realizar um processo de
associação entre estes documentos. Um
documento com metadados (incluindo
descritores) torna o processo de classificação
automática mais eficaz.
Fonte: SVENONIOUS, 1985
análise de texto
 Bag of words
 Corpus
 Criação dos dicionários
 Stopwords
 MedidasTF, IDF,TF-IDF
 Coseno, Distância Euclidiana
 SupportVector Machines (SVM)
análise de texto
Fonte: JANSSENS, 2007
coseno
dificuldades
Fonte: JANSSENS, 2007
dificuldades
 Polissemia: a palavra pode ter vários
significados. Exemplo: chave (solução de um
problema; ferramenta para abertura de portas; e
também ferramenta para apertar parafusos);
 Sinonímia: duas palavras podem designar o
mesmo significado. Exemplo: abóbora e
jerimum;
 Duas ou mais palavras podem combinar-se em
ordem diferente designando idéias
completamente diversas. Exemplo: crimes,
juvenis, vítimas (vítimas de crimes juvenis;
vítimas juvenis de crimes).
Fonte: Guern, 2001; Kuramoto, 2002
sintagmas nominais
 "conjunto de elementos que constituem uma
unidade significativa dentro da oração e que
mantêm entre si relações de dependência e de
ordem. Organizam-se em torno de um
elemento fundamental, denominado núcleo,
que pode, por si só, constituir o sintagma."
 “é a menor parte do discurso portadora de
informação”.
Fonte: KOCH & SILVA, 1986; KURAMOTO, 1996
De SN para descritores
Proposto:
 1a - organização
 1b - insumos básicos
 2 – camada de ozônio
 3 - âmbito da representação das atividades
econômicas
1a 0,2
1b 0,8
2 1,1
3 1,4
4 1,2
5 0,8
Fonte: Souza, 2005
descritores
Texto: Quem mexeu no meu queijo?
Spencer Johnson
 Termos:
 que, queijo, não, para, Haw
 Termos sem Stopwords
 Queijo, Haw, quando, estava, novo
 Sintagmas Nominais
 Queijo, Haw, a história, o labirinto, mudança
 Sintagmas Nominais pontuados
 Queijo, Haw, a história do queijo, o labirinto, mudança
extração de SN
 “O processo de reconhecimento, extração e
indexação não automatizada, além de ser inviável
economicamente em se tratando de grandes
volumes de documentos, pode prejudicar a
uniformidade no processo de reconhecimento,
extração e indexação dos sintagmas nominais.”
 “A inexistência dessas ferramentas impede uma
avaliação mais consistente envolvendo amostras
de dados com maior volume de documentos. “
Fonte: Kuramoto, 2002
extração de SN
 Visual Interactive Syntax Learning (VISL),
da Universidade de Aarhus na Dinamarca.
Parser PALAVRAS
Dificuldades:
- via web
- pago
extração de SN
 Outros softwares
 CorpusTreinamento
 Conhecimento de linguagens próprias de
programação
 Outras línguas
ED-CER
“o_AR trabalho_SU descreve_VB as_AR
Gramáticas_SU Síncronas_AJ
de_PR Adjunção_SU de_PR Árvores_SU
como_PR formalismo_SU para_PR
projeto_SU de_PR um_AR módulo_SU (...)
._PN”
Fonte: Miorelli, 2001
ED-CER
Fonte: Miorelli, 2001
ogma
Construção de um dicionário
 475 palavras da gramática
 41978 nomes e adjetivos
 5000 verbos
 verbos conjugados 292.720
 Diversas regras e tratamentos realizados no
código.
ogma
extração de SN
O novo cálculo das aposentadorias resulta em valores menores do que os
atuais para quem perde o benefício com menos tempo de contribuição e
idade.
SN Extraídos OGMA
O novo cálculo de as aposentadorias; valores menores; o benefício com
menos tempo de contribuição e idade
SN Extraídos no método ED-CER
o novo cálculo de as aposentadorias; valores menores-do-que os atuais; o
benefício com menos tempo de contribuição e idade
SN Extraídos no trabalho deVISL
% o novo cálculo de as aposentadorias; % valores menores do que os atuais
% o benefício;% menos tempo de contribuição e idade
corpus
 1 - Imagem, fotografia, imagem
 2 - Uma proposta de modelo baseado naWeb 2.0
para...
 3 - Arquitetura da Informação para Ambientes
Inform...
 4 - X-Libras - Um Ambiente Informacional para a
Lín...
 5 - Avaliação da usabilidade de ambientes...
 6 - Análise da usabilidade de interface de
reposit...
Imagem, fotografia, imagem
Palavras-chave: Imagem. Fotografia. Informação e tecnologia e informação. Intersemioses.
Imagem, fotografia, imagem
Uma proposta de modelo baseado na
Web 2.0
Palavras-chave: Internet. Tecnologia da Informação. Web 2.0. Biblioteca 2.0.
Bibliotecas das Universidades
Federais.
20 x 80 web
similaridade com SN
similaridade - palavras
principais conclusões
 O uso de SN aprimora as medidas de
similaridade.
 Diminuição de falsos positivos. Melhorando a
homogeneidade dos itens do cluster.
referências
 JANSSENS, F.. Clustering of scientific fields by
integrating text Mining and bibliometrics,
Katholieke Universiteit Leuven: Faculteit
Ingenieurswetenschappen. Mei, 2007.
 KOCH, I.V.; SILVA, M.C.P.S.. Lingüística aplicada
ao português: sintaxe. São Paulo, Cortez, 1985.
 KURAMOTO, H.. Sintagmas Nominais: uma nova
proposta para a Recuperação da Informação.
DataGramaZero, v. 3, n. 1, fev. 2002.
referências
 SANTOS SILVA, F.. Personalização de Conteúdo na
TVDI através de um Sistema de Recomendação
Personalizada de Programas deTV (SRPTV).Anais...
III Fórum de Oportunidades emTelevisão Digital
Interativa, Poços de Caldas, 2005.
 SOUZA, R.R.. Uma proposta de metodologia para
escolha automática de descritores utilizando
sintagmas nominais.Tese de Doutorado.
Orientadora Profª. Lidia Alvarenga. ECI: UFMG,
2006.
 SVENONIOUS, E.. Classification theory. March,
1985. 19p
Obrigado!
Contato:
luizmaia@luizmaia.com.br
www.luizmaia.com.br

Mais conteúdo relacionado

Semelhante a Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS

Apresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EADApresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EADienh
 
SKOS: Interoperabilidade de linguagens documentais
SKOS: Interoperabilidade de linguagens documentaisSKOS: Interoperabilidade de linguagens documentais
SKOS: Interoperabilidade de linguagens documentaisFabrício Silva Assumpção
 
AnáLise Da InformaçãO
AnáLise Da InformaçãOAnáLise Da InformaçãO
AnáLise Da InformaçãOlulinha
 
Soft information retrieval / Modelos de recuperação alternativos
Soft information retrieval / Modelos de recuperação alternativosSoft information retrieval / Modelos de recuperação alternativos
Soft information retrieval / Modelos de recuperação alternativosVanessa Biff
 
Arquitetura da Informação: da representação da informação aos usuários
Arquitetura da Informação: da representação da informação aos usuáriosArquitetura da Informação: da representação da informação aos usuários
Arquitetura da Informação: da representação da informação aos usuáriosFernando Vechiato
 
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...Norton Guimarães
 
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Documentar Tecnologia e Informação
 
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Joel S. Coleti
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014WANDERSON JONER
 
Novas possibilidades da pesquisa qualitativa via sistemas caqdas
Novas possibilidades da pesquisa qualitativa via sistemas caqdasNovas possibilidades da pesquisa qualitativa via sistemas caqdas
Novas possibilidades da pesquisa qualitativa via sistemas caqdasRonan Tocafundo
 
Fontes de informação como valor agregado ao Sistema Eletrônico de Revistas (S...
Fontes de informação como valor agregado ao Sistema Eletrônico de Revistas (S...Fontes de informação como valor agregado ao Sistema Eletrônico de Revistas (S...
Fontes de informação como valor agregado ao Sistema Eletrônico de Revistas (S...UFRJ
 
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarBianca Santana
 
Ver
VerVer
Vercsmp
 
Modeloestruturaçaoads
ModeloestruturaçaoadsModeloestruturaçaoads
Modeloestruturaçaoadscsmp
 
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdfSEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdfCarlosMarcondes17
 
Apresentação banca
Apresentação bancaApresentação banca
Apresentação bancaienh
 
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...Paulo Henrique Santini
 
Leitura De Interfaces De Computadores
Leitura De Interfaces De ComputadoresLeitura De Interfaces De Computadores
Leitura De Interfaces De ComputadoresIsrael Degasperi
 

Semelhante a Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS (20)

Apresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EADApresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EAD
 
SKOS: Interoperabilidade de linguagens documentais
SKOS: Interoperabilidade de linguagens documentaisSKOS: Interoperabilidade de linguagens documentais
SKOS: Interoperabilidade de linguagens documentais
 
AnáLise Da InformaçãO
AnáLise Da InformaçãOAnáLise Da InformaçãO
AnáLise Da InformaçãO
 
Soft information retrieval / Modelos de recuperação alternativos
Soft information retrieval / Modelos de recuperação alternativosSoft information retrieval / Modelos de recuperação alternativos
Soft information retrieval / Modelos de recuperação alternativos
 
Arquitetura da Informação: da representação da informação aos usuários
Arquitetura da Informação: da representação da informação aos usuáriosArquitetura da Informação: da representação da informação aos usuários
Arquitetura da Informação: da representação da informação aos usuários
 
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...
 
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
 
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
 
Novas possibilidades da pesquisa qualitativa via sistemas caqdas
Novas possibilidades da pesquisa qualitativa via sistemas caqdasNovas possibilidades da pesquisa qualitativa via sistemas caqdas
Novas possibilidades da pesquisa qualitativa via sistemas caqdas
 
Fontes de informação como valor agregado ao Sistema Eletrônico de Revistas (S...
Fontes de informação como valor agregado ao Sistema Eletrônico de Revistas (S...Fontes de informação como valor agregado ao Sistema Eletrônico de Revistas (S...
Fontes de informação como valor agregado ao Sistema Eletrônico de Revistas (S...
 
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
 
Ver
VerVer
Ver
 
Modeloestruturaçaoads
ModeloestruturaçaoadsModeloestruturaçaoads
Modeloestruturaçaoads
 
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdfSEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
 
Dissertação
Dissertação Dissertação
Dissertação
 
Apresentação banca
Apresentação bancaApresentação banca
Apresentação banca
 
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
 
Leitura De Interfaces De Computadores
Leitura De Interfaces De ComputadoresLeitura De Interfaces De Computadores
Leitura De Interfaces De Computadores
 
Análise de redes por co-ocorrência de palavras-chave: Identificação de possív...
Análise de redes por co-ocorrência de palavras-chave: Identificação de possív...Análise de redes por co-ocorrência de palavras-chave: Identificação de possív...
Análise de redes por co-ocorrência de palavras-chave: Identificação de possív...
 

Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS

  • 1. MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS Prof. Luiz Cláudio Gomes Maia Prof. Renato Rocha Souza Escola de Ciência da Informação, UFMG
  • 2. conteúdo  Tecnologia e aplicação na CI  Medidas de Similaridade  Análise de texto  Extração automática de descritores  Extração dos SN  Classificação dos SN extraídos  Uso de SNs para indicar similaridade
  • 3. medidas de similaridade Aplicáveis a:  Textos  Imagens e fotos  Rostos  Sons  Identificação de música
  • 4. outras aplicações Medidas de similaridade: análise de ligações  Sites de compras  TV Digital  Redes Sociais  Last.fm,Orkut, etc...  Google e PageRank  Análise de citações Fonte: JANSSENS, 2007; SANTOS SILVA, 2005 Fabio Santos Silva em projeto denominado Sistema de Recomendação Personalizada de Programas deTV (SRPTV). Rocchio - 1971 kNN -Yang em 1994
  • 5. clustering  Clustering corresponde as técnicas que permitem subdividir um conjunto de objetos em grupos. O objetivo é fazer que cada grupo (ou cluster) seja o mais homogêneo possível levando em consideração que os objetos do grupo tenham propriedades similares e que os objetos nos outros grupos sejam diferentes. Fonte: JANSSENS, 2007
  • 7. objetivo Comparação similaridade de documentos eletrônicos:  Análise dados (texto)  Análise dos metadados (descritores)
  • 8.  A classificação automática toma como base as propriedades do objeto que se pretende classificar e através delas define a(s) classes(s) a qual pertence.  Ao classificar que um documento é similar a outro é necessário realizar um processo de associação entre estes documentos. Um documento com metadados (incluindo descritores) torna o processo de classificação automática mais eficaz. Fonte: SVENONIOUS, 1985
  • 9. análise de texto  Bag of words  Corpus  Criação dos dicionários  Stopwords  MedidasTF, IDF,TF-IDF  Coseno, Distância Euclidiana  SupportVector Machines (SVM)
  • 10. análise de texto Fonte: JANSSENS, 2007
  • 13. dificuldades  Polissemia: a palavra pode ter vários significados. Exemplo: chave (solução de um problema; ferramenta para abertura de portas; e também ferramenta para apertar parafusos);  Sinonímia: duas palavras podem designar o mesmo significado. Exemplo: abóbora e jerimum;  Duas ou mais palavras podem combinar-se em ordem diferente designando idéias completamente diversas. Exemplo: crimes, juvenis, vítimas (vítimas de crimes juvenis; vítimas juvenis de crimes). Fonte: Guern, 2001; Kuramoto, 2002
  • 14. sintagmas nominais  "conjunto de elementos que constituem uma unidade significativa dentro da oração e que mantêm entre si relações de dependência e de ordem. Organizam-se em torno de um elemento fundamental, denominado núcleo, que pode, por si só, constituir o sintagma."  “é a menor parte do discurso portadora de informação”. Fonte: KOCH & SILVA, 1986; KURAMOTO, 1996
  • 15. De SN para descritores Proposto:  1a - organização  1b - insumos básicos  2 – camada de ozônio  3 - âmbito da representação das atividades econômicas 1a 0,2 1b 0,8 2 1,1 3 1,4 4 1,2 5 0,8 Fonte: Souza, 2005
  • 16. descritores Texto: Quem mexeu no meu queijo? Spencer Johnson  Termos:  que, queijo, não, para, Haw  Termos sem Stopwords  Queijo, Haw, quando, estava, novo  Sintagmas Nominais  Queijo, Haw, a história, o labirinto, mudança  Sintagmas Nominais pontuados  Queijo, Haw, a história do queijo, o labirinto, mudança
  • 17. extração de SN  “O processo de reconhecimento, extração e indexação não automatizada, além de ser inviável economicamente em se tratando de grandes volumes de documentos, pode prejudicar a uniformidade no processo de reconhecimento, extração e indexação dos sintagmas nominais.”  “A inexistência dessas ferramentas impede uma avaliação mais consistente envolvendo amostras de dados com maior volume de documentos. “ Fonte: Kuramoto, 2002
  • 18. extração de SN  Visual Interactive Syntax Learning (VISL), da Universidade de Aarhus na Dinamarca. Parser PALAVRAS Dificuldades: - via web - pago
  • 19. extração de SN  Outros softwares  CorpusTreinamento  Conhecimento de linguagens próprias de programação  Outras línguas
  • 20. ED-CER “o_AR trabalho_SU descreve_VB as_AR Gramáticas_SU Síncronas_AJ de_PR Adjunção_SU de_PR Árvores_SU como_PR formalismo_SU para_PR projeto_SU de_PR um_AR módulo_SU (...) ._PN” Fonte: Miorelli, 2001
  • 22. ogma Construção de um dicionário  475 palavras da gramática  41978 nomes e adjetivos  5000 verbos  verbos conjugados 292.720  Diversas regras e tratamentos realizados no código.
  • 23. ogma
  • 24. extração de SN O novo cálculo das aposentadorias resulta em valores menores do que os atuais para quem perde o benefício com menos tempo de contribuição e idade. SN Extraídos OGMA O novo cálculo de as aposentadorias; valores menores; o benefício com menos tempo de contribuição e idade SN Extraídos no método ED-CER o novo cálculo de as aposentadorias; valores menores-do-que os atuais; o benefício com menos tempo de contribuição e idade SN Extraídos no trabalho deVISL % o novo cálculo de as aposentadorias; % valores menores do que os atuais % o benefício;% menos tempo de contribuição e idade
  • 25. corpus  1 - Imagem, fotografia, imagem  2 - Uma proposta de modelo baseado naWeb 2.0 para...  3 - Arquitetura da Informação para Ambientes Inform...  4 - X-Libras - Um Ambiente Informacional para a Lín...  5 - Avaliação da usabilidade de ambientes...  6 - Análise da usabilidade de interface de reposit...
  • 26. Imagem, fotografia, imagem Palavras-chave: Imagem. Fotografia. Informação e tecnologia e informação. Intersemioses.
  • 28. Uma proposta de modelo baseado na Web 2.0 Palavras-chave: Internet. Tecnologia da Informação. Web 2.0. Biblioteca 2.0. Bibliotecas das Universidades Federais. 20 x 80 web
  • 31. principais conclusões  O uso de SN aprimora as medidas de similaridade.  Diminuição de falsos positivos. Melhorando a homogeneidade dos itens do cluster.
  • 32. referências  JANSSENS, F.. Clustering of scientific fields by integrating text Mining and bibliometrics, Katholieke Universiteit Leuven: Faculteit Ingenieurswetenschappen. Mei, 2007.  KOCH, I.V.; SILVA, M.C.P.S.. Lingüística aplicada ao português: sintaxe. São Paulo, Cortez, 1985.  KURAMOTO, H.. Sintagmas Nominais: uma nova proposta para a Recuperação da Informação. DataGramaZero, v. 3, n. 1, fev. 2002.
  • 33. referências  SANTOS SILVA, F.. Personalização de Conteúdo na TVDI através de um Sistema de Recomendação Personalizada de Programas deTV (SRPTV).Anais... III Fórum de Oportunidades emTelevisão Digital Interativa, Poços de Caldas, 2005.  SOUZA, R.R.. Uma proposta de metodologia para escolha automática de descritores utilizando sintagmas nominais.Tese de Doutorado. Orientadora Profª. Lidia Alvarenga. ECI: UFMG, 2006.  SVENONIOUS, E.. Classification theory. March, 1985. 19p