SlideShare uma empresa Scribd logo
1 de 57
Introduction to Information Retrieval




     Ordenação e Recuperação de Dados

                                        Aula 12:
                                Agrupamento (Clustering)
                                    Alexandre Duarte
                                 alexandre@di.ufpb.br


                                                           1
Agenda
1.   Agrupamento: Introdução

2.   Agrupamento em RI

3.   K-means

4.   Avaliação

5.   Quantos grupos?



                               2
Agenda
1.   Agrupamento: Introdução

2.   Agrupamento em RI

3.   K-means

4.   Avaliação

5.   Quantos grupos?



                               3
Agrupamento: Definição

  Agrupamento é o processo de agrupar um conjunto de
   documentos em subconjuntos de documentos similares.
  Documentos em um subconjunto devem ser similares.
  Documentos de diferentes subconjuntos não devem ser
   similares.
  Agrupamento é a forma mais comum de aprendizagem não-
   supervisionada.
  Não-supervisionada = os dados não possuem qualquer tipo
   de anotação.


                                                         4
Conjunto de dados com uma estrutura de
grupos clara

                              Proponha um
                              algoritmo para
                              encontrar os
                              subconjuntos
                              nesse exemplo




                                               5
Classificação vs. Agrupamento
  Classificação: aprendizagem supervisionada
  Agrupamento: aprendizagem não-supervisionada
  Classificação: as classes são definidas por humanos e são
   parte da entrada do algoritmo de aprendizagem.
  Agrupamento: os grupos são inferidos a partir dos dados sem
   intervenção humana.
     No entanto, existem muitas maneiras de influenciar o
      resultado de um agrupamento: número de grupos, medida de
      similaridade, representação dos documentos, ...



                                                             6
Agenda
1.   Agrupamento: Introdução

2.   Agrupamento em RI

3.   K-means

4.   Avaliação

5.   Quantos grupos?



                               7
A hipótese do agrupamento

 Documentos em um mesmo grupo tem comportamento
 semelhante em relação a relevância para uma necessidade de
 informação. Todas as aplicações para agrupamento em RI são
 baseadas (de forma direta ou indireta) nesta hipótese.

 Proposição original (Van Rijsbergen) “documentos fortemente
 relacionados tendem a ser relevantes para as mesmas consultas”.




                                                              8
Aplicação de agrupamento em RI
Aplicação             O que é agrupado?    Benefício

Agrupamento de        Resultados e busca   Apresentação mais
resultados de busca                        efetiva dos resultados
                                           ao usuário
Agrupamento de        coleção              Apresentação efetiva
coleção                                    da informação para
                                           navegação exploratória
Recuperação baseada   coleção              Maior eficiência:
em grupos                                  Buscas mais rápidas



                                                                 9
Agrupamento de resultados de busca para
melhor navegação




                                          10
Agrupamento para melhorar o recall
     Para melhorar o recall de uma busca:
        Agrupar os documentos de uma coleção a priori
        Quando uma consulta casa com um documento d, retornar
         também outros documentos no grupo que contém d
     Esperança: ao fazer isso uma consulta por “carro” retornaria
      também documentos contendo “automóvel”
        O algoritmo de agrupamento colocaria documentos contendo
         “carro” e “automóvel” no mesmo grupo.
        Os dois tipos de documentos conteriam palavras semelhantes
         como “peça”, “concessionária”, “mercedes”, “viagem”.


                                                                11
Conjunto de dados com uma estrutura de
grupos clara

                              Proponha um
                              algoritmo para
                              encontrar os
                              subconjuntos
                              nesse exemplo




                                               12
Objetivos do agrupamento
    Objetivo geral: colocar documentos relacionados em um
     mesmo grupo, colocar documentos não-relacionados em
     grupos diferentes.
       Como formalizamos isso?
    O número de grupos deve ser apropriado para os dados que
     serão agrupados.
       Inicialmente, assumimos que o número de grupos K é
        fornecido.
       Mais tarde: Métodos semiautomáticos para determinar K
    Objetivos secundários
       Evitar grupos muito pequenos ou muito grandes
       Definir grupos que sejam fáceis de explicar ao usuário
                                                                 13
Agrupamento Plano vs. Hierárquico
     Algoritmos planos
        Geralmente iniciam como um particionamento aleatório dos
         documentos em grupos
        Refinamentos iterativos
        Objetivo principal: K-means
     Algoritmos Hierárquicos
        Criar uma hierarquia
        Bottom-up, aglomerativo
        Top-down, divisível



                                                               14
Agrupamento Hard vs. Soft

     Agrupamento Hard: cada documento pertence a exatamente
      um grupo.
        Mais comum e fácil de fazer
     Agrupamento Soft: um documento pode pertencer a mais de
      um grupo.
        Faz mais sentido para aplicações que desejam criar hierarquias
         navegáveis
        Você pode desejar colocar tênis em dois grupos:
            Equipamentos esportivos
            Calçados
     Veremos apenas agrupamentos hard e planos nessa aula.

                                                                   15
Algoritmos planos
     Algoritmos planos particionam N documentos em um
      conjunto de K grupos.
     Dados: um conjunto de documentos e um número K
     Encontrar: uma partição em K grupos que otimize algum
      critério de particionamento
     Otimização global: enumerar exaustivamente todas as
      partições, escolher a ótima
        Intratável
     Heurística efetiva: algoritmo K-means


                                                              16
Agenda
1.   Agrupamento: Introdução

2.   Agrupamento em RI

3.   K-means

4.   Avaliação

5.   Quantos grupos?



                               17
K-means


    Provavelmente o algoritmo de agrupamento mais
     conhecido
    Simples, funciona em vários casos
    Usado como padrão para agrupamento de documentos




                                                        18
Representação de documentos para
agrupamento


    Modelo de espaço vetorial
    Como na classificação em espaço vetorial, medimos o
     relacionamento entre dois vetores pela sua Distância
     euclidiana . . .
    . . .que é praticamente equivalente a similaridade do
     cosseno.
    Quase: centroides não são normalizados.



                                                             19
K-means
    Cada grupo no K-means é definido por um centroide.
    Objetivo/critério de particionamento: minimizar a média
     dos quadrados das diferenças em relação ao centroide
    Relembrando a definição de centroide:



   Onde usamos o ω para identificar um grupo.
    Tentamos encontrar o valor mínimo para a médias dos
     quadrados das diferenças iterando em dois passos:
       redistribuição: atribuir cada vetor ao grupo com centroide
        mais próximo
       recomputação: recalcular cada centroide como a média dos
        vetores atribuídos ao grupo após a redistribuição          20
Algoritmo K-means




                    21
Exemplo: Conjunto para ser agrupado




                                      22
Exemplo: Seleção inicial aleatória dos centroides




                                                    23
Exemplo: Atribuir os pontos aos centroides mais
próximos




                                                  24
Exemplo: Atribuição




                      25
Exemplo: Recalcular os centroides




                                    26
Exemplo: Atribuir os pontos aos centroides mais
próximos




                                                  27
Exemplo: Atribuição




                      28
Exemplo: Recalcular os centroides




                                    29
Exemplo: Atribuir os pontos aos centroides mais
próximos




                                                  30
Exemplo: Atribuição




                      31
Exemplo: Recalcular os centroides




                                    32
Exemplo: Atribuir os pontos aos centroides mais
próximos




                                                  33
Exemplo: Atribuição




                      34
Exemplo: Recalcular os centroides




                                    35
Exemplo: Atribuir os pontos aos centroides mais
próximos




                                                  36
Exemplo: Atribuição




                      37
Exemplo: Recalcular os centroides




                                    38
Exemplo: Atribuir os pontos aos centroides mais
próximos




                                                  39
Exemplo: Atribuição




                      40
Exemplo: Recalcular os centroides




                                    41
Exemplo: Atribuir os pontos aos centroides mais
próximos




                                                  42
Exemplo: Atribuição




                      43
Exemplo: Recalcular os centroides




                                    44
Exemplo: Centroides e atribuições após a
convergência




                                           45
K-means sempre converge


   Mas não sabemos quanto tempo isso vai levar!
   Se não ligarmos para alguns documentos indo e vindo, a
    convergência pode ser obtida rapidamente (< 10-20
    iterações).
   No entanto, convergência completa pode levar muito mais
    iterações.




                                                              46
Otimalidade do K-means


   Convergir não significa encontrar a distribuição ótima!
   Esta é a grade fraqueza do K-means.
   Se iniciarmos com um conjunto ruim de centroides o
    resultado do agrupamento pode ser horrível.




                                                              47
Exercício: Agrupamento sub-ótimo




   Qual seria o agrupamento ótimo K = 2?
   Convergimos para este agrupamento com qualquer par de
    raízes arbitrárias di , dj?
                                                            48
Inicialização do K-means

   Sementes escolhidas aleatoriamente é apenas uma das
    várias formas de inicializar o K-means.
   Seleção aleatória não é muito robusta: é muito fácil
    conseguir um agrupamento sub-ótimo.
   Melhores formas de escolher os centroides iniciais:
      Selecionar as sementes utilizando alguma heurística
      Selecionar i (ex., i = 10) diferentes raízes
       aleatoriamente, executar o agrupamento K-means para cada
       um, selecionar o agrupamento com a menor média do
       quadrado das distâncias

                                                              49
Agenda
1.   Agrupamento: Introdução

2.   Agrupamento em RI

3.   K-means

4.   Avaliação

5.   Quantos grupos?



                               50
O que é um bom agrupamento?

  Critério interno
     Exemplo de critério interno: média do quadrado das distâncias
      no K-means
  Porém, um critério interno muitas vezes não avalia a
   utilidade do agrupamento para uma aplicação.
  Alternativa: Critério externo
     Avaliar de acordo com um critério definido por humanos




                                                                 51
Critério externo para qualidade de
agrupamento
   Baseado em algum padrão amplamente adotado, ex. A
    coleção da Reuters
   Objetivo: O agrupamento deve reproduzir a classes definidas
    no padrão
   (Queremos apenas reproduzir a forma como os documentos
    são distribuídos em grupos, não os nomes das classes)
   Exemplo medida de quão bem conseguimos reproduzir as
    classes: pureza




                                                             52
Critério externo: Pureza




   Ω= {ω1, ω2, . . . , ωK} é o conjunte de grupos e
    C = {c1, c2, . . . , cJ} é o conjunto de classes
   Para cada grupo ωk : encontrar a cj com mais membros nkj em
    ωk
   Somar todos os nkj e dividir pelo número total de pontos

                                                             53
Exemplo do cálculo de pureza




Para calcular a pureza: 5 = maxj |ω1 ∩ cj | (classe x, grupo 1);
4 = maxj |ω2 ∩ cj | (classe o, grupo 2); e 3 = maxj |ω3 ∩ cj |
(classe ⋄, grupo 3). Pureza é (1/17) × (5 + 4 + 3) ≈ 0.71.


                                                                   54
Agenda
1.   Agrupamento: Introdução

2.   Agrupamento em RI

3.   K-means

4.   Avaliação

5.   Quantos grupos?



                               55
Quantos grupos?


   O número de grupos K é dado em muitas aplicações.
   Mas e quando isso não acontece? Há um número bom ou
    ruim para a quantidade de grupos?
   Uma forma de agir: definir um critério de otimização
      Dados os documentos, encontrar o K para o qual o valor ótimo
       é obtido
      Que critérios de otimização podemos usar?
      Não podemos utilizar a média dos quadrados das distâncias do
       centroide como critério: o valor ótimo sempre seria fazer K = N.


                                                                    56
Função objetivo simples para K


  Ideia básica:
     Começar com 1 grupo (K = 1)
     Continue adicionando grupos (= continue a aumentar K)
     Adicione uma penalidade para cada novo grupo
  Balancear a penalidade da adição de novos grupos e a média
   dos quadrados das distâncias em relação aos centroides
  Escolher o valor K com o melhor tradeoff



                                                              57

Mais conteúdo relacionado

Destaque

Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaLuís Nunes
 
Otimização do Portfólio de Projetos - Prof. Wankes Leandro
Otimização do Portfólio de Projetos - Prof. Wankes LeandroOtimização do Portfólio de Projetos - Prof. Wankes Leandro
Otimização do Portfólio de Projetos - Prof. Wankes LeandroWankes Leandro
 
Mat 140 questoes resolvidas vol iii
Mat 140 questoes resolvidas vol iiiMat 140 questoes resolvidas vol iii
Mat 140 questoes resolvidas vol iiitrigono_metrico
 

Destaque (6)

Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-Supervisionada
 
Otimização do Portfólio de Projetos - Prof. Wankes Leandro
Otimização do Portfólio de Projetos - Prof. Wankes LeandroOtimização do Portfólio de Projetos - Prof. Wankes Leandro
Otimização do Portfólio de Projetos - Prof. Wankes Leandro
 
Painel 01 03 - leonardo teles - Projeto CNAE: Algoritmo para classificação ...
Painel 01   03 - leonardo teles - Projeto CNAE: Algoritmo para classificação ...Painel 01   03 - leonardo teles - Projeto CNAE: Algoritmo para classificação ...
Painel 01 03 - leonardo teles - Projeto CNAE: Algoritmo para classificação ...
 
Gestão de Projetos - Prof. João Frederico Gonzales
Gestão de Projetos - Prof. João Frederico GonzalesGestão de Projetos - Prof. João Frederico Gonzales
Gestão de Projetos - Prof. João Frederico Gonzales
 
K means Clustering Algorithm
K means Clustering AlgorithmK means Clustering Algorithm
K means Clustering Algorithm
 
Mat 140 questoes resolvidas vol iii
Mat 140 questoes resolvidas vol iiiMat 140 questoes resolvidas vol iii
Mat 140 questoes resolvidas vol iii
 

Semelhante a K-means Clustering Explained

Análise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoAnálise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoVitor Vieira Vasconcelos
 
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentosEspaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentosRoberto de Pinho
 
Classficação de Texto e Naive Bayes
Classficação de Texto e Naive BayesClassficação de Texto e Naive Bayes
Classficação de Texto e Naive BayesAlexandre Duarte
 
Análise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no GeodaAnálise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no GeodaVitor Vieira Vasconcelos
 
Sessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesSessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesJoaquimOliveiraBapti1
 
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdfDavidLarronda1
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupEloGroup
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicasMarcos Castro
 
Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automáticabutest
 
Analise Exploratoria Card Sorting
Analise Exploratoria Card SortingAnalise Exploratoria Card Sorting
Analise Exploratoria Card SortingLuiz Agner
 
Feedback de relevância e expansão de consulta
Feedback de relevância e expansão de consultaFeedback de relevância e expansão de consulta
Feedback de relevância e expansão de consultaAlexandre Duarte
 
Redes Bayesianas para Recuperação de Informação Estruturada
Redes Bayesianas para Recuperação de Informação EstruturadaRedes Bayesianas para Recuperação de Informação Estruturada
Redes Bayesianas para Recuperação de Informação EstruturadaAdolfo Neto
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clusteringiaudesc
 

Semelhante a K-means Clustering Explained (20)

Análise de Agrupamentos (Clusters)
Análise de Agrupamentos (Clusters)Análise de Agrupamentos (Clusters)
Análise de Agrupamentos (Clusters)
 
Análise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoAnálise de Agrupamentos e Regionalização
Análise de Agrupamentos e Regionalização
 
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentosEspaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
 
Classficação de Texto e Naive Bayes
Classficação de Texto e Naive BayesClassficação de Texto e Naive Bayes
Classficação de Texto e Naive Bayes
 
Análise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no GeodaAnálise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no Geoda
 
Cálculo de Score
Cálculo de ScoreCálculo de Score
Cálculo de Score
 
Sessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesSessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessões
 
ID3 Algorithm
ID3 AlgorithmID3 Algorithm
ID3 Algorithm
 
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroup
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicas
 
kNN Algorithm
kNN AlgorithmkNN Algorithm
kNN Algorithm
 
Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automática
 
Analise Exploratoria Card Sorting
Analise Exploratoria Card SortingAnalise Exploratoria Card Sorting
Analise Exploratoria Card Sorting
 
Feedback de relevância e expansão de consulta
Feedback de relevância e expansão de consultaFeedback de relevância e expansão de consulta
Feedback de relevância e expansão de consulta
 
Trabalho e agrupamento.pdf
Trabalho e agrupamento.pdfTrabalho e agrupamento.pdf
Trabalho e agrupamento.pdf
 
Trabalho e agrupamento.pdf
Trabalho e agrupamento.pdfTrabalho e agrupamento.pdf
Trabalho e agrupamento.pdf
 
Trabalho e agrupamento.pdf
Trabalho e agrupamento.pdfTrabalho e agrupamento.pdf
Trabalho e agrupamento.pdf
 
Redes Bayesianas para Recuperação de Informação Estruturada
Redes Bayesianas para Recuperação de Informação EstruturadaRedes Bayesianas para Recuperação de Informação Estruturada
Redes Bayesianas para Recuperação de Informação Estruturada
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clustering
 

Mais de Alexandre Duarte

Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosAlexandre Duarte
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Alexandre Duarte
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaAlexandre Duarte
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como CiênciaAlexandre Duarte
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: IntroduçãoAlexandre Duarte
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerAlexandre Duarte
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBAlexandre Duarte
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisAlexandre Duarte
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e ClassificaçãoAlexandre Duarte
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2DAlexandre Duarte
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1DAlexandre Duarte
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosAlexandre Duarte
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de SurveysAlexandre Duarte
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosAlexandre Duarte
 

Mais de Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de Dados
 

Último

Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfHELENO FAVACHO
 
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de..."É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...Rosalina Simão Nunes
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...IsabelPereira2010
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxLuizHenriquedeAlmeid6
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãIlda Bicacro
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfLeloIurk1
 
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfPRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfprofesfrancleite
 
CRUZADINHA - Leitura e escrita dos números
CRUZADINHA   -   Leitura e escrita dos números CRUZADINHA   -   Leitura e escrita dos números
CRUZADINHA - Leitura e escrita dos números Mary Alvarenga
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
Atividade - Letra da música Esperando na Janela.
Atividade -  Letra da música Esperando na Janela.Atividade -  Letra da música Esperando na Janela.
Atividade - Letra da música Esperando na Janela.Mary Alvarenga
 
Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)ElliotFerreira
 
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdfLeloIurk1
 
Historia da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfHistoria da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfEmanuel Pio
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médiorosenilrucks
 
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteVanessaCavalcante37
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfFrancisco Márcio Bezerra Oliveira
 
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇJaineCarolaineLima
 
Discurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxDiscurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxferreirapriscilla84
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecniCleidianeCarvalhoPer
 

Último (20)

Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
 
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de..."É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! Sertã
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
 
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfPRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
 
CRUZADINHA - Leitura e escrita dos números
CRUZADINHA   -   Leitura e escrita dos números CRUZADINHA   -   Leitura e escrita dos números
CRUZADINHA - Leitura e escrita dos números
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
Atividade - Letra da música Esperando na Janela.
Atividade -  Letra da música Esperando na Janela.Atividade -  Letra da música Esperando na Janela.
Atividade - Letra da música Esperando na Janela.
 
Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)
 
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
 
Historia da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfHistoria da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdf
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médio
 
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
 
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
 
Discurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxDiscurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptx
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
 

K-means Clustering Explained

  • 1. Introduction to Information Retrieval Ordenação e Recuperação de Dados Aula 12: Agrupamento (Clustering) Alexandre Duarte alexandre@di.ufpb.br 1
  • 2. Agenda 1. Agrupamento: Introdução 2. Agrupamento em RI 3. K-means 4. Avaliação 5. Quantos grupos? 2
  • 3. Agenda 1. Agrupamento: Introdução 2. Agrupamento em RI 3. K-means 4. Avaliação 5. Quantos grupos? 3
  • 4. Agrupamento: Definição  Agrupamento é o processo de agrupar um conjunto de documentos em subconjuntos de documentos similares.  Documentos em um subconjunto devem ser similares.  Documentos de diferentes subconjuntos não devem ser similares.  Agrupamento é a forma mais comum de aprendizagem não- supervisionada.  Não-supervisionada = os dados não possuem qualquer tipo de anotação. 4
  • 5. Conjunto de dados com uma estrutura de grupos clara Proponha um algoritmo para encontrar os subconjuntos nesse exemplo 5
  • 6. Classificação vs. Agrupamento  Classificação: aprendizagem supervisionada  Agrupamento: aprendizagem não-supervisionada  Classificação: as classes são definidas por humanos e são parte da entrada do algoritmo de aprendizagem.  Agrupamento: os grupos são inferidos a partir dos dados sem intervenção humana.  No entanto, existem muitas maneiras de influenciar o resultado de um agrupamento: número de grupos, medida de similaridade, representação dos documentos, ... 6
  • 7. Agenda 1. Agrupamento: Introdução 2. Agrupamento em RI 3. K-means 4. Avaliação 5. Quantos grupos? 7
  • 8. A hipótese do agrupamento Documentos em um mesmo grupo tem comportamento semelhante em relação a relevância para uma necessidade de informação. Todas as aplicações para agrupamento em RI são baseadas (de forma direta ou indireta) nesta hipótese. Proposição original (Van Rijsbergen) “documentos fortemente relacionados tendem a ser relevantes para as mesmas consultas”. 8
  • 9. Aplicação de agrupamento em RI Aplicação O que é agrupado? Benefício Agrupamento de Resultados e busca Apresentação mais resultados de busca efetiva dos resultados ao usuário Agrupamento de coleção Apresentação efetiva coleção da informação para navegação exploratória Recuperação baseada coleção Maior eficiência: em grupos Buscas mais rápidas 9
  • 10. Agrupamento de resultados de busca para melhor navegação 10
  • 11. Agrupamento para melhorar o recall  Para melhorar o recall de uma busca:  Agrupar os documentos de uma coleção a priori  Quando uma consulta casa com um documento d, retornar também outros documentos no grupo que contém d  Esperança: ao fazer isso uma consulta por “carro” retornaria também documentos contendo “automóvel”  O algoritmo de agrupamento colocaria documentos contendo “carro” e “automóvel” no mesmo grupo.  Os dois tipos de documentos conteriam palavras semelhantes como “peça”, “concessionária”, “mercedes”, “viagem”. 11
  • 12. Conjunto de dados com uma estrutura de grupos clara Proponha um algoritmo para encontrar os subconjuntos nesse exemplo 12
  • 13. Objetivos do agrupamento  Objetivo geral: colocar documentos relacionados em um mesmo grupo, colocar documentos não-relacionados em grupos diferentes.  Como formalizamos isso?  O número de grupos deve ser apropriado para os dados que serão agrupados.  Inicialmente, assumimos que o número de grupos K é fornecido.  Mais tarde: Métodos semiautomáticos para determinar K  Objetivos secundários  Evitar grupos muito pequenos ou muito grandes  Definir grupos que sejam fáceis de explicar ao usuário 13
  • 14. Agrupamento Plano vs. Hierárquico  Algoritmos planos  Geralmente iniciam como um particionamento aleatório dos documentos em grupos  Refinamentos iterativos  Objetivo principal: K-means  Algoritmos Hierárquicos  Criar uma hierarquia  Bottom-up, aglomerativo  Top-down, divisível 14
  • 15. Agrupamento Hard vs. Soft  Agrupamento Hard: cada documento pertence a exatamente um grupo.  Mais comum e fácil de fazer  Agrupamento Soft: um documento pode pertencer a mais de um grupo.  Faz mais sentido para aplicações que desejam criar hierarquias navegáveis  Você pode desejar colocar tênis em dois grupos:  Equipamentos esportivos  Calçados  Veremos apenas agrupamentos hard e planos nessa aula. 15
  • 16. Algoritmos planos  Algoritmos planos particionam N documentos em um conjunto de K grupos.  Dados: um conjunto de documentos e um número K  Encontrar: uma partição em K grupos que otimize algum critério de particionamento  Otimização global: enumerar exaustivamente todas as partições, escolher a ótima  Intratável  Heurística efetiva: algoritmo K-means 16
  • 17. Agenda 1. Agrupamento: Introdução 2. Agrupamento em RI 3. K-means 4. Avaliação 5. Quantos grupos? 17
  • 18. K-means  Provavelmente o algoritmo de agrupamento mais conhecido  Simples, funciona em vários casos  Usado como padrão para agrupamento de documentos 18
  • 19. Representação de documentos para agrupamento  Modelo de espaço vetorial  Como na classificação em espaço vetorial, medimos o relacionamento entre dois vetores pela sua Distância euclidiana . . .  . . .que é praticamente equivalente a similaridade do cosseno.  Quase: centroides não são normalizados. 19
  • 20. K-means  Cada grupo no K-means é definido por um centroide.  Objetivo/critério de particionamento: minimizar a média dos quadrados das diferenças em relação ao centroide  Relembrando a definição de centroide: Onde usamos o ω para identificar um grupo.  Tentamos encontrar o valor mínimo para a médias dos quadrados das diferenças iterando em dois passos:  redistribuição: atribuir cada vetor ao grupo com centroide mais próximo  recomputação: recalcular cada centroide como a média dos vetores atribuídos ao grupo após a redistribuição 20
  • 22. Exemplo: Conjunto para ser agrupado 22
  • 23. Exemplo: Seleção inicial aleatória dos centroides 23
  • 24. Exemplo: Atribuir os pontos aos centroides mais próximos 24
  • 26. Exemplo: Recalcular os centroides 26
  • 27. Exemplo: Atribuir os pontos aos centroides mais próximos 27
  • 29. Exemplo: Recalcular os centroides 29
  • 30. Exemplo: Atribuir os pontos aos centroides mais próximos 30
  • 32. Exemplo: Recalcular os centroides 32
  • 33. Exemplo: Atribuir os pontos aos centroides mais próximos 33
  • 35. Exemplo: Recalcular os centroides 35
  • 36. Exemplo: Atribuir os pontos aos centroides mais próximos 36
  • 38. Exemplo: Recalcular os centroides 38
  • 39. Exemplo: Atribuir os pontos aos centroides mais próximos 39
  • 41. Exemplo: Recalcular os centroides 41
  • 42. Exemplo: Atribuir os pontos aos centroides mais próximos 42
  • 44. Exemplo: Recalcular os centroides 44
  • 45. Exemplo: Centroides e atribuições após a convergência 45
  • 46. K-means sempre converge  Mas não sabemos quanto tempo isso vai levar!  Se não ligarmos para alguns documentos indo e vindo, a convergência pode ser obtida rapidamente (< 10-20 iterações).  No entanto, convergência completa pode levar muito mais iterações. 46
  • 47. Otimalidade do K-means  Convergir não significa encontrar a distribuição ótima!  Esta é a grade fraqueza do K-means.  Se iniciarmos com um conjunto ruim de centroides o resultado do agrupamento pode ser horrível. 47
  • 48. Exercício: Agrupamento sub-ótimo  Qual seria o agrupamento ótimo K = 2?  Convergimos para este agrupamento com qualquer par de raízes arbitrárias di , dj? 48
  • 49. Inicialização do K-means  Sementes escolhidas aleatoriamente é apenas uma das várias formas de inicializar o K-means.  Seleção aleatória não é muito robusta: é muito fácil conseguir um agrupamento sub-ótimo.  Melhores formas de escolher os centroides iniciais:  Selecionar as sementes utilizando alguma heurística  Selecionar i (ex., i = 10) diferentes raízes aleatoriamente, executar o agrupamento K-means para cada um, selecionar o agrupamento com a menor média do quadrado das distâncias 49
  • 50. Agenda 1. Agrupamento: Introdução 2. Agrupamento em RI 3. K-means 4. Avaliação 5. Quantos grupos? 50
  • 51. O que é um bom agrupamento?  Critério interno  Exemplo de critério interno: média do quadrado das distâncias no K-means  Porém, um critério interno muitas vezes não avalia a utilidade do agrupamento para uma aplicação.  Alternativa: Critério externo  Avaliar de acordo com um critério definido por humanos 51
  • 52. Critério externo para qualidade de agrupamento  Baseado em algum padrão amplamente adotado, ex. A coleção da Reuters  Objetivo: O agrupamento deve reproduzir a classes definidas no padrão  (Queremos apenas reproduzir a forma como os documentos são distribuídos em grupos, não os nomes das classes)  Exemplo medida de quão bem conseguimos reproduzir as classes: pureza 52
  • 53. Critério externo: Pureza  Ω= {ω1, ω2, . . . , ωK} é o conjunte de grupos e C = {c1, c2, . . . , cJ} é o conjunto de classes  Para cada grupo ωk : encontrar a cj com mais membros nkj em ωk  Somar todos os nkj e dividir pelo número total de pontos 53
  • 54. Exemplo do cálculo de pureza Para calcular a pureza: 5 = maxj |ω1 ∩ cj | (classe x, grupo 1); 4 = maxj |ω2 ∩ cj | (classe o, grupo 2); e 3 = maxj |ω3 ∩ cj | (classe ⋄, grupo 3). Pureza é (1/17) × (5 + 4 + 3) ≈ 0.71. 54
  • 55. Agenda 1. Agrupamento: Introdução 2. Agrupamento em RI 3. K-means 4. Avaliação 5. Quantos grupos? 55
  • 56. Quantos grupos?  O número de grupos K é dado em muitas aplicações.  Mas e quando isso não acontece? Há um número bom ou ruim para a quantidade de grupos?  Uma forma de agir: definir um critério de otimização  Dados os documentos, encontrar o K para o qual o valor ótimo é obtido  Que critérios de otimização podemos usar?  Não podemos utilizar a média dos quadrados das distâncias do centroide como critério: o valor ótimo sempre seria fazer K = N. 56
  • 57. Função objetivo simples para K  Ideia básica:  Começar com 1 grupo (K = 1)  Continue adicionando grupos (= continue a aumentar K)  Adicione uma penalidade para cada novo grupo  Balancear a penalidade da adição de novos grupos e a média dos quadrados das distâncias em relação aos centroides  Escolher o valor K com o melhor tradeoff 57