[1] O documento apresenta uma análise de agrupamentos de parâmetros morfométricos de galáxias para classificação automática.
[2] Foram utilizados algoritmos de agrupamento como K-médias e EM para identificar padrões naturais de agrupamento das galáxias com base em parâmetros morfológicos.
[3] Os resultados dos agrupamentos foram comparados com a classificação visual realizada por especialistas para avaliar a capacidade dos métodos de agrupamento em classificar automaticamente as galáxias.
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
Clustering de parâmetros morfométricos para classificação de galáxias
1. Análise de Agrupamentos de Parâmetros Morfométricos
para Classificação de Galáxias
Vanessa de Oliveira Gil
Orientador: Prof. Dr. Fabricio Ferrari
Universidade Federal de Santa Maria
vanessa.gil@furg.br
13 de maio de 2015
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 1 / 52
2. Sumário
1 Motivação
2 Justificativa
3 Objetivos
4 Morfologia de Galáxias
Sistema CASGM
5 Análise de Agrupamentos
6 Resultados
Agrupamentos do Catálogo EFIGI
Agrupamentos do Catálogo EFIGI: 2a Parte
Comparação entre os Agrupamentos e a Classificação Visual
7 Considerações Finais e Perspectivas Futuras
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 2 / 52
3. Motivação
Motivação
A classificação de galáxias é uma importante etapa para compreender suas
características e seus processos de formação e evolução, contudo a inspeção
ainda é realizada visualmente e individualmente para cada imagem.
Com o surgimento de grandes catálogos astronômicos com milhões de
objetos essa abordagem torna-se impraticável. Por isso, é imprescindível a
quantificação morfológica para possibilitar a automatização dessa
classificação.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 3 / 52
4. Justificativa
Justificativa
Ineficiência para classificar galáxias presentes em grandes catálogos
astronômicos.
A classificação humana realizada por um especialista é subjetiva
devido à multiplicidade de critérios.
A automatização possibilita entender como as galáxias evoluem
morfologicamente, quando surgem suas diferentes estruturas e o que
podemos inferir do seu estado dinâmico a partir disso.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 4 / 52
5. Objetivos
Objetivos
Explorar bases de dados astronômicos com parâmetros morfométricos
de galáxias por meio de algoritmos de agrupamento para identificar
padrões naturais de agrupamento como etapa anterior à classificação
de galáxias.
Comparar a classificação realizada por um especialista com os
agrupamentos provenientes do K-médias e do EM.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 5 / 52
6. Morfologia de Galáxias
Morfologia de Galáxias
Figura : Morfologia de galáxias. Fonte: Ferreira(2015)
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 6 / 52
7. Morfologia de Galáxias
Classificação Morfológica de Galáxias
Figura : Diagrama de Hubble. Fonte: Hubble, 1936.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 7 / 52
8. Morfologia de Galáxias
Morfometria de Galáxias
Medidas quantitativas de estruturas morfológicas das galáxias.
Sistema CASGM + Espiralidade, entropia, índice de sérsic e razão
entre eixos.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 8 / 52
9. Morfologia de Galáxias
Índice de Sérsic (n)
O perfil de Sérsic (Sérsic, 1963) é uma função que descreve como a
intensidade luminosa (I) da galáxia varia de acordo com a distâcia do seu
centro (R). Esse perfil é uma generalização da Lei de de Vaucouleurs.
ln(I(R)) = ln Io − kR
1
n (1)
em que I0 é a intensidade luminosa em R = 0. O parâmetro n é o índice de
Sérsic que controla o grau de curvatura do perfil.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 9 / 52
10. Morfologia de Galáxias Sistema CASGM
Sistema CASGM
Medidas não paramétricas da morfologia das galáxias não assumem
uma função analítica particular para a distribuição de luminosidade das
galáxias, sendo assim são aplicáveis à todos os tipos de galáxias.
Abraham (1996), Concelice (2000) e Concelice (2003).
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 10 / 52
11. Morfologia de Galáxias Sistema CASGM
Concentração, Assimetria e Suavidade
Figura : Fonte: Conselice, 2003.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 11 / 52
12. Morfologia de Galáxias Sistema CASGM
Coeficiente de Gini (G)
Refere-se a luz distribuída uniformemente no interior da galáxia que não
depende de qualquer centro particular.
G =
1
|Xn|n(n − 1)
N
i=1
(2i − n − 1)|Xi | (2)
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 12 / 52
13. Morfologia de Galáxias Sistema CASGM
Coeficiente de Gini (G)
Figura : Curva de Lorenz: o coeficiente de Gini é a área entre a curva de Lorenz
dos pixels da galáxias e de distribuição equitativa (região sombreada). Essa curva
pertence à galáxia NGC 4526 com G = 0.59. Fonte: Lotz, 2004.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 13 / 52
14. Morfologia de Galáxias Sistema CASGM
Índice σΨ
Mede a quantidade de estruturas não radiais nas galáxias, em especial
braços espirais e barras (Ferrari et al. 2015).
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 14 / 52
15. Morfologia de Galáxias Sistema CASGM
Entropia (H) e Razão entre Eixos
A entropia (H) mede a incerteza de uma variável aleatória. A entropia
de uma variável aleatória discreta X é definida por
H(X) = −
n
i=1
pi log pi (3)
em que pi indica a probabilidade de evento da distribuição de
probabilidade de uma variável aleatória discreta.
A razão entre eixos (q) contempla a razão entre os semi-eixos maior e
menor das galáxias.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 15 / 52
16. Morfologia de Galáxias Sistema CASGM
Morfometryka
Figura : Medições dos parâmetros morfométricos das galáxias PGC212, PGC213
e PGC243. Fonte: Ferrari et al., 2015
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 16 / 52
18. Morfologia de Galáxias Sistema CASGM
EFIGI
Rootname n q C1 A1 S1 G σΨ
PGC000212 1.2 0.33 3.07 0.27 0.2 0.77 0.19
PGC000218 2.03 0.76 3.92 0.13 0.14 0.76 0.27
PGC000243 5.36 0.95 4.32 0.49 0.32 0.76 0.15
Tabela : Amostra dos parâmetros presentes no catálogo EFIGI. (Baillard et al.
2011)
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 18 / 52
19. Morfologia de Galáxias Sistema CASGM
Análise de Agrupamentos
Extração de conhecimento sem utilizar informações das classes dos objetos.
Busca organizar um conjunto de objetos em grupos de acordo com medidas
de similaridade e dissimilaridade.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 19 / 52
20. Morfologia de Galáxias Sistema CASGM
Análise de Agrupamentos
Figura : Processo de Agrupamento. Fonte: Naldi, M. 2011.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 20 / 52
21. Morfologia de Galáxias Sistema CASGM
O que é um bom agrupamento?
Um bom método de agrupamento fornece grupos de alta qualidade
com:
Alta similaridade intra-grupo;
Baixa similaridade inter-grupo.
A qualidade do resultado de um agrupamento depende tanto da
medida de similaridade usada pelo método como da sua
implementação.
A qualidade de um método de agrupamento é também medida pela
sua habilidade para descobrir os padrões escondidos.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 21 / 52
22. Morfologia de Galáxias Sistema CASGM
Funcionamento do Algoritmo K-médias
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 22 / 52
23. Morfologia de Galáxias Sistema CASGM
Algoritmo de Maximização de Expectativa
O algoritmo é aplicado em situações onde se deseja estimar um
conjunto de parâmetros que descreve uma distribuição de
probabilidade, ou seja, estima a média amostral e sua variância.
Aplicado em aprendizado não-supervisionado - agrupamento e mistura
de densidades.
Tem como objetivo estimar o número de populações na amostra onde
cada população representa uma distância de probabilidade.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 23 / 52
24. Morfologia de Galáxias Sistema CASGM
Funcionamento do Algoritmo EM
Figura : Expectation Maximization, MURPHY, K., 2002.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 24 / 52
25. Morfologia de Galáxias Sistema CASGM
Método de Validação: Silhouette
A largura da silhueta avalia a qualidade de uma solução do agrupamento,
considerando tanto a compacidade e a separação.
s(i) =
bi − wi
max (bi , wi )
(4)
com
bi = min
k
(Bi,k) (5)
em que wi é a distância média do i-ésimo ponto até os outros pontos de
um mesmo cluster e B(i,k) é a distância média do i-ésimo ponto até os
pontos de outro cluster k.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 25 / 52
26. Morfologia de Galáxias Sistema CASGM
Matriz de confusão
Figura : Matriz de confusão. Fonte: Souza, 2009.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 26 / 52
27. Resultados
Acurácia: total de predições corretas.
Sensibilidade: valores positivos que foram classificados corretamente.
Especificidade: valores negativos que foram classificados corretamente
Precisão: total de resultados positivos.
Predição de valores negativos: total de resultados negativos.
Taxa de falsos positivos: valores negativos que foram classificados
como positivos.
Taxa de falsas descobertas: falsos positivos entre todas as descobertas.
Taxa de falsos negativos: casos positivos que foram classificados como
negativos.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 27 / 52
28. Resultados
Resultados dos Dados Sintéticos
Os primeiros testes foram realizados com dados sintéticos privilegiando
duas dimensões após foi incrementado para cinco dimensões. Essa
abordagem foi aplicada devido a necessidade de inferir a qualidade dos
algoritmos de agrupamento e métodos de validação.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 27 / 52
29. Resultados
Base de Dados
Figura : Dados sintéticos: melhor caso.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 28 / 52
30. Resultados
Base de Dados
Figura : Dados sintéticos: pior caso.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 29 / 52
33. Resultados
Agrupamentos do Catálogo EFIGI para o K-médias e EM: 1a
Parte
−1 0 1 2 3 4
−3
−2
−1
0
1
2
A
1
C
1
Amostra do EFIGI: K−medias
−1 0 1 2 3 4
−4
−3
−2
−1
0
1
2
3
A
1
C
1
Amostra do EFIGI: EM
Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias e
EM, respectivamente, quando os atributos utilizados são C1 x A1 com dados
provenientes do catálogo EFIGI.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 32 / 52
34. Resultados
Agrupamentos do Catálogo EFIGI para o K-médias e EM: 1a
Parte
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
−1
0
1
2
3
4
log(n)
q
Amostra do EFIGI: K−medias
−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2
−2
−1
0
1
2
3
log(n)q
Amostra do EFIGI: EM
Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias e
EM, respectivamente, quando os atributos utilizados são log(n) x q com dados
provenientes do catálogo EFIGI.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 33 / 52
35. Resultados
Agrupamentos do Catálogo EFIGI para o K-médias e EM: 1a
Parte
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
−2
−1
0
1
2
3
log(n)
σ
Ψ
Amostra do EFIGI: K−medias
−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
2.5
3
log(n)
σ
Ψ
Amostra do EFIGI: EM
Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias e
EM, respectivamente, quando os atributos utilizados são log(n) x σΨ com dados
provenientes do catálogo EFIGI.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 34 / 52
36. Resultados
Agrupamentos do Catálogo EFIGI para o K-médias e EM: 1a
Parte
−1 0 1 2 3 4
−1
0
1
2
3
4
5
A
1
S
1
Amostra do EFIGI: K−medias
−1 0 1 2 3 4
−1
0
1
2
3
4
5
A
1
S
1
Amostra do EFIGI: EM
Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias e
EM, respectivamente, quando os atributos utilizados são A1 x S1 com dados
provenientes do catálogo EFIGI.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 35 / 52
37. Resultados
Agrupamentos do Catálogo EFIGI para o K-médias e EM: 1a
Parte
−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
1
2
Silhouette Value
Cluster
Silhouette da Amostra EFIGI: K−medias
−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
1
2
Silhouette Value
Cluster
Silhouette da Amostra EFIGI: EM
Figura : Comparação entre os resultados de Silhouette obtidos pelos algoritmos
K-médias e EM, respectivamente, com dados provenientes do catálogo EFIGI.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 36 / 52
38. Resultados
Matrizes de Confusão dos Agrupamentos
CMk−medias =
805 90
1097 2224
(6)
CMEM =
855 40
2222 1099
(7)
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 37 / 52
39. Resultados Agrupamentos do Catálogo EFIGI: 2a
Parte
Agrupamentos do Catálogo EFIGI para o K-médias e EM: 2a
Parte
−4 −3 −2 −1 0 1 2 3 4 5
−4
−3
−2
−1
0
1
2
3
A
3
C1
Amostra do EFIGI: K−medias
−4 −3 −2 −1 0 1 2 3 4 5
−4
−3
−2
−1
0
1
2
3
Amostra do EFIGI : EM
A
3C
1
)
Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias e
EM, respectivamente, quando os atributos utilizados são A3 x C1 com dados
provenientes do catálogo EFIGI.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 38 / 52
40. Resultados Agrupamentos do Catálogo EFIGI: 2a
Parte
Agrupamentos do Catálogo EFIGI para o K-médias e EM: 2a
Parte
−3 −2 −1 0 1 2
−2
−1
0
1
2
3
S
3
σ
Ψ
Amostra do EFIGI: K−means
−4 −3 −2 −1 0 1 2 3 4
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
S
3
σ
Ψ
Amostra do EFIGI : EM
Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias e
EM, respectivamente, quando os atributos utilizados são S3 x σΨ com dados
provenientes do catálogo EFIGI.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 39 / 52
41. Resultados Agrupamentos do Catálogo EFIGI: 2a
Parte
Agrupamentos do Catálogo EFIGI para o K-médias e EM: 2a
Parte
−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5
−3
−2
−1
0
1
2
3
4
H
σ
Ψ
Amostra do EFIGI: K−medias
−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
H
σΨ
Amostra do EFIGI : EM
Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias e
EM, respectivamente, quando os atributos utilizados são H x σΨ com dados
provenientes do catálogo EFIGI.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 40 / 52
42. Resultados Agrupamentos do Catálogo EFIGI: 2a
Parte
Agrupamentos do Catálogo EFIGI para o K-médias e EM: 2a
Parte
−4 −3 −2 −1 0 1 2 3 4
−2.5
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
2.5
S3
H
Amostra do EFIGI: K−medias
−4 −3 −2 −1 0 1 2 3 4
−2.5
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
2.5
Amostra do EFIGI : EM
S
3
H
Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias e
EM, respectivamente, quando os atributos utilizados são S3 x H com dados
provenientes do catálogo EFIGI.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 41 / 52
43. Resultados Agrupamentos do Catálogo EFIGI: 2a
Parte
Agrupamentos do Catálogo EFIGI para o K-médias e EM: 2a
Parte
−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
1
2
Silhouette Value
Cluster
Silhouette da Amostra EFIGI: K−medias
−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
1
2
Silhouette Value
Cluster
Silhouette da Amostra EFIGIv
47: EM
Figura : Comparação entre os resultados de Silhouette obtidos pelos algoritmos
K-médias e EM, respectivamente, com dados provenientes do catálogo EFIGI.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 42 / 52
44. Resultados Agrupamentos do Catálogo EFIGI: 2a
Parte
Matrizes de Confusão dos Agrupamentos
CMk−medias =
818 90
1169 2148
(8)
CMEM =
808 100
1147 2170
(9)
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 43 / 52
45. Resultados Agrupamentos do Catálogo EFIGI: 2a
Parte
Comparação entre os Agrupamentos e a Classificação Visual
−4 −3 −2 −1 0 1 2 3
−2
0
2
4
6
8
10
Amostra do EFIGI
log(n)
A
1
−4 −3 −2 −1 0 1 2 3
−2
0
2
4
6
8
10
K−medias: Verdadeiros Positivos e Verdadeiros Negativos
log(n)
A1
−4 −3 −2 −1 0 1 2 3
−2
0
2
4
6
8
10
EM: Verdadeiros Positivos e Verdadeiros Negativos
log(n)
A1
Figura : A primeira imagem mostra a disposição original dos dados para os
parâmetros log(n) x A1. A segunda e terceira imagem representa as classificações
corretas resultantes dos algoritmos K-médias e EM.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 44 / 52
46. Resultados Agrupamentos do Catálogo EFIGI: 2a
Parte
Comparação entre os Agrupamentos e a Classificação Visual
−3 −2 −1 0 1 2 3 4
−4
−3
−2
−1
0
1
2
3
σ
Ψ
log(n)
−3 −2 −1 0 1 2 3 4
−4
−3
−2
−1
0
1
2
3
K−medias: Verdadeiros Positivos e Verdadeiros Negativos
(σ
Ψ
)
log(n)
−3 −2 −1 0 1 2 3
−4
−3
−2
−1
0
1
2
3
EM: Verdadeiros Positivos e Verdadeiros Negativos
(σ
Ψ
)
log(n)
Figura : A primeira imagem mostra a disposição original dos dados para os
parâmetros σΨ x log(n). A segunda e terceira imagem representa as classificações
corretas resultantes dos algoritmos K-médias e EM.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 45 / 52
47. Resultados Agrupamentos do Catálogo EFIGI: 2a
Parte
Comparação entre os Agrupamentos e a Classificação Visual
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0
1
2
3
4
5
6
H
C
1
Amostra do EFIGI
−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5
−4
−3
−2
−1
0
1
2
3
H
C
1
Verdadeiros Positivos e Verdadeiros Negativos
−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5
−4
−3
−2
−1
0
1
2
3
H
C
1
Verdadeiros Positivos e Verdadeiros Negativos
Figura : A primeira imagem mostra a disposição original dos dados do catálogo
EFIGI referente aos parâmetros H x C1. Já a segunda e terceira imagem contém
apenas as classificações com instâncias corretas resultantes dos algoritmos
K-médias e EM.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 46 / 52
48. Resultados Agrupamentos do Catálogo EFIGI: 2a
Parte
Comparação entre os Agrupamentos e a Classificação Visual
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
H
σ
Ψ
Amostra do EFIGI
−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
H
σ
Ψ
Verdadeiros Positivos e Verdadeiros Negativos
−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
H
σ
Ψ
Verdadeiros Positivos e Verdadeiros Negativos
Figura : A primeira imagem mostra a disposição original dos dados para os
parâmetros H x σΨ. A segunda e terceira imagem representa as classificações
corretas resultantes dos algoritmos K-médias e EM.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 47 / 52
49. Resultados Agrupamentos do Catálogo EFIGI: 2a
Parte
Comparação entre os Agrupamentos e a Classificação Visual
0 1 2 3 4 5 6
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Amostra EFIGI
C
1
σ
Ψ
−4 −3 −2 −1 0 1 2 3
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Verdadeiros Positivos e Verdadeiros Negativos
C
1
σ
Ψ
−4 −3 −2 −1 0 1 2
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Verdadeiros Positivos e Verdadeiros Negativos
C
1
σΨ
Figura : A primeira imagem mostra a disposição original dos dados para os
parâmetros C1 x σΨ. A segunda e terceira imagem representa as classificações
corretas resultantes dos algoritmos K-médias e EM.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 48 / 52
50. Considerações Finais e Perspectivas Futuras
Considerações Finais
Esse resultado reforça a existência de uma continuidade morfométricas
nas populações de galáxias elípticas e espirais.
Com esses resultados pode-se perceber que as galáxias espirais e
elípticas possuem características semelhantes não sendo mais possível
caracterizá-las por uma visão bimodal.
Foram obtidas informações relevantes que descrevem onde há a maior
probabilidade de localizar galáxias elípticas e espirais nesse espaço de
parâmetros.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 49 / 52
51. Considerações Finais e Perspectivas Futuras
Considerações Finais
Os resultados obtidos pela classificação visual realizada por um
especialista da área é equivalente aos resultados provenientes da
classificação não-supervisionada como revelam as matrizes de
confusão.
As estruturas das galáxias presentes nas imagens são bem
representadas pelos parâmetros morfométricos.
A proposta metodológica de utilizar técnicas de agrupamentos para
descobrir padrões entre as classes de galáxias se mostrou muito
promissora, pois consegue avaliar uma boa porcentagem de galáxias,
do banco de dados, corretamente.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 50 / 52
52. Considerações Finais e Perspectivas Futuras
Aplicações Futuras
Novas análises serão realizadas com catálogos de 14.000 objetos (Nair
& Abraham, 2010), em grupos Berlind (Ferrari, 2015) e dados do
Legacy Survey SDSS.
Usar técnicas de análise estatística de dados, mineração de dados e de
aprendizado de máquina para caracterizar as estruturas no espaço de
parâmetros morfométricos para amostras significativas de galáxias de
todos os tipos morfológicos.
Identificar grupos de objetos no espaço de parâmetros morfométricos e
associar tais grupos de acordo com suas características físicas quanto
à massa, população estelar, taxa de formação estelar, entre outros.
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 51 / 52
53. Considerações Finais e Perspectivas Futuras
Obrigada!
Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 52 / 52