1. UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCO
Engenharia da Computação
Docente: Rosalvo Neto
Equipe: Raymundo Saraiva
Talles Nascimento
Thaminne Felix
Simulação WEKA- Câncer de mama
Conclusão
Atualmente, a segunda maior causa de morte entre as mulheres é o cancer de mama,
perdendo apenas para o cancer de pulmao. Muitos experimentos usando mineração de dados e
aprendizado de máquina são realizados em conjuntos de dados médicos com múltiplos
classificadores e técnicas de seleção de recursos. O uso de mineração de dados na medicina está
aumentando devido à melhora na eficiência das abordagens dos sistemas de classificação e
previsão. Para cada caso e grupo de dados deve-se encontrar o melhor classificador e sua melhor
configuração, o que não é uma tarefa fácil, pois deve-se simular as várias situações possíveis
para encontrar um valor de melhor precisão.
Algo que merece atenção logo de início são os missing values. Se eles não forem
tratados, a simulação pode sofrer uma variação perceptível. Por exemplo, no KNN com Cross-
validation e K=1, com missing values AUC_ROC = 0.628, tratando os missing values
AUC_ROC = 0,621. Os dados então devem ser tratados no início de qualquer conjunto de
simulações.
Nessa simulação foram utilizados dois classificadores, O MLP (Multi Layer Perceptron)
e o KNN (K-Nearest Neighbors), ambos com o houldout de 66% e o Cross-validation com 10
folds. Com o auxílio da matriz de confusão, ferramenta usada para descrever a precisão dos
classificadores ou a quantidade de previsões corretas, algumas observações são tomadas.
Primeiramente, nota-se que a melhor precisão é obtida usando-se o KNN com Cross-validation
para K=8 (melhor configuração) com 73.7762%, apesar dele possuir a menor área na curva ROC
dentre as melhores configurações para os outros classificadores (ROC = 0.664), como por
exemplo o MLP com holdout que possui a maior área na curva ROC dentre todos os outros
(ROC = 0.719). Isso mostra que para esse caso e esse conjunto de dados, o classificador KNN
usando Cross-validation é superior. Contudo os algoritmos usados, MLP e KNN não obtiveram
uma taxa de precisão alta, dificultando a confiança nesses métodos e nas configurações
apresentadas. Talvez, essa taxa de precisão tenha sido baixa pelo pequeno tamanho da amostra
utilizada para treinamento.
2. Especificação do projeto e critérios de avaliação
1- Explicação do Problema (O que é? Quais são as variáveis?) (1,0 ponto)
A segunda maior causa de morte entre as mulheres é o cancer de mama, perdendo apenas
para o cancer de pulmao. O uso de mineração de dados na medicina está aumentando devido à
melhora na eficiência das abordagens dos sistemas de classificação e previsão. Além da
importância em ajudar os médicos a tomarem decisões, encontrar maneiras para melhorar o
quadro do paciente, diminuir custos com tratamento e aprimorar os estudos clinicos. Esse
conjunto de dados de cancer de mama é um conjunto de aprendizado de máquina padrão. Ele
contém 10 atributos que descrevem os casos de 286 mulheres que tiveram cancer de mama e
sobreviveram. Dentre estas, em 85 delas o cancer retornou dentro de 5 anos.
Variável Descrição
Age Idade do paciente em anos
Menopaus
e
Período na vida em que a mulher cessa a mensturação
Tumor-
size
Tamanho do tumor na mama
inv-nodes Tamanho do nódulo na parte principal de mama
Node-
caps
Presença ou não do nódulo no seio
Deg-
malig
Estágio do cancer
Brest Indica em qual mama o cancer está se desenvolvendo
Breast
quad
Porção do seio com cancer: central, inferior/superior
direita/esquerda
Irradiate Presença ou ausência de cancer
class Cancer recorrente ou não recorrente
2- Influência dos parâmetros
2.1- RNA: Taxa de aprendizado. Utilizar 10 taxas com holdout. Avaliar AUC_ROC. (1,5 pontos)
3. A primeira etapa consistiu-se no pré-processamento dos dados, assim, os missing values
foram eliminados através do próprio software WEKA. A segunda parte foi a seleção do RNA
para avaliar a amostra, fixou-se então os valores de HL (hidden layers - camadas ocultas) igual a
1, TT (training time - tempo de treinamento) de 100 e holdout de 66%. Iniciou-se, então, a etapa
de tentativa e erro para encontrar o LR (learning rate - taxa de aprendizado) com a maior área.
Percebeu-se que os valores eram consideravelmente próximos, variando na segunda casa decimal
apenas. O LR foi variado de 0,1 a 1,0. Os resultados mantiveram bem próximos, sem
anormalidades visíveis, a maior área encontrada, foi de 0,719 com LR de 0,7. Concluiu-se assim,
que os valores não trabalham com proporcionalidade, pois a maior taxa estava ao redor dos
valores médios de LR. Para melhor vizualização dos resultados e ainda na busca de um padrão,
outras simulações foram feitas com diferentes TT e variando o LR. Os resultados são mostrados
abaixo em forma de tabela (Tabela 1) e gráficos (Figura 1 e 2).
Tabela 1: Testes com HL = 1 variando o tempo de treinamento (TT)
4. Figura 1: Gráfico Taxa de Aprendizado pela Área sob a Curva
Figura 2: Maior área atingida
2.2- KNN -> Número de vizinhos - K. Utilizar 10 valores de K com holdout. Avaliar
AUC_ROC. (1,5 pontos)
A área sobre a curva ROC resultante da classificação k-Nearest Neighbors algorithm -
KNN com Holdout 66% da amostra para treinamento foi analisada para diferentes valores de k,
que representa o número de elementos “próximos” a serem comparados. A área ROC é uma
5. medida discriminativa da eficácia do teste KNN em classificar pacientes com ou sem cancer de
mama. A maior área foi verificada para k = 1 na qual cada novo indivíduo do treinamento é
comparado com aquele com maior valor dentre as caracteristicas similares, isto é, idade (age),
menopausa (menopause), etc. Este novo elemento terá o mesmo diagnóstico que seu “vizinho”
mais próximo. Assim, a classificação foi mais eficaz para k = 1. Os resultados obtidos
experimentalmente estão dispostos na tabela abaixo.
K 1 2 3 4 5 6 7 8 9 10
AUC_RO
C
0.678 0.652 0.651 0.659 0.652 0.656 0.643 0.632 0.644 0.662
Tabela 2: KNN com Holdout 66%
Figura 3: KNN com Holdout
3- Diferença da estimativas do erro
3.1 - Para a melhor configuração da RNA, avaliar a AUC_ROC com holdout e cross validation
10. (1,5 pontos)
Com as simulações da questão anterior foi possível entender que os parâmetros não
obedecem uma lógica visível. O intuito agora é verificar se a melhor configuração se aplica para
os dois métodos. O primeiro passo foi escolher os maiores valores de área da configuração
passada e aplicá-las com o Cross Validation (CV) de 10. Os valores são mostrados nas figuras a
seguir. A figura 5 mostra o gráfico da área encontrada com o CV fixado pela área com holdout
6. de 66%, os valores apresentam a mesma configuração quanto LR, TT e HL. Os resultados
encontrados foram similares, mas o CV não auxiliou no crescimento da curva, provando o
método da questão anterior mais aceitável.
Tabela 3: Área do Cross Validation dos melhores resultados da questão anterior (2.1)
Figura 4: Gráfico Área com CV por Área RNA
3.2 - Para a melhor configuração do KNN, avaliar a AUC_ROC com holdout e cross validation
10. (1,5 pontos)
A área AUC_ROC decorrente do classificação KNN mais uma vez foi analisada, mas com
técnica de cross validation com 9 partições para treinamento e 1 para teste. Os valores obtidos
estão listados abaixo.
K 1 2 3 4 5 6 7 8 9 10
AUC_RO
C
0.621 0.647 0.644 0.657 0.663 0.656 0.659 0.664 0.655 0.663
Tabela 4: KNN com Cross validation
7. Figura5: KNN com Cross Validation
Note que o cross validation foi menos eficaz ao classificar os casos de cancer de mama
utilizando o KNN do que com o Holdout. Mesmo 90% da amostra sendo a base de treinamento,
o índice pessoas diagnosticadas corretamente foi menor. Para a melhor configuração com
holdout o valor da área ROC foi de 0.678, k = 1, enquanto que com cross validation 0.664, k = 8