SlideShare ist ein Scribd-Unternehmen logo
1 von 10
Downloaden Sie, um offline zu lesen
UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCO
Engenharia da Computação
Docente: Rosalvo Neto
Equipe: Raymundo Saraiva
Talles Nascimento
Thaminne Felix
Simulação WEKA- Câncer de mama
Conclusão
Atualmente, a segunda maior causa de morte entre as mulheres é o cancer de mama,
perdendo apenas para o cancer de pulmao. Muitos experimentos usando mineração de dados e
aprendizado de máquina são realizados em conjuntos de dados médicos com múltiplos
classificadores e técnicas de seleção de recursos. O uso de mineração de dados na medicina está
aumentando devido à melhora na eficiência das abordagens dos sistemas de classificação e
previsão. Para cada caso e grupo de dados deve-se encontrar o melhor classificador e sua melhor
configuração, o que não é uma tarefa fácil, pois deve-se simular as várias situações possíveis
para encontrar um valor de melhor precisão.
Algo que merece atenção logo de início são os missing values. Se eles não forem
tratados, a simulação pode sofrer uma variação perceptível. Por exemplo, no KNN com Cross-
validation e K=1, com missing values AUC_ROC = 0.628, tratando os missing values
AUC_ROC = 0,621. Os dados então devem ser tratados no início de qualquer conjunto de
simulações.
Nessa simulação foram utilizados dois classificadores, O MLP (Multi Layer Perceptron)
e o KNN (K-Nearest Neighbors), ambos com o houldout de 66% e o Cross-validation com 10
folds. Com o auxílio da matriz de confusão, ferramenta usada para descrever a precisão dos
classificadores ou a quantidade de previsões corretas, algumas observações são tomadas.
Primeiramente, nota-se que a melhor precisão é obtida usando-se o KNN com Cross-validation
para K=8 (melhor configuração) com 73.7762%, apesar dele possuir a menor área na curva ROC
dentre as melhores configurações para os outros classificadores (ROC = 0.664), como por
exemplo o MLP com holdout que possui a maior área na curva ROC dentre todos os outros
(ROC = 0.719). Isso mostra que para esse caso e esse conjunto de dados, o classificador KNN
usando Cross-validation é superior. Contudo os algoritmos usados, MLP e KNN não obtiveram
uma taxa de precisão alta, dificultando a confiança nesses métodos e nas configurações
apresentadas. Talvez, essa taxa de precisão tenha sido baixa pelo pequeno tamanho da amostra
utilizada para treinamento.
Especificação do projeto e critérios de avaliação
1- Explicação do Problema (O que é? Quais são as variáveis?) (1,0 ponto)
A segunda maior causa de morte entre as mulheres é o cancer de mama, perdendo apenas
para o cancer de pulmao. O uso de mineração de dados na medicina está aumentando devido à
melhora na eficiência das abordagens dos sistemas de classificação e previsão. Além da
importância em ajudar os médicos a tomarem decisões, encontrar maneiras para melhorar o
quadro do paciente, diminuir custos com tratamento e aprimorar os estudos clinicos. Esse
conjunto de dados de cancer de mama é um conjunto de aprendizado de máquina padrão. Ele
contém 10 atributos que descrevem os casos de 286 mulheres que tiveram cancer de mama e
sobreviveram. Dentre estas, em 85 delas o cancer retornou dentro de 5 anos.
Variável Descrição
Age Idade do paciente em anos
Menopaus
e
Período na vida em que a mulher cessa a mensturação
Tumor-
size
Tamanho do tumor na mama
inv-nodes Tamanho do nódulo na parte principal de mama
Node-
caps
Presença ou não do nódulo no seio
Deg-
malig
Estágio do cancer
Brest Indica em qual mama o cancer está se desenvolvendo
Breast
quad
Porção do seio com cancer: central, inferior/superior
direita/esquerda
Irradiate Presença ou ausência de cancer
class Cancer recorrente ou não recorrente
2- Influência dos parâmetros
2.1- RNA: Taxa de aprendizado. Utilizar 10 taxas com holdout. Avaliar AUC_ROC. (1,5 pontos)
A primeira etapa consistiu-se no pré-processamento dos dados, assim, os missing values
foram eliminados através do próprio software WEKA. A segunda parte foi a seleção do RNA
para avaliar a amostra, fixou-se então os valores de HL (hidden layers - camadas ocultas) igual a
1, TT (training time - tempo de treinamento) de 100 e holdout de 66%. Iniciou-se, então, a etapa
de tentativa e erro para encontrar o LR (learning rate - taxa de aprendizado) com a maior área.
Percebeu-se que os valores eram consideravelmente próximos, variando na segunda casa decimal
apenas. O LR foi variado de 0,1 a 1,0. Os resultados mantiveram bem próximos, sem
anormalidades visíveis, a maior área encontrada, foi de 0,719 com LR de 0,7. Concluiu-se assim,
que os valores não trabalham com proporcionalidade, pois a maior taxa estava ao redor dos
valores médios de LR. Para melhor vizualização dos resultados e ainda na busca de um padrão,
outras simulações foram feitas com diferentes TT e variando o LR. Os resultados são mostrados
abaixo em forma de tabela (Tabela 1) e gráficos (Figura 1 e 2).
Tabela 1: Testes com HL = 1 variando o tempo de treinamento (TT)
Figura 1: Gráfico Taxa de Aprendizado pela Área sob a Curva
Figura 2: Maior área atingida
2.2- KNN -> Número de vizinhos - K. Utilizar 10 valores de K com holdout. Avaliar
AUC_ROC. (1,5 pontos)
A área sobre a curva ROC resultante da classificação k-Nearest Neighbors algorithm -
KNN com Holdout 66% da amostra para treinamento foi analisada para diferentes valores de k,
que representa o número de elementos “próximos” a serem comparados. A área ROC é uma
medida discriminativa da eficácia do teste KNN em classificar pacientes com ou sem cancer de
mama. A maior área foi verificada para k = 1 na qual cada novo indivíduo do treinamento é
comparado com aquele com maior valor dentre as caracteristicas similares, isto é, idade (age),
menopausa (menopause), etc. Este novo elemento terá o mesmo diagnóstico que seu “vizinho”
mais próximo. Assim, a classificação foi mais eficaz para k = 1. Os resultados obtidos
experimentalmente estão dispostos na tabela abaixo.
K 1 2 3 4 5 6 7 8 9 10
AUC_RO
C
0.678 0.652 0.651 0.659 0.652 0.656 0.643 0.632 0.644 0.662
Tabela 2: KNN com Holdout 66%
Figura 3: KNN com Holdout
3- Diferença da estimativas do erro
3.1 - Para a melhor configuração da RNA, avaliar a AUC_ROC com holdout e cross validation
10. (1,5 pontos)
Com as simulações da questão anterior foi possível entender que os parâmetros não
obedecem uma lógica visível. O intuito agora é verificar se a melhor configuração se aplica para
os dois métodos. O primeiro passo foi escolher os maiores valores de área da configuração
passada e aplicá-las com o Cross Validation (CV) de 10. Os valores são mostrados nas figuras a
seguir. A figura 5 mostra o gráfico da área encontrada com o CV fixado pela área com holdout
de 66%, os valores apresentam a mesma configuração quanto LR, TT e HL. Os resultados
encontrados foram similares, mas o CV não auxiliou no crescimento da curva, provando o
método da questão anterior mais aceitável.
Tabela 3: Área do Cross Validation dos melhores resultados da questão anterior (2.1)
Figura 4: Gráfico Área com CV por Área RNA
3.2 - Para a melhor configuração do KNN, avaliar a AUC_ROC com holdout e cross validation
10. (1,5 pontos)
A área AUC_ROC decorrente do classificação KNN mais uma vez foi analisada, mas com
técnica de cross validation com 9 partições para treinamento e 1 para teste. Os valores obtidos
estão listados abaixo.
K 1 2 3 4 5 6 7 8 9 10
AUC_RO
C
0.621 0.647 0.644 0.657 0.663 0.656 0.659 0.664 0.655 0.663
Tabela 4: KNN com Cross validation
Figura5: KNN com Cross Validation
Note que o cross validation foi menos eficaz ao classificar os casos de cancer de mama
utilizando o KNN do que com o Holdout. Mesmo 90% da amostra sendo a base de treinamento,
o índice pessoas diagnosticadas corretamente foi menor. Para a melhor configuração com
holdout o valor da área ROC foi de 0.678, k = 1, enquanto que com cross validation 0.664, k = 8
Cancer de mama usando Weka e MLP/KNN
Cancer de mama usando Weka e MLP/KNN
Referências
http://research.ijcaonline.org/volume101/number10/pxc3897611.pdf
http://www.csie.ntu.edu.tw/~p88012/AI-final.pdf
http://ijcit.com/archives/volume1/issue1/Paper010105.pdf
McLachlan, Geoffrey J.; Do, Kim-Anh; Ambroise, Christophe (2004). Analyzing microarray
gene expression data. Wiley.

Weitere ähnliche Inhalte

Ähnlich wie Cancer de mama usando Weka e MLP/KNN

ANÁLISE DE SOBREVIDA DE PACIENTES PEDIÁTRICOS COM TUMORES CEREBRAIS COM MÉTOD...
ANÁLISE DE SOBREVIDA DE PACIENTES PEDIÁTRICOS COM TUMORES CEREBRAIS COM MÉTOD...ANÁLISE DE SOBREVIDA DE PACIENTES PEDIÁTRICOS COM TUMORES CEREBRAIS COM MÉTOD...
ANÁLISE DE SOBREVIDA DE PACIENTES PEDIÁTRICOS COM TUMORES CEREBRAIS COM MÉTOD...Francisco H C Felix
 
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...Genomika Diagnósticos
 
Seminário sobre Validação 2003
Seminário sobre Validação 2003Seminário sobre Validação 2003
Seminário sobre Validação 2003Adriana Quevedo
 
Radioterapia no Cancro da Próstata
Radioterapia no Cancro da PróstataRadioterapia no Cancro da Próstata
Radioterapia no Cancro da PróstataRui P Rodrigues
 
Ligamento cruzado anterior
Ligamento cruzado anteriorLigamento cruzado anterior
Ligamento cruzado anterioradrianomedico
 
71429 henrique gabriel-cabral - cancer tratamento de choque
71429 henrique gabriel-cabral - cancer tratamento de choque71429 henrique gabriel-cabral - cancer tratamento de choque
71429 henrique gabriel-cabral - cancer tratamento de choqueVAGNER CORDEIRO
 
M17 e39-comparacao dediferentesmetodosdeprevisaoe
M17 e39-comparacao dediferentesmetodosdeprevisaoeM17 e39-comparacao dediferentesmetodosdeprevisaoe
M17 e39-comparacao dediferentesmetodosdeprevisaoeGMBotbot
 

Ähnlich wie Cancer de mama usando Weka e MLP/KNN (17)

ANÁLISE DE SOBREVIDA DE PACIENTES PEDIÁTRICOS COM TUMORES CEREBRAIS COM MÉTOD...
ANÁLISE DE SOBREVIDA DE PACIENTES PEDIÁTRICOS COM TUMORES CEREBRAIS COM MÉTOD...ANÁLISE DE SOBREVIDA DE PACIENTES PEDIÁTRICOS COM TUMORES CEREBRAIS COM MÉTOD...
ANÁLISE DE SOBREVIDA DE PACIENTES PEDIÁTRICOS COM TUMORES CEREBRAIS COM MÉTOD...
 
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...
 
Aula 2 - Validação de um método análitico.pdf
Aula 2 - Validação de um método análitico.pdfAula 2 - Validação de um método análitico.pdf
Aula 2 - Validação de um método análitico.pdf
 
Fatana 2012
Fatana 2012Fatana 2012
Fatana 2012
 
Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4
 
Seminário sobre Validação 2003
Seminário sobre Validação 2003Seminário sobre Validação 2003
Seminário sobre Validação 2003
 
Criterio chauvenet
Criterio chauvenetCriterio chauvenet
Criterio chauvenet
 
Validacao cruzada
Validacao cruzadaValidacao cruzada
Validacao cruzada
 
Metanálise
MetanáliseMetanálise
Metanálise
 
Radioterapia no Cancro da Próstata
Radioterapia no Cancro da PróstataRadioterapia no Cancro da Próstata
Radioterapia no Cancro da Próstata
 
Ligamento cruzado anterior
Ligamento cruzado anteriorLigamento cruzado anterior
Ligamento cruzado anterior
 
Anova 2__fatores_prof._ivan (2)
Anova  2__fatores_prof._ivan (2)Anova  2__fatores_prof._ivan (2)
Anova 2__fatores_prof._ivan (2)
 
Weka Report Presentation
Weka Report PresentationWeka Report Presentation
Weka Report Presentation
 
71429 henrique gabriel-cabral - cancer tratamento de choque
71429 henrique gabriel-cabral - cancer tratamento de choque71429 henrique gabriel-cabral - cancer tratamento de choque
71429 henrique gabriel-cabral - cancer tratamento de choque
 
13991
1399113991
13991
 
M17 e39-comparacao dediferentesmetodosdeprevisaoe
M17 e39-comparacao dediferentesmetodosdeprevisaoeM17 e39-comparacao dediferentesmetodosdeprevisaoe
M17 e39-comparacao dediferentesmetodosdeprevisaoe
 
46
4646
46
 

Cancer de mama usando Weka e MLP/KNN

  • 1. UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCO Engenharia da Computação Docente: Rosalvo Neto Equipe: Raymundo Saraiva Talles Nascimento Thaminne Felix Simulação WEKA- Câncer de mama Conclusão Atualmente, a segunda maior causa de morte entre as mulheres é o cancer de mama, perdendo apenas para o cancer de pulmao. Muitos experimentos usando mineração de dados e aprendizado de máquina são realizados em conjuntos de dados médicos com múltiplos classificadores e técnicas de seleção de recursos. O uso de mineração de dados na medicina está aumentando devido à melhora na eficiência das abordagens dos sistemas de classificação e previsão. Para cada caso e grupo de dados deve-se encontrar o melhor classificador e sua melhor configuração, o que não é uma tarefa fácil, pois deve-se simular as várias situações possíveis para encontrar um valor de melhor precisão. Algo que merece atenção logo de início são os missing values. Se eles não forem tratados, a simulação pode sofrer uma variação perceptível. Por exemplo, no KNN com Cross- validation e K=1, com missing values AUC_ROC = 0.628, tratando os missing values AUC_ROC = 0,621. Os dados então devem ser tratados no início de qualquer conjunto de simulações. Nessa simulação foram utilizados dois classificadores, O MLP (Multi Layer Perceptron) e o KNN (K-Nearest Neighbors), ambos com o houldout de 66% e o Cross-validation com 10 folds. Com o auxílio da matriz de confusão, ferramenta usada para descrever a precisão dos classificadores ou a quantidade de previsões corretas, algumas observações são tomadas. Primeiramente, nota-se que a melhor precisão é obtida usando-se o KNN com Cross-validation para K=8 (melhor configuração) com 73.7762%, apesar dele possuir a menor área na curva ROC dentre as melhores configurações para os outros classificadores (ROC = 0.664), como por exemplo o MLP com holdout que possui a maior área na curva ROC dentre todos os outros (ROC = 0.719). Isso mostra que para esse caso e esse conjunto de dados, o classificador KNN usando Cross-validation é superior. Contudo os algoritmos usados, MLP e KNN não obtiveram uma taxa de precisão alta, dificultando a confiança nesses métodos e nas configurações apresentadas. Talvez, essa taxa de precisão tenha sido baixa pelo pequeno tamanho da amostra utilizada para treinamento.
  • 2. Especificação do projeto e critérios de avaliação 1- Explicação do Problema (O que é? Quais são as variáveis?) (1,0 ponto) A segunda maior causa de morte entre as mulheres é o cancer de mama, perdendo apenas para o cancer de pulmao. O uso de mineração de dados na medicina está aumentando devido à melhora na eficiência das abordagens dos sistemas de classificação e previsão. Além da importância em ajudar os médicos a tomarem decisões, encontrar maneiras para melhorar o quadro do paciente, diminuir custos com tratamento e aprimorar os estudos clinicos. Esse conjunto de dados de cancer de mama é um conjunto de aprendizado de máquina padrão. Ele contém 10 atributos que descrevem os casos de 286 mulheres que tiveram cancer de mama e sobreviveram. Dentre estas, em 85 delas o cancer retornou dentro de 5 anos. Variável Descrição Age Idade do paciente em anos Menopaus e Período na vida em que a mulher cessa a mensturação Tumor- size Tamanho do tumor na mama inv-nodes Tamanho do nódulo na parte principal de mama Node- caps Presença ou não do nódulo no seio Deg- malig Estágio do cancer Brest Indica em qual mama o cancer está se desenvolvendo Breast quad Porção do seio com cancer: central, inferior/superior direita/esquerda Irradiate Presença ou ausência de cancer class Cancer recorrente ou não recorrente 2- Influência dos parâmetros 2.1- RNA: Taxa de aprendizado. Utilizar 10 taxas com holdout. Avaliar AUC_ROC. (1,5 pontos)
  • 3. A primeira etapa consistiu-se no pré-processamento dos dados, assim, os missing values foram eliminados através do próprio software WEKA. A segunda parte foi a seleção do RNA para avaliar a amostra, fixou-se então os valores de HL (hidden layers - camadas ocultas) igual a 1, TT (training time - tempo de treinamento) de 100 e holdout de 66%. Iniciou-se, então, a etapa de tentativa e erro para encontrar o LR (learning rate - taxa de aprendizado) com a maior área. Percebeu-se que os valores eram consideravelmente próximos, variando na segunda casa decimal apenas. O LR foi variado de 0,1 a 1,0. Os resultados mantiveram bem próximos, sem anormalidades visíveis, a maior área encontrada, foi de 0,719 com LR de 0,7. Concluiu-se assim, que os valores não trabalham com proporcionalidade, pois a maior taxa estava ao redor dos valores médios de LR. Para melhor vizualização dos resultados e ainda na busca de um padrão, outras simulações foram feitas com diferentes TT e variando o LR. Os resultados são mostrados abaixo em forma de tabela (Tabela 1) e gráficos (Figura 1 e 2). Tabela 1: Testes com HL = 1 variando o tempo de treinamento (TT)
  • 4. Figura 1: Gráfico Taxa de Aprendizado pela Área sob a Curva Figura 2: Maior área atingida 2.2- KNN -> Número de vizinhos - K. Utilizar 10 valores de K com holdout. Avaliar AUC_ROC. (1,5 pontos) A área sobre a curva ROC resultante da classificação k-Nearest Neighbors algorithm - KNN com Holdout 66% da amostra para treinamento foi analisada para diferentes valores de k, que representa o número de elementos “próximos” a serem comparados. A área ROC é uma
  • 5. medida discriminativa da eficácia do teste KNN em classificar pacientes com ou sem cancer de mama. A maior área foi verificada para k = 1 na qual cada novo indivíduo do treinamento é comparado com aquele com maior valor dentre as caracteristicas similares, isto é, idade (age), menopausa (menopause), etc. Este novo elemento terá o mesmo diagnóstico que seu “vizinho” mais próximo. Assim, a classificação foi mais eficaz para k = 1. Os resultados obtidos experimentalmente estão dispostos na tabela abaixo. K 1 2 3 4 5 6 7 8 9 10 AUC_RO C 0.678 0.652 0.651 0.659 0.652 0.656 0.643 0.632 0.644 0.662 Tabela 2: KNN com Holdout 66% Figura 3: KNN com Holdout 3- Diferença da estimativas do erro 3.1 - Para a melhor configuração da RNA, avaliar a AUC_ROC com holdout e cross validation 10. (1,5 pontos) Com as simulações da questão anterior foi possível entender que os parâmetros não obedecem uma lógica visível. O intuito agora é verificar se a melhor configuração se aplica para os dois métodos. O primeiro passo foi escolher os maiores valores de área da configuração passada e aplicá-las com o Cross Validation (CV) de 10. Os valores são mostrados nas figuras a seguir. A figura 5 mostra o gráfico da área encontrada com o CV fixado pela área com holdout
  • 6. de 66%, os valores apresentam a mesma configuração quanto LR, TT e HL. Os resultados encontrados foram similares, mas o CV não auxiliou no crescimento da curva, provando o método da questão anterior mais aceitável. Tabela 3: Área do Cross Validation dos melhores resultados da questão anterior (2.1) Figura 4: Gráfico Área com CV por Área RNA 3.2 - Para a melhor configuração do KNN, avaliar a AUC_ROC com holdout e cross validation 10. (1,5 pontos) A área AUC_ROC decorrente do classificação KNN mais uma vez foi analisada, mas com técnica de cross validation com 9 partições para treinamento e 1 para teste. Os valores obtidos estão listados abaixo. K 1 2 3 4 5 6 7 8 9 10 AUC_RO C 0.621 0.647 0.644 0.657 0.663 0.656 0.659 0.664 0.655 0.663 Tabela 4: KNN com Cross validation
  • 7. Figura5: KNN com Cross Validation Note que o cross validation foi menos eficaz ao classificar os casos de cancer de mama utilizando o KNN do que com o Holdout. Mesmo 90% da amostra sendo a base de treinamento, o índice pessoas diagnosticadas corretamente foi menor. Para a melhor configuração com holdout o valor da área ROC foi de 0.678, k = 1, enquanto que com cross validation 0.664, k = 8