Minería de datos con WEKA para el diagnóstico preventivo de cáncer

UNIVERSIDAD TECNICA PARTICULAR DE LOJA Minería de datos con WEKA para el diagnóstico preventivo de cáncer Integrantes: Alvarado Pablo Peralta Diego Román Carlos

Resumen La utilización de técnicas de inteligencia artificial para “diagnóstico asistido por computadora” ha tenido hasta ahora una prominente trayectoria en la resolución de problemas basados netamente en imágenes, sin embargo también el campo de diagnóstico preventivo -de cáncer- ha madurado haciendo uso de técnicas como redes bayesianas (RB) o algoritmos evolutivos (AE), tomando como base modelos probabilísticos. En el presente ensayo se abordará aspectos teóricos que llevan a entender la importancia de tratar de diagnosticar preventivamente el cáncer mediante mecanismos de clasificación y predicción, así como comprender los factores involucrados específicamente en los aspectos a los que el cáncer como enfermedad supone, de allí la necesidad de proponer un diagnóstico intuitivo realizado por computadora con la ayuda de WEKA, previo a la evaluación médica del paciente.

Introducción El cáncer persiste como un desafío para la medicina, porque a pesar de los avances en las técnicas de diagnóstico y en los recursos terapéuticos, las estadísticas reflejan las pocas curaciones con relación a la cantidad de enfermos asistidos. Esto se debe en buena parte a que en los últimos años no han habido respuestas significativas a los intentos de reducir la exposición a carcinógenos, y también a que no mejoró la detección del tumor en una etapa temprana, lo cual hubiera podido aumentar la probabilidad de curación, pero sobre todo a que todavía no se cuenta con la solución apropiada para esta patología. “El porcentaje de sobrevivientes se ha estancado en los últimos 30 años tan solo en un 15% (para cáncer de pulmón, páncreas, hígado) y por sobre el doble de la cifra anterior para otros tipos de cáncer menos agresivos” [06], así, estos tres tipos de cáncer cobran más víctimas que el de mama, próstata o colon juntos (en especial el de pulmón).

Introducción El software WEKA descrito en una exposición de SylvieRattè durante el iSummit 2010 es una herramienta efectiva en el manejo de minería de datos. Para el caso de la enfermedad mencionada se puede aproximar un diagnóstico haciendo uso del mecanismo de predicción de WEKA en base a clasificaciones dadas sobre conjuntos de entrenamiento, esto se puede plasmar en la construcción de software de diagnóstico (un agente inteligente que consuma librerías de WEKA por detrás) orientado a informar y poner sobre aviso los pacientes de instituciones de salud. El propósito de explotar la minería de datos para este caso radica en importancia de la detección temprana del cáncer, pues la sociedad americana de cáncer1informa que si el cáncer es detectado tempranamente el porcentaje de supervivencia se incrementa hasta un 47% [02] (es la media dependiendo del tipo de patología). 1. American CancerSociety (ACS). Sitio oficial: www.cancer.org/

Adaptación del Enfoque a la ciudad de Loja En la ciudad de Loja, nuestro punto de referencia será SOLCA2 Núcleo de Loja. Los pacientes tratados allí son en su inmensa mayoría referidos con diagnóstico presuntivo o confirmado de diversos tipos de cáncer. Por esta razón surge la necesidad de abordar el establecimiento de una minería de datos inteligente, levantada sobre los datos de las historias clínicas para que basados en factores y métodos probabilísticos, puedan ser cargados en un software que sea capaz de realizar un diagnóstico preventivo. Esto se realiza con el fin de evitar que la enfermedad se desarrollo hasta estadios avanzados, mediante la puesta en alerta del paciente. 2. Sociedad de Lucha contra el Cáncer (Ecuador). Mayor información disponible en : www.solcaquito.org/

Adaptación del Enfoque a la ciudad de Loja El software que consuma la minería de datos, debería proporcionar una primera alerta y determinar si un individuo, de acuerdo con el entorno en el que vive y trabaja, sus hábitos alimenticios y de tabaquismo (si los tiene), antecedentes familiares, historial médico y otros parámetros, es propenso a desarrollar cáncer de pulmón. El fin del software sería la consecución de 2 metas que justifiquen notablemente su construcción: Que las personas que tienen un riesgo “X” de padecer cáncer de pulmón, tomen conciencia sobre este problema. Un riesgo suficiente de padecer cáncer podría empujar a la persona a realizar chequeos periódicos y de esta manera ayudaría a la detección del problema.

Situación General del Cáncer de Pulmón El diagnostico preventivo a través del uso de un software no es una practica muy extendida en la ciudad de Loja. La única acción preventiva que se lleva a cabo con regularidad es la tomografía axial computarizada. En la actualidad no existe suficiente fiabilidad y por lo tanto esta práctica no debería extenderse, puesto que en un tanto por ciento de los casos se podrían producir falsos positivos que inducirían a hacer resecciones pulmonares de lesiones benignas.

Situación General de Modelos de Weka Para aspectos de medicina las redes bayesianas han sido utilizadas en el campo del diagnóstico asistido por computadora en investigaciones como las especificadas en [01],[03],[04],[05],[06] y [07], se han demostrado que son adecuadas para su propósito, pero es necesario una especialización superior para perfeccionar su optimidad. Las Redes Bayesianas presentan ventajas de velocidad para encontrar soluciones pero generan el riesgo de estancarse en la optimidad local, por lo que se ha optado por hacer combinaciones con algoritmos evolutivos (AE) para disminuir el coste y hacerlo más optimo.

Situación General de Modelos de Weka La desventaja de los AE es que necesitan mayor tiempo para optimizar soluciones pero son excelentes para búsquedas globales basadas en población.

Aspectos Teóricos: Redes Bayesianas Una red bayesiana es una representación de una función de probabilidad conjunta. Formalmente es un “grafo acíclico dirigido en el que cada nodo representa una variable aleatoria y las relaciones de dependencias e independencias condicionales quedan establecidas en la propia estructura de la red”[09]. Una RB para un conjunto de variables aleatorias X = {X1 ,.., Xn} es un par B = (G,P(Θ)), especificado en [03] donde G es un gráfico acíclico dirigido, cuyos nodos se encuentran en correspondencia uno a uno con las variables en X , y P es un conjunto de funciones de probabilidad local definidas por un conjunto de parámetros Θ . Una red Bayesiana puede usarse para calcular una probabilidad de interés usando métodos para el proceso de inferencia exacta y aproximada [10].

Aspectos Teóricos: Algoritmos Evolutivos Son métodos que trabajan con una población de individuos que pertenecen al dominio de los números reales, mediante los procesos de mutación y de recombinación evolucionan para alcanzar el óptimo de la función objetivo. Las variables objeto son los posibles valores que hacen que la función objetivo alcance el óptimo global y las variables estratégicas son los parámetros mediante los que se gobierna el proceso evolutivo o, en otras palabras, las variables estratégicas indican de qué manera las variables objeto son afectadas por la mutación. El genotipo en las estrategias de AE es el conjunto formado por las variables objeto y las variables estratégicas. Y el fenotipo son las variables objeto, ya que conforme se da la variación de éstas, se percibe un mejor o peor desempeño del individuo.

Enfoques evolutivos de una RB El espacio de búsqueda en las RB es extendido de manera exponencial si el número de variables incrementa. Enumerar todas la redes bayesianas no es factible, y debido al problema de estancamiento en el espacio de búsqueda local para una solución óptima, es necesario adoptar una AE que induzca a la RB a partir de datos. Existen dos enfoques a considerar para la inducción mencionada, el primero [09] utiliza una matriz de conexión como un cromosoma que representa la RB, así, cuando el número de variables es n, el tamaño de la matriz es n x n, obteniendo así un espacio de búsqueda para n variables igual a 2nxn. El segundo [08] enfoque consiste en una búsqueda de orden topológico para la RB, el orden restringe la conexión entre las variables, proveyendo una conexión entre variables distintas; dado el orden encontrado, RBs son escogidas usando un algoritmo de búsqueda local simple con el fin de encontrar un orden topológico adecuado.

Desarrollo de una Solución WEKA debe procesar los modelos probabilísticos basados en algunos factores, para mediante el uso de las técnicas de inteligencia artificial mencionadas (algoritmos de clasificación), sea capaz de diagnosticar si un paciente podría o no tener este tipo de afección. Los factores a considerarse para la aplicación de los modelos probabilísticos [03] son: Sexo (Masculino, Femenino) Geografía (Campo, Ciudad) Factores Genéticos (propenso, poco propenso, no-propenso) Exposiciones Ocupacionales (con contaminación, sin contaminación) Contaminación atmosférica (baja, media, alta) Patologías Bronquiales (tiene, no-tiene) Problemas Virales (tiene, no-tiene) Problemas Virales en el pasado (tiene, no-tiene) Problemas de cáncer en el pasado (tuvo, no-tuvo) Antecedentes familiares (cercanos, medios, lejanos, ninguno) Edad (10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99) Factor de Riesgo: Frecuecnia semanal (0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-90, 91-180, 181-360)

Método de NaiveBayes para construir el clasificador Dada la base de entrenamiento cáncer.pulmón.arff representada por k valores, el clasificador NaiveBayes se basa en encontrar la hipótesis más probable que describa a ese dataset. La descripción viene dada por los valores < a1, a2, .., an >, por tanto la hipótesis [03] más probable será aquella que cumpla: es decir, la probabilidad de que conocidos los valores que describen al dataset, éste pertenezcan a la clase vj (donde vj es el valor de la función de clasificación f(x) denominada CLASE en el conjunto finito V). Por el teorema de Bayes:

Metodo de NaiveBayes para construir el clasificador Podemos estimar P(vj) contando las veces que aparece un atributo de un caso vj en el conjunto de entrenamiento y dividiéndolo por el número total de atributos que forman este conjunto. Para estimar el término P(a1, ...an|vj), es decir, las veces en que para cada categoría aparecen los valores del caso x, debo recorrer todo el conjunto de entrenamiento. Este cálculo resulta impracticable para un número suficientemente grande de casos por lo que se hace necesario simplificar la expresión. Para ello se recurre a la hipótesis de independencia condicional con el objeto de poder factorizar la probabilidad. Esta hipótesis dice lo siguiente: Los valores aj que describen un atributo de un caso cualquiera x son independientes entre sí conocido el valor de la categoría a la que pertenecen. Así la probabilidad de observar la conjunción de atributos aj dada una categoría a la que pertenecen es justamente el producto de las probabilidades de cada valor por separado:

Algoritmo TAN Podría servir puesto que se encarga de la búsqueda y recorrido de la red encontrando la estructura TAN de máxima verosimilidad. Resuelve el problema de optimización para una RB normal, incrementando la tasa de clasificación [3]: 1: Calcular I(Xi;Xj/C ) con i < j donde i , j =1,2,…,n. Asignar este valor como peso al arco que conecta las variables Xi y Xj . 2: Ordenar I(Xi;Xj/C) de mayor a menor. 3: Considerar un árbol inicial. 4: Asignar los dos arcos de mayor peso al árbol anterior. 5: Examinar el siguiente arco de mayor peso, y añadirla al árbol (si no forma un ciclo), en cuyo caso se descarta y se examina el siguiente arco con mayor peso. 6: Repetir 5 hasta seleccionar n −1 arcos. 7: Transformar el árbol no dirigido resultante en uno dirigido, con una variable como raíz, para a continuación direccionar el resto de arcos. 8: Construir un modelo TAN añadiendo un nodo etiquetado como C y posteriormente un arco desde C a cada variable predictora Xi.

Agregación Evolutiva de RBs J. Kim [11] propone un AE con compartimiento de aptitudes para generar diversas RB dado un conjunto de datos masivo. R. Chen utiliza en cambio un enfoque colectivo para leer una RB desde datos heterogéneos distribuidos, esto se realiza mediante la unión de nodos de RBs locales y foráneas. Existen otros autores trabajando sobre el mismo dominio (RBs con AEs), pero debido a que sus enfoques son variados es necesario integrar sus estudios en un modelo simple. La forma más fácil de lograr esto es mediante el uso de operadores de unión e intersección. Es necesario considerar la agregación y el refinamiento para la óptima solución del problema. El primer aspecto se podría solucionar logrando una evolución usando el trabajo planteado por J. Kim [11] con el algoritmo de agregación:

Agregación Evolutiva de RBs 1: /* HO : Red Original */ 2: /* D: Nuevos Datos */ 3: /* POP: Población de RBs */ 4: /* Initialization(): Initialización de RBs */ 5: /* Refine( HO , D, H p ): devolver la puntuación MDL */ 6: /* array[]: 1-d arreglo */ 8: Initialization(POP); 10: For i=1 to MAX_GEN{ 11: For j=1 to |POP|{ 12: fitness(j)=Refine( HO , D, H j );} 13: POP=Selection(POP); 14: For j=1 to |POP|/2 { // Pariente cruzado(); // seleccionar dos índices array1=parent1; array2 = parent2; POP(children) = crossover(array1,array2);} 15: For j=1 to |POP| // mutación 16: POP(children) = Random(addition, deletion of edges); 17: Repairing(); 18:}

Agregación Evolutiva de RBs De igual forma se debe considerar el refinamiento pata optimizar la solución evolutiva, para ello es necesario aplicar el algoritmo de J. Kim [11] para refinamiento: 1:/* N : El número de RBs para la combinación */ 2: /* POP: Población */ 3: /* order[] : arreglo con tamaño N */ 4: /* Permutation(permutationindex): retorna el orden de N ítems. Hace uso del el índice de la permutación */ 5: /* fitness(j) : aptitud de jth individual */ 6: /* Initialization(population):cada individuo es inicializado con una valor desde 0 a N!-1 */ 7: /* θ: Variable aleatoria */ 9: Initialization(POP); 11: For i=1 to MAX_GEN { 12: For j=1 to |POP| { 13: order = Permutation(POP(j)); 14: fitness(j) = Fusion (order); } 15: POP=Selection(POP, fitness); // selección 16: For j=1 to |POP|/2 // cruzar 17: {Parent(); // seleccionar dos índices POP(children)= θ×POP(parent1)+(1-θ)×POP(parent2);} 18: For j=1 to |POP| // mutación 19: POP(j)=Random(POP(j), 0, N!-1) 20:}

Resultados Esperados El conjunto de entrenamiento deberá ser sacado de la base de datos de SOLCA núcleo de Loja, como población se podría tomar 50 casos, correspondientes al un año específico. En promedio la tasa de clasificación deberá ser por encima del 95%. Teniendo un valor de 90% como mínimo usando el algoritmo NaiveBayes y un porcentaje mejor de aciertos con el algoritmo AODE. Se deberá demostrar con el ejercicio que haciendo uso de un solo mecanismo de clasificación de WEKA (RBs), éstas son menos efectivas que los árboles de clasificación o las reglas de decisión para este tipo de casos, pero si se las combina con AEs su efectividad se incrementa potencialmente.

Resultados Esperados El algoritmo NaiveBayes normal deberá arrojar un porcentaje de 80% de aciertos en cuanto a instancias clasificadas correctamente como mínimo, mientras que las mal clasificadas no deberá sobrepasar el 20%. algoritmo con método de búsqueda TAN y agregación, también incrementará su porcentaje de aciertos hasta un 90% cuanto a instancias clasificadas correctamente, mientras que las mal clasificadas no deberá sobrepasar un 10%. De la clasificación y con el dataset minado se deberá deducir que los factores de mayor incidencia para contraer cáncer son el tabaquismo, patologías bronquiales, edad, exposición ocupacional y factores genéticos

Conclusiones Hemos abordado la eficiencia de RBs para la solución de problemas de diagnóstico, pero es mejor trabajar esta técnica de acuerdo a estrategias evolutivas y algoritmos de búsqueda eficientes (combinando varios mecanismos de WEKA), ello garantizará que el método sea óptimo para espacios de solución globales y que el coste computacional así como el tiempo de solución sean bajos con respecto a métodos tradicionales. El refinamiento garantizará que la solución encontrada sea la adecuada pues actúa como un segundo tamiz de resultados, se obtendrá de esta manera un diagnóstico más preciso que llevará a los pacientes a tomar decisiones que podrían ser trascendentales.

Referencias [01] Thomas P Conrads, Ming Zhou, Emmanuel F Petricoin III, Lance Liotta y Timothy D Veenstra. Cancer diagnosis usingproteomicpatterns. Octubre 2009 [02] AmericanCancerSociety. LungCancer (non-smallcell) [03] MarekGrze. AnIntroductiontoBayesian Networks forLungCancer: Representation and ApproximateInference. Department of ComputerScienceUniversity of York. GraphicalModels Reading Group. Mayo 2009 [04] BallMatt. Diagnosis viaBayesian Networks. ME233 Final Project. Mayo 2009 [05] John Stoitsisa, IoannisValavanisa, Stavroula G. Mougiakakoua, SpyrettaGolematia,Alexandra Nikitab, Konstantina S. Nikitaa. Computeraided diagnosis basedonmedicalimageprocessing and artificial intelligencemethods. 2006 [06] BlattRossella, Bonarini Andrea, Calabrò Elisa, Della Torre Matteo, MatteucciMatteo, PastorinoUgo. Fuzzy k-NN LungCancerIdentificationbyanElectronicNose,. Proceedings of the 7th International WorkshoponFuzzyLogic and Applications, WILF 2007, Lecture Notes in ComputerScience (LNAI), LNAI 4578, pages 261-268, Springer. Camogli (GE), Italy, July 2007. [07] Zhi-HuaZhou, Yuan Jiang, Yu-Bin Yang, Shi-Fu Chen. LungCancerCellIdentificationBasedon Artificial Intelligence Networks Ensembles. china, 2003 [08] P. Larranaga, C.M.H. Kuijpers, R. H. Murga, Y. Yurramendi, “LearningBayesiannetworkstructuresbysearchingforthebestorderingwithgeneticalgorithm,” IEEE TransactionsonSystems, Man and Cybernetics. 2006 [09] P. Larranaga, M. Poza, Y. Yurramendi, R. H. Murga, C.M.H. Kuijpers, “Structurelearning of Bayesiannetworksbygeneticalgorithms: A performance analysis of control parameters,” IEEE TransactionsonPatternAnalysis and Machine Intelligence, 2006 [10] W. Lam and F. Bacchus, “Using new data to refine a Bayesiannetwork,” Proceedings of theUncertainty in Artificial Intelligence, 2004. [11] J. Kim y Sung-BaeCho. EvolutionaryAggregation and Refinement of Bayesian Networks Dept. of ComputerScience, YonseiUniversity. Korea, 2006. [12] A. Velasco Villanueva. Redes bayesianas. 2008

Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Ähnlich wie Minería de datos con WEKA para el diagnóstico preventivo de cáncer (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Minería de datos con WEKA para el diagnóstico preventivo de cáncer