SlideShare ist ein Scribd-Unternehmen logo
1 von 23
UNIVERSIDAD TECNICA PARTICULAR DE LOJA Minería de datos con WEKA para el diagnóstico preventivo de cáncer Integrantes: Alvarado Pablo Peralta Diego Román Carlos
Resumen La utilización de técnicas de inteligencia artificial para “diagnóstico asistido por computadora” ha tenido hasta ahora una prominente trayectoria en la resolución de problemas basados netamente en imágenes, sin embargo también el campo de diagnóstico preventivo  -de cáncer- ha madurado haciendo uso de técnicas como redes bayesianas (RB) o algoritmos evolutivos (AE), tomando como base modelos probabilísticos. En el presente ensayo se abordará aspectos teóricos que llevan a entender la importancia de tratar de diagnosticar preventivamente  el cáncer mediante mecanismos de clasificación y predicción, así como comprender los factores involucrados específicamente en los aspectos a los que el cáncer como enfermedad supone, de allí la necesidad de proponer un diagnóstico intuitivo realizado por computadora con la ayuda de WEKA, previo a la evaluación médica del paciente.
Introducción El cáncer persiste como un desafío para la medicina, porque a pesar de los avances en las técnicas de diagnóstico y en los recursos terapéuticos, las estadísticas reflejan las pocas curaciones con relación a la cantidad de enfermos asistidos. Esto se debe en buena parte a que en los últimos años no han habido respuestas significativas a los intentos de reducir la exposición a carcinógenos, y también a que no mejoró la detección del tumor en una etapa temprana, lo cual hubiera podido aumentar la probabilidad de curación, pero sobre todo a que todavía no se cuenta con la solución apropiada para esta patología. “El porcentaje de sobrevivientes se ha estancado en los últimos 30 años tan solo en un 15% (para cáncer de pulmón, páncreas, hígado) y por sobre el doble de la cifra anterior para otros tipos de cáncer menos agresivos” [06], así, estos tres tipos de cáncer cobran más víctimas que el de mama, próstata o colon juntos (en especial el de pulmón).
Introducción El software WEKA descrito en una exposición de SylvieRattè durante el iSummit 2010 es una herramienta efectiva en el manejo de minería de datos. Para el caso de la enfermedad mencionada se puede aproximar un diagnóstico haciendo uso del mecanismo de predicción de WEKA en base a clasificaciones dadas sobre conjuntos de entrenamiento, esto se puede plasmar en la construcción de software de diagnóstico (un agente inteligente que consuma librerías de WEKA por detrás) orientado a informar y poner sobre aviso los pacientes de instituciones de salud. El propósito de explotar la minería de datos para este caso radica en importancia de la detección temprana del cáncer, pues la sociedad americana de cáncer1informa que si el cáncer es detectado tempranamente el porcentaje de supervivencia se incrementa hasta un 47% [02] (es la media dependiendo del tipo de patología). 1. American CancerSociety (ACS). Sitio oficial: www.cancer.org/
Adaptación del Enfoque a la ciudad de Loja En la ciudad de Loja, nuestro punto de referencia será SOLCA2 Núcleo de Loja. Los pacientes tratados allí son en su inmensa mayoría referidos con diagnóstico presuntivo o confirmado de diversos tipos de cáncer. Por esta razón surge la necesidad de abordar el establecimiento de una minería de datos inteligente, levantada sobre los datos de las historias clínicas para que basados en factores y métodos probabilísticos, puedan ser cargados en un software que sea capaz de realizar un diagnóstico preventivo. Esto se realiza con el fin de evitar que la enfermedad se desarrollo hasta estadios avanzados, mediante la puesta en alerta del paciente. 2. Sociedad de Lucha contra el Cáncer (Ecuador). Mayor información disponible en : www.solcaquito.org/
Adaptación del Enfoque a la ciudad de Loja El software que consuma la minería de datos, debería proporcionar una primera alerta y determinar si un individuo, de acuerdo con el entorno en el que vive y trabaja, sus hábitos alimenticios y de tabaquismo (si los tiene), antecedentes familiares, historial médico y otros parámetros, es propenso a desarrollar cáncer de pulmón. El fin del software sería la consecución de 2 metas que justifiquen notablemente su construcción: Que las personas que tienen un riesgo “X” de padecer cáncer de pulmón, tomen conciencia sobre este problema. Un riesgo suficiente de padecer cáncer podría empujar a la persona a realizar chequeos periódicos y de esta manera ayudaría a la detección del problema.
Situación General del Cáncer de Pulmón El diagnostico preventivo a través del uso de un software no es una practica muy extendida en la ciudad de Loja. La única acción preventiva que se lleva a cabo con regularidad es la tomografía axial computarizada. En la actualidad no existe suficiente fiabilidad y por lo tanto esta práctica no debería extenderse, puesto que en un tanto por ciento de los casos se podrían producir falsos positivos que inducirían a hacer resecciones pulmonares de lesiones benignas.
Situación General de Modelos de Weka Para aspectos de medicina las redes bayesianas han sido utilizadas en el campo del diagnóstico asistido por computadora en investigaciones como las especificadas en [01],[03],[04],[05],[06] y [07], se han demostrado que son adecuadas para su propósito, pero es necesario una especialización superior para perfeccionar su optimidad. Las Redes Bayesianas presentan ventajas de velocidad para encontrar soluciones pero generan el riesgo de estancarse en la optimidad local, por lo que se ha optado por hacer combinaciones con algoritmos evolutivos (AE) para disminuir el coste y hacerlo más optimo.
Situación General de Modelos de Weka La desventaja de los AE es que necesitan mayor tiempo para optimizar soluciones pero son excelentes para búsquedas globales basadas en población.
Aspectos Teóricos: Redes Bayesianas Una red bayesiana es una representación de una función de probabilidad conjunta.  Formalmente es un “grafo acíclico dirigido en el que cada nodo representa una variable aleatoria y las relaciones de dependencias e independencias condicionales quedan establecidas en la propia estructura de la red”[09]. Una RB para un conjunto de variables aleatorias X = {X1 ,.., Xn} es un par B = (G,P(Θ)), especificado en [03] donde G es un gráfico acíclico dirigido, cuyos nodos se encuentran en correspondencia uno a uno con las variables en X , y P es un conjunto de funciones de probabilidad local definidas por un conjunto de parámetros Θ . Una red Bayesiana puede usarse para calcular una probabilidad de interés usando métodos para el proceso de inferencia exacta y aproximada [10].
Aspectos Teóricos: Algoritmos Evolutivos  Son métodos que trabajan con una población de individuos que pertenecen al dominio de los números reales, mediante los procesos de mutación y de recombinación evolucionan para alcanzar el óptimo de la función objetivo. Las variables objeto son los posibles valores que hacen que la función objetivo alcance el óptimo global y las variables estratégicas son los parámetros mediante los que se gobierna el proceso evolutivo o, en otras palabras, las variables estratégicas indican de qué manera las variables objeto son afectadas por la mutación. El genotipo en las estrategias de AE es el conjunto formado por las variables objeto y las variables estratégicas. Y el fenotipo son las variables objeto, ya que conforme se da la variación de éstas, se percibe un mejor o peor desempeño del individuo.
Enfoques evolutivos de una RB El espacio de búsqueda en las RB es extendido de manera exponencial si el número de variables incrementa. Enumerar todas la redes bayesianas no es factible, y debido al problema de estancamiento en el espacio de búsqueda local para una solución óptima, es necesario adoptar una AE que induzca a la RB  a partir de datos. Existen dos enfoques  a considerar para la inducción mencionada, el primero [09] utiliza una matriz de conexión como un cromosoma que representa la RB, así, cuando el número de variables es n, el tamaño de la matriz es n x n, obteniendo así un espacio de búsqueda para n variables igual a 2nxn. El segundo [08]  enfoque consiste en una búsqueda de orden topológico para la RB, el orden restringe la conexión entre las variables, proveyendo una conexión entre variables distintas; dado el orden encontrado,  RBs son escogidas usando un algoritmo de búsqueda local simple con el fin de encontrar un orden topológico adecuado.
Desarrollo de una Solución WEKA debe procesar los modelos probabilísticos basados en algunos factores, para mediante el uso de las técnicas de inteligencia artificial mencionadas (algoritmos de clasificación), sea capaz de diagnosticar si un paciente podría o no tener este tipo de afección. Los factores a considerarse para la aplicación de los  modelos probabilísticos [03] son: Sexo (Masculino, Femenino) Geografía (Campo, Ciudad) Factores Genéticos (propenso, poco propenso, no-propenso) Exposiciones Ocupacionales (con contaminación, sin contaminación)  Contaminación atmosférica (baja, media, alta) Patologías Bronquiales (tiene, no-tiene) Problemas Virales (tiene, no-tiene) Problemas Virales en el pasado (tiene, no-tiene) Problemas de cáncer en el pasado (tuvo, no-tuvo) Antecedentes familiares (cercanos, medios, lejanos, ninguno)  Edad (10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99) Factor de Riesgo: Frecuecnia semanal (0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-90, 91-180, 181-360)
Método de NaiveBayes para construir el clasificador Dada la base de entrenamiento cáncer.pulmón.arff representada por k valores, el clasificador NaiveBayes se basa en encontrar la hipótesis más probable que describa a ese dataset. La descripción viene dada por los valores < a1, a2, .., an >, por tanto la hipótesis [03] más probable será aquella que cumpla:  es decir, la probabilidad de que conocidos los valores que describen al dataset, éste pertenezcan a la clase vj (donde vj es el valor de la función de clasificación f(x) denominada CLASE en el conjunto finito V). Por el teorema de Bayes:
Metodo de NaiveBayes para construir el clasificador Podemos estimar P(vj) contando las veces que aparece un atributo de un caso vj en el conjunto de entrenamiento y dividiéndolo por el número total de atributos que forman este conjunto. Para estimar el término P(a1, ...an|vj), es decir, las veces en que para cada categoría aparecen los valores del caso x, debo recorrer todo el conjunto de entrenamiento. Este cálculo resulta impracticable para un número suficientemente grande de casos por lo que se hace necesario simplificar la expresión. Para ello se recurre a la hipótesis de independencia condicional con el objeto de poder factorizar la probabilidad. Esta hipótesis dice lo siguiente: Los valores aj que describen un atributo de un caso cualquiera x son independientes entre sí conocido  el valor de la categoría a la que pertenecen. Así la probabilidad de observar la conjunción de atributos aj dada una categoría a la que pertenecen es justamente el producto de las probabilidades de cada valor por separado:
Algoritmo TAN Podría servir puesto que se encarga de la búsqueda y recorrido de la red encontrando la estructura TAN de máxima verosimilidad. Resuelve el problema de optimización para una RB normal, incrementando la tasa de clasificación [3]:  1: Calcular I(Xi;Xj/C ) con i < j donde i , j =1,2,…,n. Asignar este valor como peso al arco que conecta las variables Xi y Xj . 2: Ordenar I(Xi;Xj/C) de mayor a menor. 3: Considerar un árbol inicial. 4: Asignar los dos arcos de mayor peso al árbol anterior. 5: Examinar el siguiente arco de mayor peso, y añadirla al árbol (si no forma un ciclo), en cuyo caso se descarta y se examina el siguiente arco con mayor peso. 6: Repetir 5 hasta seleccionar n −1 arcos. 7: Transformar el árbol no dirigido resultante en uno dirigido, con una variable como raíz, para a continuación direccionar el resto de arcos. 8: Construir un modelo TAN añadiendo un nodo etiquetado como C y posteriormente un arco desde C a cada variable predictora  Xi.
Agregación Evolutiva de RBs J. Kim [11] propone un AE con compartimiento de aptitudes para generar diversas RB dado un conjunto de datos masivo. R. Chen utiliza en cambio un enfoque colectivo para leer una RB desde datos heterogéneos distribuidos, esto se realiza mediante la unión de nodos de RBs locales y foráneas. Existen otros autores trabajando sobre el mismo dominio (RBs con AEs), pero debido a que sus enfoques son variados es necesario integrar sus estudios en un modelo simple. La forma más fácil de lograr esto es mediante el uso de operadores de unión e intersección. Es necesario considerar la agregación y el refinamiento para la óptima solución del problema. El primer aspecto se podría solucionar logrando una evolución usando el trabajo planteado por J. Kim [11] con el algoritmo de agregación:
Agregación Evolutiva de RBs 1: /* HO : Red Original */ 2: /* D: Nuevos Datos */ 3: /* POP: Población de RBs */ 4: /* Initialization(): Initialización de RBs */ 5: /* Refine( HO , D, H p ): devolver la puntuación MDL  */ 6: /* array[]: 1-d arreglo */ 8: Initialization(POP); 10: For i=1 to MAX_GEN{ 11: For j=1 to |POP|{ 12: fitness(j)=Refine( HO , D, H j );} 13: POP=Selection(POP); 14: For j=1 to |POP|/2 { // Pariente cruzado(); // seleccionar dos índices array1=parent1; array2 = parent2; POP(children) = crossover(array1,array2);} 15: For j=1 to |POP| // mutación 16: POP(children) = Random(addition, deletion of edges); 17: Repairing(); 18:}
Agregación Evolutiva de RBs De igual forma se debe considerar el refinamiento pata optimizar la solución evolutiva, para ello es necesario aplicar el algoritmo de J. Kim [11] para refinamiento:   1:/* N : El número de RBs para la combinación */ 2: /* POP: Población */ 3: /* order[] : arreglo con tamaño N */ 4: /* Permutation(permutationindex): retorna el orden de N ítems. Hace uso del  el índice de la permutación  */ 5: /* fitness(j) : aptitud de jth individual */ 6: /* Initialization(population):cada individuo es inicializado con una valor desde 0 a N!-1 */ 7: /* θ: Variable aleatoria */ 9: Initialization(POP); 11: For i=1 to MAX_GEN { 12: For j=1 to |POP| { 13: order = Permutation(POP(j)); 14: fitness(j) = Fusion (order); } 15: POP=Selection(POP, fitness); // selección 16: For j=1 to |POP|/2 // cruzar 17: {Parent(); // seleccionar dos índices POP(children)= θ×POP(parent1)+(1-θ)×POP(parent2);} 18: For j=1 to |POP| // mutación 19: POP(j)=Random(POP(j), 0, N!-1) 20:}
Resultados Esperados El conjunto de entrenamiento deberá ser sacado de la base de datos de SOLCA núcleo de Loja, como población se podría tomar 50 casos, correspondientes al un año específico. En promedio la tasa de clasificación deberá ser por encima del 95%. Teniendo un valor de 90% como mínimo usando el algoritmo NaiveBayes y un porcentaje mejor de aciertos con el algoritmo AODE. Se deberá demostrar con el ejercicio que haciendo uso de un solo mecanismo de clasificación de WEKA (RBs), éstas son menos efectivas que los árboles de clasificación o las reglas de decisión para este tipo de casos, pero si se las combina con AEs su efectividad se incrementa potencialmente.
Resultados Esperados El algoritmo NaiveBayes normal deberá arrojar un porcentaje de 80% de aciertos en cuanto a instancias clasificadas correctamente como mínimo, mientras que las mal clasificadas no deberá sobrepasar el 20%.  algoritmo con método de búsqueda TAN y agregación, también incrementará su porcentaje de aciertos hasta un 90% cuanto a instancias clasificadas correctamente, mientras que las mal clasificadas no deberá sobrepasar un 10%. De la clasificación y con el dataset minado se deberá deducir que los factores de mayor incidencia para contraer cáncer son el tabaquismo, patologías bronquiales, edad, exposición ocupacional y factores genéticos
Conclusiones Hemos abordado la eficiencia de RBs para la solución de problemas de diagnóstico, pero es mejor trabajar esta técnica de acuerdo a estrategias evolutivas y algoritmos de búsqueda eficientes (combinando varios mecanismos de WEKA), ello garantizará que el método sea óptimo para espacios de solución globales y que el coste computacional así como el tiempo de solución sean bajos con respecto a  métodos tradicionales. El refinamiento garantizará que la solución encontrada sea la adecuada pues actúa como un segundo tamiz de resultados, se obtendrá de esta manera un diagnóstico más preciso que llevará a los pacientes a tomar decisiones que podrían ser trascendentales.
Referencias [01] Thomas P Conrads, Ming Zhou, Emmanuel F Petricoin III, Lance Liotta y Timothy D Veenstra. Cancer diagnosis usingproteomicpatterns. Octubre 2009  [02] AmericanCancerSociety. LungCancer (non-smallcell) [03] MarekGrze. AnIntroductiontoBayesian Networks forLungCancer: Representation and ApproximateInference. Department of ComputerScienceUniversity of York. GraphicalModels Reading Group. Mayo 2009 [04] BallMatt. Diagnosis viaBayesian Networks. ME233 Final Project. Mayo 2009 [05] John Stoitsisa, IoannisValavanisa, Stavroula G. Mougiakakoua, SpyrettaGolematia,Alexandra Nikitab, Konstantina S. Nikitaa. Computeraided diagnosis basedonmedicalimageprocessing and artificial intelligencemethods. 2006 [06] BlattRossella, Bonarini Andrea, Calabrò Elisa, Della Torre Matteo, MatteucciMatteo, PastorinoUgo. Fuzzy k-NN LungCancerIdentificationbyanElectronicNose,. Proceedings of the 7th International WorkshoponFuzzyLogic and Applications, WILF 2007, Lecture Notes in ComputerScience (LNAI), LNAI 4578, pages 261-268, Springer. Camogli (GE), Italy, July 2007. [07]  Zhi-HuaZhou, Yuan Jiang, Yu-Bin Yang, Shi-Fu Chen. LungCancerCellIdentificationBasedon Artificial Intelligence Networks Ensembles. china, 2003  [08] P. Larranaga, C.M.H. Kuijpers, R. H. Murga, Y. Yurramendi, “LearningBayesiannetworkstructuresbysearchingforthebestorderingwithgeneticalgorithm,” IEEE TransactionsonSystems, Man and Cybernetics. 2006  [09] P. Larranaga, M. Poza, Y. Yurramendi, R. H. Murga,  C.M.H. Kuijpers, “Structurelearning of Bayesiannetworksbygeneticalgorithms: A performance analysis of control parameters,” IEEE TransactionsonPatternAnalysis and Machine Intelligence, 2006  [10] W. Lam and F. Bacchus, “Using new data to refine a Bayesiannetwork,” Proceedings of theUncertainty in Artificial Intelligence, 2004.  [11] J. Kim y Sung-BaeCho. EvolutionaryAggregation and Refinement of Bayesian Networks Dept. of ComputerScience, YonseiUniversity. Korea, 2006.  [12] A. Velasco Villanueva. Redes bayesianas. 2008

Weitere ähnliche Inhalte

Andere mochten auch

Technorati Jose Maria E IváN (1)
Technorati Jose Maria E IváN (1)Technorati Jose Maria E IváN (1)
Technorati Jose Maria E IváN (1)Laurammsov76
 
Esto son rosas
Esto son rosasEsto son rosas
Esto son rosasgogloba
 
Ud4 Las Revoluciones Liberales
Ud4 Las Revoluciones LiberalesUd4 Las Revoluciones Liberales
Ud4 Las Revoluciones LiberalesMiriam
 
Rincones De España
Rincones De EspañaRincones De España
Rincones De Españabrookiron
 
Proyecto Diplomado
Proyecto DiplomadoProyecto Diplomado
Proyecto Diplomadooman rivero
 
Creamos Una Wiki Juntos Con Wikispaces
Creamos Una Wiki Juntos Con WikispacesCreamos Una Wiki Juntos Con Wikispaces
Creamos Una Wiki Juntos Con WikispacesSendy
 
Donacion Voluntaria De Sangre
Donacion Voluntaria De SangreDonacion Voluntaria De Sangre
Donacion Voluntaria De Sangreguest02ef54
 
Engage the crowd - Social Media in der Schweiz
Engage the crowd - Social Media in der SchweizEngage the crowd - Social Media in der Schweiz
Engage the crowd - Social Media in der SchweizStrategiepartner
 
Repostería ecológica, el dulce también puede ser sano
Repostería ecológica, el dulce también puede ser sanoRepostería ecológica, el dulce también puede ser sano
Repostería ecológica, el dulce también puede ser sanotudespensa.com
 
Aparato Digestivo
Aparato DigestivoAparato Digestivo
Aparato Digestivoestifer93
 
Els Biocombustibles
Els BiocombustiblesEls Biocombustibles
Els BiocombustiblesXalet
 
Prenoviciado
PrenoviciadoPrenoviciado
Prenoviciadomisiotere
 

Andere mochten auch (20)

Technorati Jose Maria E IváN (1)
Technorati Jose Maria E IváN (1)Technorati Jose Maria E IváN (1)
Technorati Jose Maria E IváN (1)
 
Pres Web2.0
Pres Web2.0Pres Web2.0
Pres Web2.0
 
web. 2.0
web. 2.0web. 2.0
web. 2.0
 
Variedades de la lengua
Variedades de la lenguaVariedades de la lengua
Variedades de la lengua
 
Esto son rosas
Esto son rosasEsto son rosas
Esto son rosas
 
Ud4 Las Revoluciones Liberales
Ud4 Las Revoluciones LiberalesUd4 Las Revoluciones Liberales
Ud4 Las Revoluciones Liberales
 
Rincones De España
Rincones De EspañaRincones De España
Rincones De España
 
Proyecto Diplomado
Proyecto DiplomadoProyecto Diplomado
Proyecto Diplomado
 
Creamos Una Wiki Juntos Con Wikispaces
Creamos Una Wiki Juntos Con WikispacesCreamos Una Wiki Juntos Con Wikispaces
Creamos Una Wiki Juntos Con Wikispaces
 
Donacion Voluntaria De Sangre
Donacion Voluntaria De SangreDonacion Voluntaria De Sangre
Donacion Voluntaria De Sangre
 
Vestidos
VestidosVestidos
Vestidos
 
Music
MusicMusic
Music
 
La verdad
La verdadLa verdad
La verdad
 
Engage the crowd - Social Media in der Schweiz
Engage the crowd - Social Media in der SchweizEngage the crowd - Social Media in der Schweiz
Engage the crowd - Social Media in der Schweiz
 
Elecciones 2011
Elecciones 2011Elecciones 2011
Elecciones 2011
 
Repostería ecológica, el dulce también puede ser sano
Repostería ecológica, el dulce también puede ser sanoRepostería ecológica, el dulce también puede ser sano
Repostería ecológica, el dulce también puede ser sano
 
Aparato Digestivo
Aparato DigestivoAparato Digestivo
Aparato Digestivo
 
Els Biocombustibles
Els BiocombustiblesEls Biocombustibles
Els Biocombustibles
 
Rousseau - Guía de Esposición
Rousseau - Guía de EsposiciónRousseau - Guía de Esposición
Rousseau - Guía de Esposición
 
Prenoviciado
PrenoviciadoPrenoviciado
Prenoviciado
 

Ähnlich wie Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Mineria de datos en salud - Introducción -
Mineria de datos en salud   - Introducción -Mineria de datos en salud   - Introducción -
Mineria de datos en salud - Introducción -jairo cesar
 
Protección Radiológica del Paciente y Control de Calidad en Mamografía
Protección Radiológica del Paciente y Control de Calidad en MamografíaProtección Radiológica del Paciente y Control de Calidad en Mamografía
Protección Radiológica del Paciente y Control de Calidad en MamografíaEduardo Medina Gironzini
 
Rh Research Methods Sp
Rh Research Methods SpRh Research Methods Sp
Rh Research Methods Spdani61
 
Red neuronal para covid 19
Red neuronal para covid 19Red neuronal para covid 19
Red neuronal para covid 19MaraRamrez91
 
Taller de Introducción a la Telemedicina, dirigido al personal de salud
Taller de Introducción a la Telemedicina, dirigido al personal de saludTaller de Introducción a la Telemedicina, dirigido al personal de salud
Taller de Introducción a la Telemedicina, dirigido al personal de saludHyxia Villegas
 
Informe y sistema de base de datos de sus siglas en inglés i rads
Informe y sistema de base de datos de sus siglas en inglés i radsInforme y sistema de base de datos de sus siglas en inglés i rads
Informe y sistema de base de datos de sus siglas en inglés i radsGaspar Alberto Motta Ramírez
 
MODELO DEMOSTRATIVO DE UN SISTEMA COMPUTARIZADO PARA LA SOLICITUD DE ESTUDIOS...
MODELO DEMOSTRATIVO DE UN SISTEMA COMPUTARIZADO PARA LA SOLICITUD DE ESTUDIOS...MODELO DEMOSTRATIVO DE UN SISTEMA COMPUTARIZADO PARA LA SOLICITUD DE ESTUDIOS...
MODELO DEMOSTRATIVO DE UN SISTEMA COMPUTARIZADO PARA LA SOLICITUD DE ESTUDIOS...Miguel Angel
 
Diapositivas del PIS - Desarrollo de un software médico
Diapositivas del PIS - Desarrollo de un software médicoDiapositivas del PIS - Desarrollo de un software médico
Diapositivas del PIS - Desarrollo de un software médicoTatiana Cacay
 
MetodoAnlisisDescriptivoMachineLearning.pdf
MetodoAnlisisDescriptivoMachineLearning.pdfMetodoAnlisisDescriptivoMachineLearning.pdf
MetodoAnlisisDescriptivoMachineLearning.pdfCristVillar
 
planificacion sanitaria materia 5 power point.pptx
planificacion sanitaria materia 5 power point.pptxplanificacion sanitaria materia 5 power point.pptx
planificacion sanitaria materia 5 power point.pptxAngelDelRosarioMedin
 
Nashly garnica curso 1001
Nashly garnica curso 1001Nashly garnica curso 1001
Nashly garnica curso 1001NashlyGarnica
 
Aetsa 2011 2-3_virus_oncoliticos
Aetsa 2011 2-3_virus_oncoliticosAetsa 2011 2-3_virus_oncoliticos
Aetsa 2011 2-3_virus_oncoliticosVictor Alvarado
 
Eval grade eca aphinity 3y, ca ma her2+, qmt+tzm, pzm vs plac, +sle
Eval grade eca aphinity 3y, ca ma her2+, qmt+tzm, pzm vs plac, +sleEval grade eca aphinity 3y, ca ma her2+, qmt+tzm, pzm vs plac, +sle
Eval grade eca aphinity 3y, ca ma her2+, qmt+tzm, pzm vs plac, +slegaloagustinsanchez
 
PEE Proyecto electronico de evidencias
PEE Proyecto electronico de evidenciasPEE Proyecto electronico de evidencias
PEE Proyecto electronico de evidencias2012residentesL
 

Ähnlich wie Minería de datos con WEKA para el diagnóstico preventivo de cáncer (20)

Mineria de datos en salud - Introducción -
Mineria de datos en salud   - Introducción -Mineria de datos en salud   - Introducción -
Mineria de datos en salud - Introducción -
 
Protección Radiológica del Paciente y Control de Calidad en Mamografía
Protección Radiológica del Paciente y Control de Calidad en MamografíaProtección Radiológica del Paciente y Control de Calidad en Mamografía
Protección Radiológica del Paciente y Control de Calidad en Mamografía
 
Lumbàlgies
LumbàlgiesLumbàlgies
Lumbàlgies
 
Acg para blog med. familiar
Acg para blog med. familiarAcg para blog med. familiar
Acg para blog med. familiar
 
Rh Research Methods Sp
Rh Research Methods SpRh Research Methods Sp
Rh Research Methods Sp
 
Red neuronal para covid 19
Red neuronal para covid 19Red neuronal para covid 19
Red neuronal para covid 19
 
Taller de Introducción a la Telemedicina, dirigido al personal de salud
Taller de Introducción a la Telemedicina, dirigido al personal de saludTaller de Introducción a la Telemedicina, dirigido al personal de salud
Taller de Introducción a la Telemedicina, dirigido al personal de salud
 
Informe y sistema de base de datos de sus siglas en inglés i rads
Informe y sistema de base de datos de sus siglas en inglés i radsInforme y sistema de base de datos de sus siglas en inglés i rads
Informe y sistema de base de datos de sus siglas en inglés i rads
 
Sistemas De Vigilancia Epidemiologica 2
Sistemas De Vigilancia Epidemiologica 2Sistemas De Vigilancia Epidemiologica 2
Sistemas De Vigilancia Epidemiologica 2
 
Ppt fce
Ppt fcePpt fce
Ppt fce
 
Gira agosto
Gira agostoGira agosto
Gira agosto
 
MODELO DEMOSTRATIVO DE UN SISTEMA COMPUTARIZADO PARA LA SOLICITUD DE ESTUDIOS...
MODELO DEMOSTRATIVO DE UN SISTEMA COMPUTARIZADO PARA LA SOLICITUD DE ESTUDIOS...MODELO DEMOSTRATIVO DE UN SISTEMA COMPUTARIZADO PARA LA SOLICITUD DE ESTUDIOS...
MODELO DEMOSTRATIVO DE UN SISTEMA COMPUTARIZADO PARA LA SOLICITUD DE ESTUDIOS...
 
PRO 2013.pptx
PRO 2013.pptxPRO 2013.pptx
PRO 2013.pptx
 
Diapositivas del PIS - Desarrollo de un software médico
Diapositivas del PIS - Desarrollo de un software médicoDiapositivas del PIS - Desarrollo de un software médico
Diapositivas del PIS - Desarrollo de un software médico
 
MetodoAnlisisDescriptivoMachineLearning.pdf
MetodoAnlisisDescriptivoMachineLearning.pdfMetodoAnlisisDescriptivoMachineLearning.pdf
MetodoAnlisisDescriptivoMachineLearning.pdf
 
planificacion sanitaria materia 5 power point.pptx
planificacion sanitaria materia 5 power point.pptxplanificacion sanitaria materia 5 power point.pptx
planificacion sanitaria materia 5 power point.pptx
 
Nashly garnica curso 1001
Nashly garnica curso 1001Nashly garnica curso 1001
Nashly garnica curso 1001
 
Aetsa 2011 2-3_virus_oncoliticos
Aetsa 2011 2-3_virus_oncoliticosAetsa 2011 2-3_virus_oncoliticos
Aetsa 2011 2-3_virus_oncoliticos
 
Eval grade eca aphinity 3y, ca ma her2+, qmt+tzm, pzm vs plac, +sle
Eval grade eca aphinity 3y, ca ma her2+, qmt+tzm, pzm vs plac, +sleEval grade eca aphinity 3y, ca ma her2+, qmt+tzm, pzm vs plac, +sle
Eval grade eca aphinity 3y, ca ma her2+, qmt+tzm, pzm vs plac, +sle
 
PEE Proyecto electronico de evidencias
PEE Proyecto electronico de evidenciasPEE Proyecto electronico de evidencias
PEE Proyecto electronico de evidencias
 

Kürzlich hochgeladen

RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONamelia poma
 
AEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxAEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxhenarfdez
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primariaWilian24
 
Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Juan Martín Martín
 
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...jlorentemartos
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICAÁngel Encinas
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024IES Vicent Andres Estelles
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...JAVIER SOLIS NOYOLA
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptAlberto Rubio
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024IES Vicent Andres Estelles
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxlclcarmen
 
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCTRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCCarlosEduardoSosa2
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOluismii249
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfapunteshistoriamarmo
 
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
SESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.docSESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.doc
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.docRodneyFrankCUADROSMI
 

Kürzlich hochgeladen (20)

RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
 
Novena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan EudesNovena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan Eudes
 
AEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxAEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptx
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
 
Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024
 
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
Los dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la VerdadLos dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la Verdad
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
Sesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdfSesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdf
 
Lecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigosLecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigos
 
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCTRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
SESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.docSESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.doc
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
 

Minería de datos con WEKA para el diagnóstico preventivo de cáncer

  • 1. UNIVERSIDAD TECNICA PARTICULAR DE LOJA Minería de datos con WEKA para el diagnóstico preventivo de cáncer Integrantes: Alvarado Pablo Peralta Diego Román Carlos
  • 2. Resumen La utilización de técnicas de inteligencia artificial para “diagnóstico asistido por computadora” ha tenido hasta ahora una prominente trayectoria en la resolución de problemas basados netamente en imágenes, sin embargo también el campo de diagnóstico preventivo -de cáncer- ha madurado haciendo uso de técnicas como redes bayesianas (RB) o algoritmos evolutivos (AE), tomando como base modelos probabilísticos. En el presente ensayo se abordará aspectos teóricos que llevan a entender la importancia de tratar de diagnosticar preventivamente el cáncer mediante mecanismos de clasificación y predicción, así como comprender los factores involucrados específicamente en los aspectos a los que el cáncer como enfermedad supone, de allí la necesidad de proponer un diagnóstico intuitivo realizado por computadora con la ayuda de WEKA, previo a la evaluación médica del paciente.
  • 3. Introducción El cáncer persiste como un desafío para la medicina, porque a pesar de los avances en las técnicas de diagnóstico y en los recursos terapéuticos, las estadísticas reflejan las pocas curaciones con relación a la cantidad de enfermos asistidos. Esto se debe en buena parte a que en los últimos años no han habido respuestas significativas a los intentos de reducir la exposición a carcinógenos, y también a que no mejoró la detección del tumor en una etapa temprana, lo cual hubiera podido aumentar la probabilidad de curación, pero sobre todo a que todavía no se cuenta con la solución apropiada para esta patología. “El porcentaje de sobrevivientes se ha estancado en los últimos 30 años tan solo en un 15% (para cáncer de pulmón, páncreas, hígado) y por sobre el doble de la cifra anterior para otros tipos de cáncer menos agresivos” [06], así, estos tres tipos de cáncer cobran más víctimas que el de mama, próstata o colon juntos (en especial el de pulmón).
  • 4. Introducción El software WEKA descrito en una exposición de SylvieRattè durante el iSummit 2010 es una herramienta efectiva en el manejo de minería de datos. Para el caso de la enfermedad mencionada se puede aproximar un diagnóstico haciendo uso del mecanismo de predicción de WEKA en base a clasificaciones dadas sobre conjuntos de entrenamiento, esto se puede plasmar en la construcción de software de diagnóstico (un agente inteligente que consuma librerías de WEKA por detrás) orientado a informar y poner sobre aviso los pacientes de instituciones de salud. El propósito de explotar la minería de datos para este caso radica en importancia de la detección temprana del cáncer, pues la sociedad americana de cáncer1informa que si el cáncer es detectado tempranamente el porcentaje de supervivencia se incrementa hasta un 47% [02] (es la media dependiendo del tipo de patología). 1. American CancerSociety (ACS). Sitio oficial: www.cancer.org/
  • 5. Adaptación del Enfoque a la ciudad de Loja En la ciudad de Loja, nuestro punto de referencia será SOLCA2 Núcleo de Loja. Los pacientes tratados allí son en su inmensa mayoría referidos con diagnóstico presuntivo o confirmado de diversos tipos de cáncer. Por esta razón surge la necesidad de abordar el establecimiento de una minería de datos inteligente, levantada sobre los datos de las historias clínicas para que basados en factores y métodos probabilísticos, puedan ser cargados en un software que sea capaz de realizar un diagnóstico preventivo. Esto se realiza con el fin de evitar que la enfermedad se desarrollo hasta estadios avanzados, mediante la puesta en alerta del paciente. 2. Sociedad de Lucha contra el Cáncer (Ecuador). Mayor información disponible en : www.solcaquito.org/
  • 6. Adaptación del Enfoque a la ciudad de Loja El software que consuma la minería de datos, debería proporcionar una primera alerta y determinar si un individuo, de acuerdo con el entorno en el que vive y trabaja, sus hábitos alimenticios y de tabaquismo (si los tiene), antecedentes familiares, historial médico y otros parámetros, es propenso a desarrollar cáncer de pulmón. El fin del software sería la consecución de 2 metas que justifiquen notablemente su construcción: Que las personas que tienen un riesgo “X” de padecer cáncer de pulmón, tomen conciencia sobre este problema. Un riesgo suficiente de padecer cáncer podría empujar a la persona a realizar chequeos periódicos y de esta manera ayudaría a la detección del problema.
  • 7. Situación General del Cáncer de Pulmón El diagnostico preventivo a través del uso de un software no es una practica muy extendida en la ciudad de Loja. La única acción preventiva que se lleva a cabo con regularidad es la tomografía axial computarizada. En la actualidad no existe suficiente fiabilidad y por lo tanto esta práctica no debería extenderse, puesto que en un tanto por ciento de los casos se podrían producir falsos positivos que inducirían a hacer resecciones pulmonares de lesiones benignas.
  • 8. Situación General de Modelos de Weka Para aspectos de medicina las redes bayesianas han sido utilizadas en el campo del diagnóstico asistido por computadora en investigaciones como las especificadas en [01],[03],[04],[05],[06] y [07], se han demostrado que son adecuadas para su propósito, pero es necesario una especialización superior para perfeccionar su optimidad. Las Redes Bayesianas presentan ventajas de velocidad para encontrar soluciones pero generan el riesgo de estancarse en la optimidad local, por lo que se ha optado por hacer combinaciones con algoritmos evolutivos (AE) para disminuir el coste y hacerlo más optimo.
  • 9. Situación General de Modelos de Weka La desventaja de los AE es que necesitan mayor tiempo para optimizar soluciones pero son excelentes para búsquedas globales basadas en población.
  • 10. Aspectos Teóricos: Redes Bayesianas Una red bayesiana es una representación de una función de probabilidad conjunta. Formalmente es un “grafo acíclico dirigido en el que cada nodo representa una variable aleatoria y las relaciones de dependencias e independencias condicionales quedan establecidas en la propia estructura de la red”[09]. Una RB para un conjunto de variables aleatorias X = {X1 ,.., Xn} es un par B = (G,P(Θ)), especificado en [03] donde G es un gráfico acíclico dirigido, cuyos nodos se encuentran en correspondencia uno a uno con las variables en X , y P es un conjunto de funciones de probabilidad local definidas por un conjunto de parámetros Θ . Una red Bayesiana puede usarse para calcular una probabilidad de interés usando métodos para el proceso de inferencia exacta y aproximada [10].
  • 11. Aspectos Teóricos: Algoritmos Evolutivos Son métodos que trabajan con una población de individuos que pertenecen al dominio de los números reales, mediante los procesos de mutación y de recombinación evolucionan para alcanzar el óptimo de la función objetivo. Las variables objeto son los posibles valores que hacen que la función objetivo alcance el óptimo global y las variables estratégicas son los parámetros mediante los que se gobierna el proceso evolutivo o, en otras palabras, las variables estratégicas indican de qué manera las variables objeto son afectadas por la mutación. El genotipo en las estrategias de AE es el conjunto formado por las variables objeto y las variables estratégicas. Y el fenotipo son las variables objeto, ya que conforme se da la variación de éstas, se percibe un mejor o peor desempeño del individuo.
  • 12. Enfoques evolutivos de una RB El espacio de búsqueda en las RB es extendido de manera exponencial si el número de variables incrementa. Enumerar todas la redes bayesianas no es factible, y debido al problema de estancamiento en el espacio de búsqueda local para una solución óptima, es necesario adoptar una AE que induzca a la RB a partir de datos. Existen dos enfoques a considerar para la inducción mencionada, el primero [09] utiliza una matriz de conexión como un cromosoma que representa la RB, así, cuando el número de variables es n, el tamaño de la matriz es n x n, obteniendo así un espacio de búsqueda para n variables igual a 2nxn. El segundo [08] enfoque consiste en una búsqueda de orden topológico para la RB, el orden restringe la conexión entre las variables, proveyendo una conexión entre variables distintas; dado el orden encontrado, RBs son escogidas usando un algoritmo de búsqueda local simple con el fin de encontrar un orden topológico adecuado.
  • 13. Desarrollo de una Solución WEKA debe procesar los modelos probabilísticos basados en algunos factores, para mediante el uso de las técnicas de inteligencia artificial mencionadas (algoritmos de clasificación), sea capaz de diagnosticar si un paciente podría o no tener este tipo de afección. Los factores a considerarse para la aplicación de los modelos probabilísticos [03] son: Sexo (Masculino, Femenino) Geografía (Campo, Ciudad) Factores Genéticos (propenso, poco propenso, no-propenso) Exposiciones Ocupacionales (con contaminación, sin contaminación) Contaminación atmosférica (baja, media, alta) Patologías Bronquiales (tiene, no-tiene) Problemas Virales (tiene, no-tiene) Problemas Virales en el pasado (tiene, no-tiene) Problemas de cáncer en el pasado (tuvo, no-tuvo) Antecedentes familiares (cercanos, medios, lejanos, ninguno) Edad (10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99) Factor de Riesgo: Frecuecnia semanal (0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-90, 91-180, 181-360)
  • 14. Método de NaiveBayes para construir el clasificador Dada la base de entrenamiento cáncer.pulmón.arff representada por k valores, el clasificador NaiveBayes se basa en encontrar la hipótesis más probable que describa a ese dataset. La descripción viene dada por los valores < a1, a2, .., an >, por tanto la hipótesis [03] más probable será aquella que cumpla: es decir, la probabilidad de que conocidos los valores que describen al dataset, éste pertenezcan a la clase vj (donde vj es el valor de la función de clasificación f(x) denominada CLASE en el conjunto finito V). Por el teorema de Bayes:
  • 15. Metodo de NaiveBayes para construir el clasificador Podemos estimar P(vj) contando las veces que aparece un atributo de un caso vj en el conjunto de entrenamiento y dividiéndolo por el número total de atributos que forman este conjunto. Para estimar el término P(a1, ...an|vj), es decir, las veces en que para cada categoría aparecen los valores del caso x, debo recorrer todo el conjunto de entrenamiento. Este cálculo resulta impracticable para un número suficientemente grande de casos por lo que se hace necesario simplificar la expresión. Para ello se recurre a la hipótesis de independencia condicional con el objeto de poder factorizar la probabilidad. Esta hipótesis dice lo siguiente: Los valores aj que describen un atributo de un caso cualquiera x son independientes entre sí conocido el valor de la categoría a la que pertenecen. Así la probabilidad de observar la conjunción de atributos aj dada una categoría a la que pertenecen es justamente el producto de las probabilidades de cada valor por separado:
  • 16. Algoritmo TAN Podría servir puesto que se encarga de la búsqueda y recorrido de la red encontrando la estructura TAN de máxima verosimilidad. Resuelve el problema de optimización para una RB normal, incrementando la tasa de clasificación [3]: 1: Calcular I(Xi;Xj/C ) con i < j donde i , j =1,2,…,n. Asignar este valor como peso al arco que conecta las variables Xi y Xj . 2: Ordenar I(Xi;Xj/C) de mayor a menor. 3: Considerar un árbol inicial. 4: Asignar los dos arcos de mayor peso al árbol anterior. 5: Examinar el siguiente arco de mayor peso, y añadirla al árbol (si no forma un ciclo), en cuyo caso se descarta y se examina el siguiente arco con mayor peso. 6: Repetir 5 hasta seleccionar n −1 arcos. 7: Transformar el árbol no dirigido resultante en uno dirigido, con una variable como raíz, para a continuación direccionar el resto de arcos. 8: Construir un modelo TAN añadiendo un nodo etiquetado como C y posteriormente un arco desde C a cada variable predictora Xi.
  • 17. Agregación Evolutiva de RBs J. Kim [11] propone un AE con compartimiento de aptitudes para generar diversas RB dado un conjunto de datos masivo. R. Chen utiliza en cambio un enfoque colectivo para leer una RB desde datos heterogéneos distribuidos, esto se realiza mediante la unión de nodos de RBs locales y foráneas. Existen otros autores trabajando sobre el mismo dominio (RBs con AEs), pero debido a que sus enfoques son variados es necesario integrar sus estudios en un modelo simple. La forma más fácil de lograr esto es mediante el uso de operadores de unión e intersección. Es necesario considerar la agregación y el refinamiento para la óptima solución del problema. El primer aspecto se podría solucionar logrando una evolución usando el trabajo planteado por J. Kim [11] con el algoritmo de agregación:
  • 18. Agregación Evolutiva de RBs 1: /* HO : Red Original */ 2: /* D: Nuevos Datos */ 3: /* POP: Población de RBs */ 4: /* Initialization(): Initialización de RBs */ 5: /* Refine( HO , D, H p ): devolver la puntuación MDL */ 6: /* array[]: 1-d arreglo */ 8: Initialization(POP); 10: For i=1 to MAX_GEN{ 11: For j=1 to |POP|{ 12: fitness(j)=Refine( HO , D, H j );} 13: POP=Selection(POP); 14: For j=1 to |POP|/2 { // Pariente cruzado(); // seleccionar dos índices array1=parent1; array2 = parent2; POP(children) = crossover(array1,array2);} 15: For j=1 to |POP| // mutación 16: POP(children) = Random(addition, deletion of edges); 17: Repairing(); 18:}
  • 19. Agregación Evolutiva de RBs De igual forma se debe considerar el refinamiento pata optimizar la solución evolutiva, para ello es necesario aplicar el algoritmo de J. Kim [11] para refinamiento:   1:/* N : El número de RBs para la combinación */ 2: /* POP: Población */ 3: /* order[] : arreglo con tamaño N */ 4: /* Permutation(permutationindex): retorna el orden de N ítems. Hace uso del el índice de la permutación */ 5: /* fitness(j) : aptitud de jth individual */ 6: /* Initialization(population):cada individuo es inicializado con una valor desde 0 a N!-1 */ 7: /* θ: Variable aleatoria */ 9: Initialization(POP); 11: For i=1 to MAX_GEN { 12: For j=1 to |POP| { 13: order = Permutation(POP(j)); 14: fitness(j) = Fusion (order); } 15: POP=Selection(POP, fitness); // selección 16: For j=1 to |POP|/2 // cruzar 17: {Parent(); // seleccionar dos índices POP(children)= θ×POP(parent1)+(1-θ)×POP(parent2);} 18: For j=1 to |POP| // mutación 19: POP(j)=Random(POP(j), 0, N!-1) 20:}
  • 20. Resultados Esperados El conjunto de entrenamiento deberá ser sacado de la base de datos de SOLCA núcleo de Loja, como población se podría tomar 50 casos, correspondientes al un año específico. En promedio la tasa de clasificación deberá ser por encima del 95%. Teniendo un valor de 90% como mínimo usando el algoritmo NaiveBayes y un porcentaje mejor de aciertos con el algoritmo AODE. Se deberá demostrar con el ejercicio que haciendo uso de un solo mecanismo de clasificación de WEKA (RBs), éstas son menos efectivas que los árboles de clasificación o las reglas de decisión para este tipo de casos, pero si se las combina con AEs su efectividad se incrementa potencialmente.
  • 21. Resultados Esperados El algoritmo NaiveBayes normal deberá arrojar un porcentaje de 80% de aciertos en cuanto a instancias clasificadas correctamente como mínimo, mientras que las mal clasificadas no deberá sobrepasar el 20%. algoritmo con método de búsqueda TAN y agregación, también incrementará su porcentaje de aciertos hasta un 90% cuanto a instancias clasificadas correctamente, mientras que las mal clasificadas no deberá sobrepasar un 10%. De la clasificación y con el dataset minado se deberá deducir que los factores de mayor incidencia para contraer cáncer son el tabaquismo, patologías bronquiales, edad, exposición ocupacional y factores genéticos
  • 22. Conclusiones Hemos abordado la eficiencia de RBs para la solución de problemas de diagnóstico, pero es mejor trabajar esta técnica de acuerdo a estrategias evolutivas y algoritmos de búsqueda eficientes (combinando varios mecanismos de WEKA), ello garantizará que el método sea óptimo para espacios de solución globales y que el coste computacional así como el tiempo de solución sean bajos con respecto a métodos tradicionales. El refinamiento garantizará que la solución encontrada sea la adecuada pues actúa como un segundo tamiz de resultados, se obtendrá de esta manera un diagnóstico más preciso que llevará a los pacientes a tomar decisiones que podrían ser trascendentales.
  • 23. Referencias [01] Thomas P Conrads, Ming Zhou, Emmanuel F Petricoin III, Lance Liotta y Timothy D Veenstra. Cancer diagnosis usingproteomicpatterns. Octubre 2009 [02] AmericanCancerSociety. LungCancer (non-smallcell) [03] MarekGrze. AnIntroductiontoBayesian Networks forLungCancer: Representation and ApproximateInference. Department of ComputerScienceUniversity of York. GraphicalModels Reading Group. Mayo 2009 [04] BallMatt. Diagnosis viaBayesian Networks. ME233 Final Project. Mayo 2009 [05] John Stoitsisa, IoannisValavanisa, Stavroula G. Mougiakakoua, SpyrettaGolematia,Alexandra Nikitab, Konstantina S. Nikitaa. Computeraided diagnosis basedonmedicalimageprocessing and artificial intelligencemethods. 2006 [06] BlattRossella, Bonarini Andrea, Calabrò Elisa, Della Torre Matteo, MatteucciMatteo, PastorinoUgo. Fuzzy k-NN LungCancerIdentificationbyanElectronicNose,. Proceedings of the 7th International WorkshoponFuzzyLogic and Applications, WILF 2007, Lecture Notes in ComputerScience (LNAI), LNAI 4578, pages 261-268, Springer. Camogli (GE), Italy, July 2007. [07] Zhi-HuaZhou, Yuan Jiang, Yu-Bin Yang, Shi-Fu Chen. LungCancerCellIdentificationBasedon Artificial Intelligence Networks Ensembles. china, 2003  [08] P. Larranaga, C.M.H. Kuijpers, R. H. Murga, Y. Yurramendi, “LearningBayesiannetworkstructuresbysearchingforthebestorderingwithgeneticalgorithm,” IEEE TransactionsonSystems, Man and Cybernetics. 2006  [09] P. Larranaga, M. Poza, Y. Yurramendi, R. H. Murga, C.M.H. Kuijpers, “Structurelearning of Bayesiannetworksbygeneticalgorithms: A performance analysis of control parameters,” IEEE TransactionsonPatternAnalysis and Machine Intelligence, 2006  [10] W. Lam and F. Bacchus, “Using new data to refine a Bayesiannetwork,” Proceedings of theUncertainty in Artificial Intelligence, 2004.  [11] J. Kim y Sung-BaeCho. EvolutionaryAggregation and Refinement of Bayesian Networks Dept. of ComputerScience, YonseiUniversity. Korea, 2006.  [12] A. Velasco Villanueva. Redes bayesianas. 2008