SlideShare una empresa de Scribd logo
1 de 59
Descargar para leer sin conexión
Minería de Datos y Aprendizaje
Estadístico en Ciencias Biológicas
Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015
Algo a cerca de mi
PhD(c) en el Lab de Sistemas
Inteligentes - UNAL.
• Analizo funcionalmente el
metabolismo.
• Propongo una analogía lingüística.
• Aplico Sistemas inteligentes para
obtener información
Otros Proyectos:
Proponer desde la Biología de Sistemas
moléculas para un nanosensor de MTB
Proteínas de secreción en helmintos
Sistema de Recomendación de fuentes
de financiamiento científico
Modelamiento Estadístico
Dos Culturas Statistical Science
2001, Vol. 16, No. 3, 199–231
• Una asume que los datos
son generados por un
modelo estocástico de
datos.
• La otra usa modelos
algorítmicos y trata los
mecanismos de datos
como desconocidos
Modelamiento Estadístico
Dos Culturas
La estadística y los datos
naturaleza xy
Los datos se generan
en una «caja negra»
X es un vector de
variables de entrada
(independientes)
y son las variables de
respuesta
Dentro de la caja negra la naturaleza
funciona asociando las variables del
«predictor» con las de «respuesta»
La estadística y los datos
naturaleza xy
Dos objetivos en el análisis de datos:
Predicción: Ser capaz de
predecir que respuestas
van a ver de acuerdo a
las variables de entrada
futuras
Información: Extraer algo
de cómo la naturaleza
asocia variables de
respuesta a las de
entrada.
Cultura del Modelamiento de Datos
naturaleza xy
Inicia asumiendo un modelo
estocástico de datos para
el interior de la caja negra
Ej. : Un modelo comúnmente usado es que
los datos son generados por «sorteos»
independientes
variables de respuesta = f ( variables del predictor, ruido aleatorio, parámetros)
Cultura del Modelamiento de Datos
regresión lineal
regresión logistica
Cox
xy
El valor de los parámetros son
estimados a partir de datos y
entonces el modelo es usado para
información y/o predicción.
Validación del modelo
Si o No, usando pruebas de bondad de
ajuste y examen de residuales.
Estimación de la población. 98% de todos los
estadísticos
Cultura del Modelamiento Algorítmico
El análisis considera el
interior de la caja complejo
y desconocido.
La aproximación es la de
encontrar una función f(x),
que es un algoritmo que
opera en x para predecir y.
desconocido xy
• árboles de decisión
• redes neurales
• …
Cultura del Modelamiento Algorítmico
desconocido xy
• árboles de decisión
• redes neurales
• …
Validación del modelo.
Medido por la precisión de predicción.
Estimación de la población. 2% de los estadísticos, muchos de otras
áreas del conocimiento.
Relación entre las Ciencias
Relación entre las Ciencias
http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg
La relación esta dada por
la transversalidad de las
Tecnologías de la
Información y la
Comunicación
Interdisciplinariedad
Modificado de :http://www.slideshare.net/AdrianCuyugan/text-mining-association-rules-and-decision-tree-learning-484
Bibliotecología
Matemáticas
Procesamiento
de Lenguaje
Natural
Minería de
Datos
Aprendizaje
Automatizado
(Machine
Learning)
Minería de
Texto
Estadística
IA
Administración de
Bases de Datos
Ciencias de la
Computación
Aprendizaje
Automático
ML
Minería de
Datos
Conocimiento
Curado
Sistemas Inteligentes
(IA)
Ciencias de la Computación
BigData
Modificado de: https://inovancetech.com/buzzwords.html
Sistemas Inteligentes (AI): son un subcampo
de las Ciencias Computacionales (CC).
Aprendizaje Automatizado (ML):
Método para desarrollar algoritmos
para reconocer patrones dentro de
los datos..
Minería de Datos (DM): Es una
Comprende la totalidad del proceso
de descubrimiento de información,
preparación datos y limpieza de
datos, análisis, postprocesamiento y
visualización de resultados.
Usa técnicas desarrolladas en ML y estadística
Subcategorías de DM
Regresión
Aprendizaje
por reglas de
asociación
Detección
de
Anomalías
Clasificación
Agrupamiento
«Summarization»
Existen diferentes métodos y
algoritmos para cada Categoría. Ej:
Clasificación: SVM, ANN, CTrees,
CN.2, RandomForest, KNN,
NaiveBayes, Regresión Logística
Regresión: SVM, Lineal, KNN,
PADE, PLS, Media.
Agrupamiento: Jerárquico,
Grafos de Interacción, MDS,
SOM, K-Means, Mapas de
Distancias.
Aprendizaje por reglas de Asociación
Aprendizaje por reglas de Asociación
SOM
Reducción de
Dimencionalidad
AgrupamientoReglas de Asociación
Modelamiento
Estadístico
Recomendadores
Métodos de Kernel
Aprendizaje
Supervisado
Aprendizaje NO
Supervisado
Supervisado
Refuerzo
No
Supervisado
Aprendizaje
• Datos Etiquetados
• Retroalimentación Directa
• Predice la salida/futuro
• Sin Etiquetas
• Sin Retroalimentación
• Busca la «estructura
subyacente»
• Procesos de decisión
• Sistemas de
bonificación
• Aprende series de
actos
No Supervisado
No se tienen etiquetas o marcas.
No se conocen a priori las
relaciones entre los datos
Metagenómica
No Supervisado
http://us.hudson.com/portals/US/images/blogs/legal/wp/2011/09/Unsupervised-Learning2.jpg
Supervisado
Se sabe que experimentos se
realizaron, su significado,
condiciones.
Cientos o miles de datos
plenamente identificados.
Transcriptómica: Microarreglos,
RNA Seq
Supervisado
http://kurniawan03.blog.binusian.org/files/2014/05/Supervised-Learning1.jpg
Aprendizaje
Supervisado
Colecta de Datos Crudos
Pre-Procesamiento
Datos Faltantes
Extracción de Características
Muestreo
Entrenamiento del Conjunto de Datos
Validación
Cruzada
Pre-Procesamiento
Evaluar
Conjunto
de Datos
Nuevos
datos
Extracción de
Características
Reducción de
Dimensionalidad
Escalar
Características
Refinamiento
Selección del
Modelo
Métricas de
Desempeño
Entrenamiento de
Algoritmo de Aprendizaje
Optimización de
Hiperparámetros
Post-Procesamiento
Clasificación Final/
Modelo de Regresión Adaptado: de Sebastian Raschka
• Escalamiento de características
• Ej. estandarización
• Rápida convergencia
• Distancias en la misma escala
(k-NN Dist. Euclidiana)
• Centrado por media
• Datos distribuidos
normalmente
• Estabilidad numérica evitando
pequeños pesos.
• Valores faltantes
• Remover características
(columnas)
• Remover muestras (filas)
• Imputar (media,
Vecindad, …)
• Muestreo
• División aleatoria entre conjuntos
de datos de entrenamiento y
validación.
• Típicamente 60/40, 70/30, 80/20
• No usar conjunto de validación
hasta el puro final
(sobreentrenamiento)
Nomenclatura
sepal length sepal width petal length petal width class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa
4.7 3.2 1.3 0.2 Iris-setosa
4.6 3.1 1.5 0.2 Iris-setosa
5.0 3.6 1.4 0.2 Iris-setosa
5.4 3.9 1.7 0.4 Iris-setosa
4.6 3.4 1.4 0.3 Iris-setosa
Iris
Instancias (muestras, observaciones)
Características (atributos, dimensiones,
experimentos)
Clases
(objetivo)
Variables Categóricas
Color Tamaño Precio Clase
1 verde M 10.1 clase1
2 rojo L 13.5 clase2
3 azul XL 15.3 clase1
Color=
azul
Color=
verde
Color=
Rojo
Precio Clase Tamaño
1 0 1 0 10.1 0 1
2 0 0 1 13.5 1 2
3 1 0 0 15.3 0 3
nominal
azul (1,0,0)
verde (0,0,1)
rojo (0,1,0)
ordinal
M 1
L 2
XL 3
Validación cruzada
Es una de las técnicas para evaluar
diferentes selecciones de
combinaciones de características.
Existen multiples sabores de
validación cruzada, el más común
podría ser «k-fold cross-validation».
Conjunto de Datos Completo
Conjunto de Datos de
Entrenamiento
Conjunto de Datos
de Validación
Conjunto
de
Validación
Conjunto
de
Validación
Conjunto
de
Validación
Conjunto
de
Validación
fold 1 fold 2 fold 3 fold 4
k-fold cross-validation (k=4)
1ª iteración
2ª iteración
3ª iteración
4 iteración
calc error
calc error
calc error
calc error
cálculo
de error
promedio
Evaluación del Modelo
1-Especificidad/Taza de falsas alarmas
Taza de Error = 1 - Exactitud
Variable de Respuesta Evaluada:
Y es realmente:
Positiva Negativa
Positiva
Negativa
# Falsa
Negativa
#Verdadera
Negativa
# Falsa
Positiva
#Verdadera
Positiva
VP+VN
P+N
Exactitud =
Precisión =
VP
VP+FP
Recall/Sensibilidad=
VP
VP+FN
Especificidad /Verdadera Taza de Error =
VN
VN+FP
Matriz de
Confusión
Evaluación del Modelo
http://www.intechopen.com/source/html/38584/media/image56.jpeg
Área bajo la Curva
ROC - AUC
http://wwww.cbgstat.com/v2/method_ROC_curve_MedCalc/images/ROC_curve_MedCalc_Snap17.gif
Taza de Falsos Positivos
True positive rate
TazadeVerdaderosPositivos
Clasificación &
Agrupamiento
Clasifiquen…
¿Cuantas Cases hay?
¿Cuáles objetos en cada una?
¿Qué hace que estén en Cada Clase?
Fácil, no?
Ahora…
¿Cuantas Cases hay?
¿Cuáles objetos en cada una?
¿Qué hace que estén en Cada Clase?
…. y ahora….
15-7
FOSSILS (continued)
15. Classification And Evolution
LIVING CAMINALCULES
FOSSIL CAMINALCULES
(numbers in parentheses indicate age in millions of years)
15. Classification And Evolution
LIVING CAMINALCULES
FOSSIL CAMINALCULES
(numbers in parentheses indicate age in millions of years)
¿Un poco mas complicado?
¿Por qué?
Etiquetas
Características
Aprendizaje
Clasificación
X2
X1
?
1) Aprender de los
datos de entrenamiento
2) Mapear nuevos
datos (nunca vistos)
Clasificadores Comunes
Perceptron Multicapa
Bayesiano Ingenuo
Regresión Logística
KNN- K Vecinos
más Cercanos
Redes Neurales Artificiales - AAN /
Aprendizaje Profundo
Máquinas de Soporte
Vectorial - SVM
Árboles de
Decisión
C4.5
C4.5
• Construye un clasificador en forma de un árbol de decisión.
• Usa ganancia de Información en el proceso de generación
del árbol.
• A pesar de que otros sistemas también incorporan podado,
C4.5 utiliza un proceso de podado de un solo paso para
mitigar el sobreentrenamiento.
• Puede trabajar tanto con datos continuos como con
discretos.
• Third, C4.5 can work with both continuous and discrete
data. Hace esto especificando rangos o umbrales para los
datos continuos convirtiendo así a los datos continuos en
datos discretos.
K Nearest Neighbor - KNN
• Este es un método de clasificación no
paramétrico, que estima el valor de la
función de densidad de probabilidad o
directamente la probabilidad a posteriori
de que un elemento x pertenezca a la
clase Cj a partir de la información
proporcionada por el conjunto de
prototipos.
• En el proceso de aprendizaje no se hace ninguna suposición
acerca de la distribución de las variables predictoras.
Support Vector Machine (SVM)
• Muestren hiperplanos que son capaces
de separar dos o múltiples clases.
Eventualmente el hiperplano con el
mayor margen se selecciona, el
margen es definido como la distancia
mínima de los puntos de muestra al
hiperplano. Las muestra (puntos) que
forman el margen son llamadas
vectores de soporte y establecen el
modelo SVM
Support Vector Machine (SVM)
Clasificador Bayesiano
• El Teorema de Bayes: calcula el la
probabilidad posterior basado en la
probabilidad del prior, en lo que se
llama también verosimilitud.
• Un clasificador Bayesiano Ingenuo
asume que todos los atributos son
condicionalmente independientes, de
este modo, computar la verosimilitud
se simplifica al cálculo del producto
de las probabilidades condicionales
de los atributos de los individuos
observados dada una clase.
Clasificador Bayesiano
Verosimilitud
Probabilidad de
la clase prior
Probabilidad del
posterior
Predictor de
Probabilidad del prior
Posterior =
Anterior * Probabilidad
Evidencia
Redes Neurales Artificiales (ANN)
• Clasificadores de tipo grafo
bioinspirados en el cerebro animal
donde los los nodos interconectados
representan neuronas.
Árboles de Decisión
• Son grafos tipo árbol, en los que los
nodos del grafo evalúan ciertas
condiciones en un grupo particular de
características y las ramas van dividiendo
la decisión hasta llegar a los nodos hoja.
• Las hojas representan los niveles mas
bajos en el grafo y determina las
etiquetas de las clases. El árbol óptimo se
entrena minimizando con «Gini Impurity*»
o maximizando la ganancia de
información.
*Es una medida de que tan frecuentemente un elemento del conjunto escogido aleatoriamente puede ser etiquetado
de forma incorrecta, si este fuera aleatoriamente marcado acorde a la distribución de etiquetas en el subconjunto.
Hiperparámetros
• Los hiperparámetros de un clasificador o estimador que no son directamente
aprendidos en el paso de aprendizaje estadístico de los datos de
entrenamiento, son optimizados de forma separada.
• El objetivo de la optimización de hiperparámetros es el de mejorar el
desempeño del un clasificador y lograr una buena generalización del
algoritmo de aprendizaje.
• Un método popular de optimización es «grid Search», que típicamente es
implementado como una búsqueda, en contraste con la optimización aleatoria.
• Después de todas las posibles combinaciones de parámetros para un modelo,
se evalúan, se retiene la mejor combinación.
Agrupamiento Jerárquico
• Es un método de agrupamiento que busca construir una jerarquía de
grupos. Usa estrategias de dos tipos:
• Aglomerativa: Una aproximación «Bottom UP», cada observación inicia
con un único grupo, y pares de grupos van emergiendo a medida que uno
se mueve hacia la parte superior de la jerarquía.
• Divisiva: Es la aproximación «Top Down» todas las observaciones forman
un único grupo en el que las divisiones ocurren recursivamente a medida
que se mueve hacia abajo en la jerarquía.
• En general, las uniones y divisiones son determinadas de forma voraz.
• El resultado del agrupamiento usualmente ese presenta en forma de
dendrograma
k-means
k-means crea k grupos de un conjunto
de objetos de forma tal que los
miembros de los grupos sean los mas
similares entre ellos.
Es una técnica de análisis de
agrupamiento popular en la
exploración de conjuntos de datos.
¿Cómo sabe cuál es el mejor k?
Silhouette
Mapa Auto-Organizado - SOM
• Es un tipo de red neuronal artificial,
entrenada usando aprendizaje no
supervisado para producir una
representación discreta del espacio
de las muestras de entrada, llamado
mapa.
• Usan una función de vecindad para
preservar las propiedades
topológicas del espacio de entrada.
• Son útiles para visualizar vistas de baja
dimensión de datos de alta dimensión,
semejante a un escalado
multidimensional.
Nada es gratis…
Los modelos son una simplificación de la realidad
La simplificación es basada en presunciones
(sesgo del modelo)
Las presunciones fallan en algunas ocaciones
No existe un único modelo que funcione igual de bien
para todas las situaciones
¿Cuál Algoritmo Escoger?
• ¿Cuál es el tamaño y dimensionalidad del conjunto de entrenamiento?
• ¿Son los datos lineaments separables?
• ¿Que tanto hay que preocuparse por la eficiencia computacional
• Construcción del modelo vs tiempo real de predicción
• Aprendizaje:
• ansioso vs perezoso / en línea vs en lote / desempeño de predicción vs velocidad
• ¿Debe tenerse cuidado en la interpretabilidad de los resultados?
• ….
Datamining y Machine Learning para Ciencias Biológicas

Más contenido relacionado

La actualidad más candente

Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos04071977
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSlalopg
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosRoberto Espinosa
 
Minería de datos
Minería de datosMinería de datos
Minería de datosanag catal
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Charla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasCharla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasFelipe Vera (Prodigio Consultores)
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics Spain
 
Open Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con KnimeOpen Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con KnimeOpenAnalytics Spain
 
levantamiento-de-la-informacionclase1
 levantamiento-de-la-informacionclase1 levantamiento-de-la-informacionclase1
levantamiento-de-la-informacionclase1duberlisg
 

La actualidad más candente (20)

Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Algoritmos de minería de datos
Algoritmos de minería de datos Algoritmos de minería de datos
Algoritmos de minería de datos
 
Minería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilizaciónMinería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilización
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Clustering
ClusteringClustering
Clustering
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Pautas tesis 1 y 2
Pautas tesis 1 y 2Pautas tesis 1 y 2
Pautas tesis 1 y 2
 
Charla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasCharla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecas
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Open Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con KnimeOpen Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con Knime
 
levantamiento-de-la-informacionclase1
 levantamiento-de-la-informacionclase1 levantamiento-de-la-informacionclase1
levantamiento-de-la-informacionclase1
 

Similar a Datamining y Machine Learning para Ciencias Biológicas

Redes neuronales
Redes neuronalesRedes neuronales
Redes neuronalesVictor_lino
 
CIITEC Fundamentos de Deep Learning.pptx
CIITEC  Fundamentos de Deep Learning.pptxCIITEC  Fundamentos de Deep Learning.pptx
CIITEC Fundamentos de Deep Learning.pptxicebeam7
 
Algunas consideraciones
Algunas consideracionesAlgunas consideraciones
Algunas consideracionesOmar Sanchez
 
ML QSAR Congreso de Química.pptx
ML QSAR Congreso de Química.pptxML QSAR Congreso de Química.pptx
ML QSAR Congreso de Química.pptxAllanVsquez2
 
Métodos cuantitativos_2020_2 (2).pptx
Métodos cuantitativos_2020_2 (2).pptxMétodos cuantitativos_2020_2 (2).pptx
Métodos cuantitativos_2020_2 (2).pptxLaalpacaARoxhzeeraFl
 
Presentacion mineria
Presentacion mineriaPresentacion mineria
Presentacion mineriaviktor93
 
Mineria de datos ensayo
Mineria de datos ensayoMineria de datos ensayo
Mineria de datos ensayocarimi
 
Técnicas de Inteligencia Artificial
Técnicas de Inteligencia Artificial Técnicas de Inteligencia Artificial
Técnicas de Inteligencia Artificial Gina Mejía
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Facultad de Informática UCM
 
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBACurso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBAFreire Juan
 

Similar a Datamining y Machine Learning para Ciencias Biológicas (20)

Redes neuronales
Redes neuronalesRedes neuronales
Redes neuronales
 
CIITEC Fundamentos de Deep Learning.pptx
CIITEC  Fundamentos de Deep Learning.pptxCIITEC  Fundamentos de Deep Learning.pptx
CIITEC Fundamentos de Deep Learning.pptx
 
Algunas consideraciones
Algunas consideracionesAlgunas consideraciones
Algunas consideraciones
 
ML QSAR Congreso de Química.pptx
ML QSAR Congreso de Química.pptxML QSAR Congreso de Química.pptx
ML QSAR Congreso de Química.pptx
 
Clasificadores Bayesianos: De datos a Conceptos
Clasificadores Bayesianos: De datos a ConceptosClasificadores Bayesianos: De datos a Conceptos
Clasificadores Bayesianos: De datos a Conceptos
 
Métodos cuantitativos_2020_2 (2).pptx
Métodos cuantitativos_2020_2 (2).pptxMétodos cuantitativos_2020_2 (2).pptx
Métodos cuantitativos_2020_2 (2).pptx
 
Machine learning
Machine learningMachine learning
Machine learning
 
Presentacion mineria
Presentacion mineriaPresentacion mineria
Presentacion mineria
 
T1-AprendizajeAutomatico.pdf
T1-AprendizajeAutomatico.pdfT1-AprendizajeAutomatico.pdf
T1-AprendizajeAutomatico.pdf
 
REDES NEURONALES.pptx
REDES NEURONALES.pptxREDES NEURONALES.pptx
REDES NEURONALES.pptx
 
Mineria de datos ensayo
Mineria de datos ensayoMineria de datos ensayo
Mineria de datos ensayo
 
Técnicas de Inteligencia Artificial
Técnicas de Inteligencia Artificial Técnicas de Inteligencia Artificial
Técnicas de Inteligencia Artificial
 
A G's
A G'sA G's
A G's
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
 
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBACurso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 

Más de Carlos Manuel Estévez-Bretón Riveros (14)

Derechos de autor y de copia en el desarrollo de software
Derechos de autor y de copia en el desarrollo de softwareDerechos de autor y de copia en el desarrollo de software
Derechos de autor y de copia en el desarrollo de software
 
Biological technologies
Biological technologiesBiological technologies
Biological technologies
 
Aspectos Básicos de la Propiedad Intelectual y su Relación con las Ciencias M...
Aspectos Básicos de la Propiedad Intelectual y su Relación con las Ciencias M...Aspectos Básicos de la Propiedad Intelectual y su Relación con las Ciencias M...
Aspectos Básicos de la Propiedad Intelectual y su Relación con las Ciencias M...
 
Ejemplo beneficios tributarios para Inversión Colciencias
Ejemplo beneficios tributarios para Inversión ColcienciasEjemplo beneficios tributarios para Inversión Colciencias
Ejemplo beneficios tributarios para Inversión Colciencias
 
Una mirada al futuro de la Biotecnología
Una mirada al futuro de la BiotecnologíaUna mirada al futuro de la Biotecnología
Una mirada al futuro de la Biotecnología
 
PhDc exam presentation
PhDc exam presentationPhDc exam presentation
PhDc exam presentation
 
Contagion Mobile App
Contagion Mobile AppContagion Mobile App
Contagion Mobile App
 
Tv & inetrnet
Tv & inetrnetTv & inetrnet
Tv & inetrnet
 
TICs & Medio Ambiente
TICs & Medio AmbienteTICs & Medio Ambiente
TICs & Medio Ambiente
 
Boinc
BoincBoinc
Boinc
 
Campus Party MEN
Campus Party MENCampus Party MEN
Campus Party MEN
 
Biologia de Sistemas y Biologia Sintetica
Biologia de Sistemas y Biologia SinteticaBiologia de Sistemas y Biologia Sintetica
Biologia de Sistemas y Biologia Sintetica
 
Bioinformatica GeBiX
Bioinformatica GeBiXBioinformatica GeBiX
Bioinformatica GeBiX
 
GeBiX Muestras Codebar
GeBiX Muestras CodebarGeBiX Muestras Codebar
GeBiX Muestras Codebar
 

Último

02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdf02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdfguillermobernalocamp1
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónJhon Jimenez
 
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptxP.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptxJafetColli
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxlm8322074
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoBESTTech1
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointaria66611782972
 
PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptx
PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptxPRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptx
PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptxMiguelHernndez589343
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptxJEFFERSONMEDRANOCHAV
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfJC Díaz Herrera
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1alfredo130306
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoRaúl Figueroa
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfJC Díaz Herrera
 
Perú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineriaPerú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineriaItalo838444
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacienteMedicinaInternaresid1
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfjosellaqtas
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfalexanderleonyonange
 
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILASistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILAsofiagomez288291
 
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,EmmanuelDelJessGonza
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxfatimacamilainjantem
 
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIALINFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIALMANUELVILELA7
 

Último (20)

02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdf02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdf
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptxP.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptx
PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptxPRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptx
PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptx
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
Perú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineriaPerú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineria
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un paciente
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILASistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
 
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIALINFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
 

Datamining y Machine Learning para Ciencias Biológicas

  • 1. Minería de Datos y Aprendizaje Estadístico en Ciencias Biológicas Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015
  • 2. Algo a cerca de mi PhD(c) en el Lab de Sistemas Inteligentes - UNAL. • Analizo funcionalmente el metabolismo. • Propongo una analogía lingüística. • Aplico Sistemas inteligentes para obtener información Otros Proyectos: Proponer desde la Biología de Sistemas moléculas para un nanosensor de MTB Proteínas de secreción en helmintos Sistema de Recomendación de fuentes de financiamiento científico
  • 3. Modelamiento Estadístico Dos Culturas Statistical Science 2001, Vol. 16, No. 3, 199–231
  • 4. • Una asume que los datos son generados por un modelo estocástico de datos. • La otra usa modelos algorítmicos y trata los mecanismos de datos como desconocidos Modelamiento Estadístico Dos Culturas
  • 5. La estadística y los datos naturaleza xy Los datos se generan en una «caja negra» X es un vector de variables de entrada (independientes) y son las variables de respuesta Dentro de la caja negra la naturaleza funciona asociando las variables del «predictor» con las de «respuesta»
  • 6. La estadística y los datos naturaleza xy Dos objetivos en el análisis de datos: Predicción: Ser capaz de predecir que respuestas van a ver de acuerdo a las variables de entrada futuras Información: Extraer algo de cómo la naturaleza asocia variables de respuesta a las de entrada.
  • 7. Cultura del Modelamiento de Datos naturaleza xy Inicia asumiendo un modelo estocástico de datos para el interior de la caja negra Ej. : Un modelo comúnmente usado es que los datos son generados por «sorteos» independientes variables de respuesta = f ( variables del predictor, ruido aleatorio, parámetros)
  • 8. Cultura del Modelamiento de Datos regresión lineal regresión logistica Cox xy El valor de los parámetros son estimados a partir de datos y entonces el modelo es usado para información y/o predicción. Validación del modelo Si o No, usando pruebas de bondad de ajuste y examen de residuales. Estimación de la población. 98% de todos los estadísticos
  • 9. Cultura del Modelamiento Algorítmico El análisis considera el interior de la caja complejo y desconocido. La aproximación es la de encontrar una función f(x), que es un algoritmo que opera en x para predecir y. desconocido xy • árboles de decisión • redes neurales • …
  • 10. Cultura del Modelamiento Algorítmico desconocido xy • árboles de decisión • redes neurales • … Validación del modelo. Medido por la precisión de predicción. Estimación de la población. 2% de los estadísticos, muchos de otras áreas del conocimiento.
  • 12. Relación entre las Ciencias http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg La relación esta dada por la transversalidad de las Tecnologías de la Información y la Comunicación
  • 13. Interdisciplinariedad Modificado de :http://www.slideshare.net/AdrianCuyugan/text-mining-association-rules-and-decision-tree-learning-484 Bibliotecología Matemáticas Procesamiento de Lenguaje Natural Minería de Datos Aprendizaje Automatizado (Machine Learning) Minería de Texto Estadística IA Administración de Bases de Datos Ciencias de la Computación
  • 14. Aprendizaje Automático ML Minería de Datos Conocimiento Curado Sistemas Inteligentes (IA) Ciencias de la Computación BigData Modificado de: https://inovancetech.com/buzzwords.html Sistemas Inteligentes (AI): son un subcampo de las Ciencias Computacionales (CC). Aprendizaje Automatizado (ML): Método para desarrollar algoritmos para reconocer patrones dentro de los datos.. Minería de Datos (DM): Es una Comprende la totalidad del proceso de descubrimiento de información, preparación datos y limpieza de datos, análisis, postprocesamiento y visualización de resultados. Usa técnicas desarrolladas en ML y estadística
  • 15. Subcategorías de DM Regresión Aprendizaje por reglas de asociación Detección de Anomalías Clasificación Agrupamiento «Summarization» Existen diferentes métodos y algoritmos para cada Categoría. Ej: Clasificación: SVM, ANN, CTrees, CN.2, RandomForest, KNN, NaiveBayes, Regresión Logística Regresión: SVM, Lineal, KNN, PADE, PLS, Media. Agrupamiento: Jerárquico, Grafos de Interacción, MDS, SOM, K-Means, Mapas de Distancias.
  • 16. Aprendizaje por reglas de Asociación
  • 17. Aprendizaje por reglas de Asociación SOM Reducción de Dimencionalidad AgrupamientoReglas de Asociación Modelamiento Estadístico Recomendadores Métodos de Kernel Aprendizaje Supervisado Aprendizaje NO Supervisado
  • 18. Supervisado Refuerzo No Supervisado Aprendizaje • Datos Etiquetados • Retroalimentación Directa • Predice la salida/futuro • Sin Etiquetas • Sin Retroalimentación • Busca la «estructura subyacente» • Procesos de decisión • Sistemas de bonificación • Aprende series de actos
  • 19. No Supervisado No se tienen etiquetas o marcas. No se conocen a priori las relaciones entre los datos Metagenómica
  • 21. Supervisado Se sabe que experimentos se realizaron, su significado, condiciones. Cientos o miles de datos plenamente identificados. Transcriptómica: Microarreglos, RNA Seq
  • 23. Aprendizaje Supervisado Colecta de Datos Crudos Pre-Procesamiento Datos Faltantes Extracción de Características Muestreo Entrenamiento del Conjunto de Datos Validación Cruzada Pre-Procesamiento Evaluar Conjunto de Datos Nuevos datos Extracción de Características Reducción de Dimensionalidad Escalar Características Refinamiento Selección del Modelo Métricas de Desempeño Entrenamiento de Algoritmo de Aprendizaje Optimización de Hiperparámetros Post-Procesamiento Clasificación Final/ Modelo de Regresión Adaptado: de Sebastian Raschka
  • 24. • Escalamiento de características • Ej. estandarización • Rápida convergencia • Distancias en la misma escala (k-NN Dist. Euclidiana) • Centrado por media • Datos distribuidos normalmente • Estabilidad numérica evitando pequeños pesos. • Valores faltantes • Remover características (columnas) • Remover muestras (filas) • Imputar (media, Vecindad, …) • Muestreo • División aleatoria entre conjuntos de datos de entrenamiento y validación. • Típicamente 60/40, 70/30, 80/20 • No usar conjunto de validación hasta el puro final (sobreentrenamiento)
  • 25. Nomenclatura sepal length sepal width petal length petal width class 5.1 3.5 1.4 0.2 Iris-setosa 4.9 3.0 1.4 0.2 Iris-setosa 4.7 3.2 1.3 0.2 Iris-setosa 4.6 3.1 1.5 0.2 Iris-setosa 5.0 3.6 1.4 0.2 Iris-setosa 5.4 3.9 1.7 0.4 Iris-setosa 4.6 3.4 1.4 0.3 Iris-setosa Iris Instancias (muestras, observaciones) Características (atributos, dimensiones, experimentos) Clases (objetivo)
  • 26. Variables Categóricas Color Tamaño Precio Clase 1 verde M 10.1 clase1 2 rojo L 13.5 clase2 3 azul XL 15.3 clase1 Color= azul Color= verde Color= Rojo Precio Clase Tamaño 1 0 1 0 10.1 0 1 2 0 0 1 13.5 1 2 3 1 0 0 15.3 0 3 nominal azul (1,0,0) verde (0,0,1) rojo (0,1,0) ordinal M 1 L 2 XL 3
  • 27. Validación cruzada Es una de las técnicas para evaluar diferentes selecciones de combinaciones de características. Existen multiples sabores de validación cruzada, el más común podría ser «k-fold cross-validation». Conjunto de Datos Completo Conjunto de Datos de Entrenamiento Conjunto de Datos de Validación Conjunto de Validación Conjunto de Validación Conjunto de Validación Conjunto de Validación fold 1 fold 2 fold 3 fold 4 k-fold cross-validation (k=4) 1ª iteración 2ª iteración 3ª iteración 4 iteración calc error calc error calc error calc error cálculo de error promedio
  • 28. Evaluación del Modelo 1-Especificidad/Taza de falsas alarmas Taza de Error = 1 - Exactitud Variable de Respuesta Evaluada: Y es realmente: Positiva Negativa Positiva Negativa # Falsa Negativa #Verdadera Negativa # Falsa Positiva #Verdadera Positiva VP+VN P+N Exactitud = Precisión = VP VP+FP Recall/Sensibilidad= VP VP+FN Especificidad /Verdadera Taza de Error = VN VN+FP Matriz de Confusión
  • 29. Evaluación del Modelo http://www.intechopen.com/source/html/38584/media/image56.jpeg Área bajo la Curva ROC - AUC http://wwww.cbgstat.com/v2/method_ROC_curve_MedCalc/images/ROC_curve_MedCalc_Snap17.gif Taza de Falsos Positivos True positive rate TazadeVerdaderosPositivos
  • 32.
  • 33. ¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?
  • 36.
  • 37. ¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?
  • 39. 15-7 FOSSILS (continued) 15. Classification And Evolution LIVING CAMINALCULES FOSSIL CAMINALCULES (numbers in parentheses indicate age in millions of years) 15. Classification And Evolution LIVING CAMINALCULES FOSSIL CAMINALCULES (numbers in parentheses indicate age in millions of years)
  • 40. ¿Un poco mas complicado? ¿Por qué?
  • 43. Clasificación X2 X1 ? 1) Aprender de los datos de entrenamiento 2) Mapear nuevos datos (nunca vistos)
  • 44. Clasificadores Comunes Perceptron Multicapa Bayesiano Ingenuo Regresión Logística KNN- K Vecinos más Cercanos Redes Neurales Artificiales - AAN / Aprendizaje Profundo Máquinas de Soporte Vectorial - SVM Árboles de Decisión C4.5
  • 45. C4.5 • Construye un clasificador en forma de un árbol de decisión. • Usa ganancia de Información en el proceso de generación del árbol. • A pesar de que otros sistemas también incorporan podado, C4.5 utiliza un proceso de podado de un solo paso para mitigar el sobreentrenamiento. • Puede trabajar tanto con datos continuos como con discretos. • Third, C4.5 can work with both continuous and discrete data. Hace esto especificando rangos o umbrales para los datos continuos convirtiendo así a los datos continuos en datos discretos.
  • 46. K Nearest Neighbor - KNN • Este es un método de clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a la clase Cj a partir de la información proporcionada por el conjunto de prototipos. • En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras.
  • 47. Support Vector Machine (SVM) • Muestren hiperplanos que son capaces de separar dos o múltiples clases. Eventualmente el hiperplano con el mayor margen se selecciona, el margen es definido como la distancia mínima de los puntos de muestra al hiperplano. Las muestra (puntos) que forman el margen son llamadas vectores de soporte y establecen el modelo SVM
  • 49. Clasificador Bayesiano • El Teorema de Bayes: calcula el la probabilidad posterior basado en la probabilidad del prior, en lo que se llama también verosimilitud. • Un clasificador Bayesiano Ingenuo asume que todos los atributos son condicionalmente independientes, de este modo, computar la verosimilitud se simplifica al cálculo del producto de las probabilidades condicionales de los atributos de los individuos observados dada una clase.
  • 50. Clasificador Bayesiano Verosimilitud Probabilidad de la clase prior Probabilidad del posterior Predictor de Probabilidad del prior Posterior = Anterior * Probabilidad Evidencia
  • 51. Redes Neurales Artificiales (ANN) • Clasificadores de tipo grafo bioinspirados en el cerebro animal donde los los nodos interconectados representan neuronas.
  • 52. Árboles de Decisión • Son grafos tipo árbol, en los que los nodos del grafo evalúan ciertas condiciones en un grupo particular de características y las ramas van dividiendo la decisión hasta llegar a los nodos hoja. • Las hojas representan los niveles mas bajos en el grafo y determina las etiquetas de las clases. El árbol óptimo se entrena minimizando con «Gini Impurity*» o maximizando la ganancia de información. *Es una medida de que tan frecuentemente un elemento del conjunto escogido aleatoriamente puede ser etiquetado de forma incorrecta, si este fuera aleatoriamente marcado acorde a la distribución de etiquetas en el subconjunto.
  • 53. Hiperparámetros • Los hiperparámetros de un clasificador o estimador que no son directamente aprendidos en el paso de aprendizaje estadístico de los datos de entrenamiento, son optimizados de forma separada. • El objetivo de la optimización de hiperparámetros es el de mejorar el desempeño del un clasificador y lograr una buena generalización del algoritmo de aprendizaje. • Un método popular de optimización es «grid Search», que típicamente es implementado como una búsqueda, en contraste con la optimización aleatoria. • Después de todas las posibles combinaciones de parámetros para un modelo, se evalúan, se retiene la mejor combinación.
  • 54. Agrupamiento Jerárquico • Es un método de agrupamiento que busca construir una jerarquía de grupos. Usa estrategias de dos tipos: • Aglomerativa: Una aproximación «Bottom UP», cada observación inicia con un único grupo, y pares de grupos van emergiendo a medida que uno se mueve hacia la parte superior de la jerarquía. • Divisiva: Es la aproximación «Top Down» todas las observaciones forman un único grupo en el que las divisiones ocurren recursivamente a medida que se mueve hacia abajo en la jerarquía. • En general, las uniones y divisiones son determinadas de forma voraz. • El resultado del agrupamiento usualmente ese presenta en forma de dendrograma
  • 55. k-means k-means crea k grupos de un conjunto de objetos de forma tal que los miembros de los grupos sean los mas similares entre ellos. Es una técnica de análisis de agrupamiento popular en la exploración de conjuntos de datos. ¿Cómo sabe cuál es el mejor k? Silhouette
  • 56. Mapa Auto-Organizado - SOM • Es un tipo de red neuronal artificial, entrenada usando aprendizaje no supervisado para producir una representación discreta del espacio de las muestras de entrada, llamado mapa. • Usan una función de vecindad para preservar las propiedades topológicas del espacio de entrada. • Son útiles para visualizar vistas de baja dimensión de datos de alta dimensión, semejante a un escalado multidimensional.
  • 57. Nada es gratis… Los modelos son una simplificación de la realidad La simplificación es basada en presunciones (sesgo del modelo) Las presunciones fallan en algunas ocaciones No existe un único modelo que funcione igual de bien para todas las situaciones
  • 58. ¿Cuál Algoritmo Escoger? • ¿Cuál es el tamaño y dimensionalidad del conjunto de entrenamiento? • ¿Son los datos lineaments separables? • ¿Que tanto hay que preocuparse por la eficiencia computacional • Construcción del modelo vs tiempo real de predicción • Aprendizaje: • ansioso vs perezoso / en línea vs en lote / desempeño de predicción vs velocidad • ¿Debe tenerse cuidado en la interpretabilidad de los resultados? • ….