Datamining y Machine Learning para Ciencias Biológicas

Minería de Datos y Aprendizaje
Estadístico en Ciencias Biológicas
Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015

Algo a cerca de mi
PhD(c) en el Lab de Sistemas
Inteligentes - UNAL.
• Analizo funcionalmente el
metabolismo.
• Propongo una analogía lingüística.
• Aplico Sistemas inteligentes para
obtener información
Otros Proyectos:
Proponer desde la Biología de Sistemas
moléculas para un nanosensor de MTB
Proteínas de secreción en helmintos
Sistema de Recomendación de fuentes
de ﬁnanciamiento cientíﬁco

Modelamiento Estadístico
Dos Culturas Statistical Science
2001, Vol. 16, No. 3, 199–231

• Una asume que los datos
son generados por un
modelo estocástico de
datos.
• La otra usa modelos
algorítmicos y trata los
mecanismos de datos
como desconocidos
Modelamiento Estadístico
Dos Culturas

La estadística y los datos
naturaleza xy
Los datos se generan
en una «caja negra»
X es un vector de
variables de entrada
(independientes)
y son las variables de
respuesta
Dentro de la caja negra la naturaleza
funciona asociando las variables del
«predictor» con las de «respuesta»

La estadística y los datos
naturaleza xy
Dos objetivos en el análisis de datos:
Predicción: Ser capaz de
predecir que respuestas
van a ver de acuerdo a
las variables de entrada
futuras
Información: Extraer algo
de cómo la naturaleza
asocia variables de
respuesta a las de
entrada.

Cultura del Modelamiento de Datos
naturaleza xy
Inicia asumiendo un modelo
estocástico de datos para
el interior de la caja negra
Ej. : Un modelo comúnmente usado es que
los datos son generados por «sorteos»
independientes
variables de respuesta = f ( variables del predictor, ruido aleatorio, parámetros)

Cultura del Modelamiento de Datos
regresión lineal
regresión logistica
Cox
xy
El valor de los parámetros son
estimados a partir de datos y
entonces el modelo es usado para
información y/o predicción.
Validación del modelo
Si o No, usando pruebas de bondad de
ajuste y examen de residuales.
Estimación de la población. 98% de todos los
estadísticos

Cultura del Modelamiento Algorítmico
El análisis considera el
interior de la caja complejo
y desconocido.
La aproximación es la de
encontrar una función f(x),
que es un algoritmo que
opera en x para predecir y.
desconocido xy
• árboles de decisión
• redes neurales
• …

Cultura del Modelamiento Algorítmico
desconocido xy
• árboles de decisión
• redes neurales
• …
Validación del modelo.
Medido por la precisión de predicción.
Estimación de la población. 2% de los estadísticos, muchos de otras
áreas del conocimiento.

Relación entre las Ciencias
http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg
La relación esta dada por
la transversalidad de las
Tecnologías de la
Información y la
Comunicación

Interdisciplinariedad
Modiﬁcado de :http://www.slideshare.net/AdrianCuyugan/text-mining-association-rules-and-decision-tree-learning-484
Bibliotecología
Matemáticas
Procesamiento
de Lenguaje
Natural
Minería de
Datos
Aprendizaje
Automatizado
(Machine
Learning)
Minería de
Texto
Estadística
IA
Administración de
Bases de Datos
Ciencias de la
Computación

Aprendizaje
Automático
ML
Minería de
Datos
Conocimiento
Curado
Sistemas Inteligentes
(IA)
Ciencias de la Computación
BigData
Modiﬁcado de: https://inovancetech.com/buzzwords.html
Sistemas Inteligentes (AI): son un subcampo
de las Ciencias Computacionales (CC).
Aprendizaje Automatizado (ML):
Método para desarrollar algoritmos
para reconocer patrones dentro de
los datos..
Minería de Datos (DM): Es una
Comprende la totalidad del proceso
de descubrimiento de información,
preparación datos y limpieza de
datos, análisis, postprocesamiento y
visualización de resultados.
Usa técnicas desarrolladas en ML y estadística

Subcategorías de DM
Regresión
Aprendizaje
por reglas de
asociación
Detección
de
Anomalías
Clasiﬁcación
Agrupamiento
«Summarization»
Existen diferentes métodos y
algoritmos para cada Categoría. Ej:
Clasiﬁcación: SVM, ANN, CTrees,
CN.2, RandomForest, KNN,
NaiveBayes, Regresión Logística
Regresión: SVM, Lineal, KNN,
PADE, PLS, Media.
Agrupamiento: Jerárquico,
Grafos de Interacción, MDS,
SOM, K-Means, Mapas de
Distancias.

Aprendizaje por reglas de Asociación

Aprendizaje por reglas de Asociación
SOM
Reducción de
Dimencionalidad
AgrupamientoReglas de Asociación
Modelamiento
Estadístico
Recomendadores
Métodos de Kernel
Aprendizaje
Supervisado
Aprendizaje NO
Supervisado

Supervisado
Refuerzo
No
Supervisado
Aprendizaje
• Datos Etiquetados
• Retroalimentación Directa
• Predice la salida/futuro
• Sin Etiquetas
• Sin Retroalimentación
• Busca la «estructura
subyacente»
• Procesos de decisión
• Sistemas de
boniﬁcación
• Aprende series de
actos

No Supervisado
No se tienen etiquetas o marcas.
No se conocen a priori las
relaciones entre los datos
Metagenómica

No Supervisado
http://us.hudson.com/portals/US/images/blogs/legal/wp/2011/09/Unsupervised-Learning2.jpg

Supervisado
Se sabe que experimentos se
realizaron, su signiﬁcado,
condiciones.
Cientos o miles de datos
plenamente identiﬁcados.
Transcriptómica: Microarreglos,
RNA Seq

Supervisado
http://kurniawan03.blog.binusian.org/ﬁles/2014/05/Supervised-Learning1.jpg

Aprendizaje
Supervisado
Colecta de Datos Crudos
Pre-Procesamiento
Datos Faltantes
Extracción de Características
Muestreo
Entrenamiento del Conjunto de Datos
Validación
Cruzada
Pre-Procesamiento
Evaluar
Conjunto
de Datos
Nuevos
datos
Extracción de
Características
Reducción de
Dimensionalidad
Escalar
Características
Reﬁnamiento
Selección del
Modelo
Métricas de
Desempeño
Entrenamiento de
Algoritmo de Aprendizaje
Optimización de
Hiperparámetros
Post-Procesamiento
Clasiﬁcación Final/
Modelo de Regresión Adaptado: de Sebastian Raschka

• Escalamiento de características
• Ej. estandarización
• Rápida convergencia
• Distancias en la misma escala
(k-NN Dist. Euclidiana)
• Centrado por media
• Datos distribuidos
normalmente
• Estabilidad numérica evitando
pequeños pesos.
• Valores faltantes
• Remover características
(columnas)
• Remover muestras (ﬁlas)
• Imputar (media,
Vecindad, …)
• Muestreo
• División aleatoria entre conjuntos
de datos de entrenamiento y
validación.
• Típicamente 60/40, 70/30, 80/20
• No usar conjunto de validación
hasta el puro ﬁnal
(sobreentrenamiento)

Nomenclatura
sepal length sepal width petal length petal width class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa
4.7 3.2 1.3 0.2 Iris-setosa
4.6 3.1 1.5 0.2 Iris-setosa
5.0 3.6 1.4 0.2 Iris-setosa
5.4 3.9 1.7 0.4 Iris-setosa
4.6 3.4 1.4 0.3 Iris-setosa
Iris
Instancias (muestras, observaciones)
Características (atributos, dimensiones,
experimentos)
Clases
(objetivo)

Variables Categóricas
Color Tamaño Precio Clase
1 verde M 10.1 clase1
2 rojo L 13.5 clase2
3 azul XL 15.3 clase1
Color=
azul
Color=
verde
Color=
Rojo
Precio Clase Tamaño
1 0 1 0 10.1 0 1
2 0 0 1 13.5 1 2
3 1 0 0 15.3 0 3
nominal
azul (1,0,0)
verde (0,0,1)
rojo (0,1,0)
ordinal
M 1
L 2
XL 3

Validación cruzada
Es una de las técnicas para evaluar
diferentes selecciones de
combinaciones de características.
Existen multiples sabores de
validación cruzada, el más común
podría ser «k-fold cross-validation».
Conjunto de Datos Completo
Conjunto de Datos de
Entrenamiento
Conjunto de Datos
de Validación
Conjunto
de
Validación
Conjunto
de
Validación
Conjunto
de
Validación
Conjunto
de
Validación
fold 1 fold 2 fold 3 fold 4
k-fold cross-validation (k=4)
1ª iteración
2ª iteración
3ª iteración
4 iteración
calc error
calc error
calc error
calc error
cálculo
de error
promedio

Evaluación del Modelo
1-Especiﬁcidad/Taza de falsas alarmas
Taza de Error = 1 - Exactitud
Variable de Respuesta Evaluada:
Y es realmente:
Positiva Negativa
Positiva
Negativa
# Falsa
Negativa
#Verdadera
Negativa
# Falsa
Positiva
#Verdadera
Positiva
VP+VN
P+N
Exactitud =
Precisión =
VP
VP+FP
Recall/Sensibilidad=
VP
VP+FN
Especiﬁcidad /Verdadera Taza de Error =
VN
VN+FP
Matriz de
Confusión

Evaluación del Modelo
http://www.intechopen.com/source/html/38584/media/image56.jpeg
Área bajo la Curva
ROC - AUC
http://wwww.cbgstat.com/v2/method_ROC_curve_MedCalc/images/ROC_curve_MedCalc_Snap17.gif
Taza de Falsos Positivos
True positive rate
TazadeVerdaderosPositivos

Clasiﬁcación &
Agrupamiento

¿Cuantas Cases hay?
¿Cuáles objetos en cada una?
¿Qué hace que estén en Cada Clase?

15-7
FOSSILS (continued)
15. Classification And Evolution
LIVING CAMINALCULES
FOSSIL CAMINALCULES
(numbers in parentheses indicate age in millions of years)
15. Classification And Evolution
LIVING CAMINALCULES
FOSSIL CAMINALCULES
(numbers in parentheses indicate age in millions of years)

¿Un poco mas complicado?
¿Por qué?

Clasiﬁcación
X2
X1
?
1) Aprender de los
datos de entrenamiento
2) Mapear nuevos
datos (nunca vistos)

Clasiﬁcadores Comunes
Perceptron Multicapa
Bayesiano Ingenuo
Regresión Logística
KNN- K Vecinos
más Cercanos
Redes Neurales Artiﬁciales - AAN /
Aprendizaje Profundo
Máquinas de Soporte
Vectorial - SVM
Árboles de
Decisión
C4.5

C4.5
• Construye un clasiﬁcador en forma de un árbol de decisión.
• Usa ganancia de Información en el proceso de generación
del árbol.
• A pesar de que otros sistemas también incorporan podado,
C4.5 utiliza un proceso de podado de un solo paso para
mitigar el sobreentrenamiento.
• Puede trabajar tanto con datos continuos como con
discretos.
• Third, C4.5 can work with both continuous and discrete
data. Hace esto especiﬁcando rangos o umbrales para los
datos continuos convirtiendo así a los datos continuos en
datos discretos.

K Nearest Neighbor - KNN
• Este es un método de clasiﬁcación no
paramétrico, que estima el valor de la
función de densidad de probabilidad o
directamente la probabilidad a posteriori
de que un elemento x pertenezca a la
clase Cj a partir de la información
proporcionada por el conjunto de
prototipos.
• En el proceso de aprendizaje no se hace ninguna suposición
acerca de la distribución de las variables predictoras.

Support Vector Machine (SVM)
• Muestren hiperplanos que son capaces
de separar dos o múltiples clases.
Eventualmente el hiperplano con el
mayor margen se selecciona, el
margen es deﬁnido como la distancia
mínima de los puntos de muestra al
hiperplano. Las muestra (puntos) que
forman el margen son llamadas
vectores de soporte y establecen el
modelo SVM

Clasificador Bayesiano
• El Teorema de Bayes: calcula el la
probabilidad posterior basado en la
probabilidad del prior, en lo que se
llama también verosimilitud.
• Un clasificador Bayesiano Ingenuo
asume que todos los atributos son
condicionalmente independientes, de
este modo, computar la verosimilitud
se simplifica al cálculo del producto
de las probabilidades condicionales
de los atributos de los individuos
observados dada una clase.

Clasiﬁcador Bayesiano
Verosimilitud
Probabilidad de
la clase prior
Probabilidad del
posterior
Predictor de
Probabilidad del prior
Posterior =
Anterior * Probabilidad
Evidencia

Redes Neurales Artiﬁciales (ANN)
• Clasiﬁcadores de tipo grafo
bioinspirados en el cerebro animal
donde los los nodos interconectados
representan neuronas.

Árboles de Decisión
• Son grafos tipo árbol, en los que los
nodos del grafo evalúan ciertas
condiciones en un grupo particular de
características y las ramas van dividiendo
la decisión hasta llegar a los nodos hoja.
• Las hojas representan los niveles mas
bajos en el grafo y determina las
etiquetas de las clases. El árbol óptimo se
entrena minimizando con «Gini Impurity*»
o maximizando la ganancia de
información.
*Es una medida de que tan frecuentemente un elemento del conjunto escogido aleatoriamente puede ser etiquetado
de forma incorrecta, si este fuera aleatoriamente marcado acorde a la distribución de etiquetas en el subconjunto.

Hiperparámetros
• Los hiperparámetros de un clasiﬁcador o estimador que no son directamente
aprendidos en el paso de aprendizaje estadístico de los datos de
entrenamiento, son optimizados de forma separada.
• El objetivo de la optimización de hiperparámetros es el de mejorar el
desempeño del un clasiﬁcador y lograr una buena generalización del
algoritmo de aprendizaje.
• Un método popular de optimización es «grid Search», que típicamente es
implementado como una búsqueda, en contraste con la optimización aleatoria.
• Después de todas las posibles combinaciones de parámetros para un modelo,
se evalúan, se retiene la mejor combinación.

Agrupamiento Jerárquico
• Es un método de agrupamiento que busca construir una jerarquía de
grupos. Usa estrategias de dos tipos:
• Aglomerativa: Una aproximación «Bottom UP», cada observación inicia
con un único grupo, y pares de grupos van emergiendo a medida que uno
se mueve hacia la parte superior de la jerarquía.
• Divisiva: Es la aproximación «Top Down» todas las observaciones forman
un único grupo en el que las divisiones ocurren recursivamente a medida
que se mueve hacia abajo en la jerarquía.
• En general, las uniones y divisiones son determinadas de forma voraz.
• El resultado del agrupamiento usualmente ese presenta en forma de
dendrograma

k-means
k-means crea k grupos de un conjunto
de objetos de forma tal que los
miembros de los grupos sean los mas
similares entre ellos.
Es una técnica de análisis de
agrupamiento popular en la
exploración de conjuntos de datos.
¿Cómo sabe cuál es el mejor k?
Silhouette

Mapa Auto-Organizado - SOM
• Es un tipo de red neuronal artiﬁcial,
entrenada usando aprendizaje no
supervisado para producir una
representación discreta del espacio
de las muestras de entrada, llamado
mapa.
• Usan una función de vecindad para
preservar las propiedades
topológicas del espacio de entrada.
• Son útiles para visualizar vistas de baja
dimensión de datos de alta dimensión,
semejante a un escalado
multidimensional.

Nada es gratis…
Los modelos son una simpliﬁcación de la realidad
La simpliﬁcación es basada en presunciones
(sesgo del modelo)
Las presunciones fallan en algunas ocaciones
No existe un único modelo que funcione igual de bien
para todas las situaciones

¿Cuál Algoritmo Escoger?
• ¿Cuál es el tamaño y dimensionalidad del conjunto de entrenamiento?
• ¿Son los datos lineaments separables?
• ¿Que tanto hay que preocuparse por la eﬁciencia computacional
• Construcción del modelo vs tiempo real de predicción
• Aprendizaje:
• ansioso vs perezoso / en línea vs en lote / desempeño de predicción vs velocidad
• ¿Debe tenerse cuidado en la interpretabilidad de los resultados?
• ….

Datamining y Machine Learning para Ciencias Biológicas

Datamining y Machine Learning para Ciencias Biológicas

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Datamining y Machine Learning para Ciencias Biológicas

Similar a Datamining y Machine Learning para Ciencias Biológicas (20)

Más de Carlos Manuel Estévez-Bretón Riveros

Más de Carlos Manuel Estévez-Bretón Riveros (14)

Último

Último (20)

Datamining y Machine Learning para Ciencias Biológicas