Conceptos básicos de lo que se conoce popularmente como Datamining y Machine Learning como introducción a un taller practico en análisis de genómica funcional.
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
Datamining y Machine Learning para Ciencias Biológicas
1. Minería de Datos y Aprendizaje
Estadístico en Ciencias Biológicas
Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015
2. Algo a cerca de mi
PhD(c) en el Lab de Sistemas
Inteligentes - UNAL.
• Analizo funcionalmente el
metabolismo.
• Propongo una analogía lingüística.
• Aplico Sistemas inteligentes para
obtener información
Otros Proyectos:
Proponer desde la Biología de Sistemas
moléculas para un nanosensor de MTB
Proteínas de secreción en helmintos
Sistema de Recomendación de fuentes
de financiamiento científico
4. • Una asume que los datos
son generados por un
modelo estocástico de
datos.
• La otra usa modelos
algorítmicos y trata los
mecanismos de datos
como desconocidos
Modelamiento Estadístico
Dos Culturas
5. La estadística y los datos
naturaleza xy
Los datos se generan
en una «caja negra»
X es un vector de
variables de entrada
(independientes)
y son las variables de
respuesta
Dentro de la caja negra la naturaleza
funciona asociando las variables del
«predictor» con las de «respuesta»
6. La estadística y los datos
naturaleza xy
Dos objetivos en el análisis de datos:
Predicción: Ser capaz de
predecir que respuestas
van a ver de acuerdo a
las variables de entrada
futuras
Información: Extraer algo
de cómo la naturaleza
asocia variables de
respuesta a las de
entrada.
7. Cultura del Modelamiento de Datos
naturaleza xy
Inicia asumiendo un modelo
estocástico de datos para
el interior de la caja negra
Ej. : Un modelo comúnmente usado es que
los datos son generados por «sorteos»
independientes
variables de respuesta = f ( variables del predictor, ruido aleatorio, parámetros)
8. Cultura del Modelamiento de Datos
regresión lineal
regresión logistica
Cox
xy
El valor de los parámetros son
estimados a partir de datos y
entonces el modelo es usado para
información y/o predicción.
Validación del modelo
Si o No, usando pruebas de bondad de
ajuste y examen de residuales.
Estimación de la población. 98% de todos los
estadísticos
9. Cultura del Modelamiento Algorítmico
El análisis considera el
interior de la caja complejo
y desconocido.
La aproximación es la de
encontrar una función f(x),
que es un algoritmo que
opera en x para predecir y.
desconocido xy
• árboles de decisión
• redes neurales
• …
10. Cultura del Modelamiento Algorítmico
desconocido xy
• árboles de decisión
• redes neurales
• …
Validación del modelo.
Medido por la precisión de predicción.
Estimación de la población. 2% de los estadísticos, muchos de otras
áreas del conocimiento.
12. Relación entre las Ciencias
http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg
La relación esta dada por
la transversalidad de las
Tecnologías de la
Información y la
Comunicación
14. Aprendizaje
Automático
ML
Minería de
Datos
Conocimiento
Curado
Sistemas Inteligentes
(IA)
Ciencias de la Computación
BigData
Modificado de: https://inovancetech.com/buzzwords.html
Sistemas Inteligentes (AI): son un subcampo
de las Ciencias Computacionales (CC).
Aprendizaje Automatizado (ML):
Método para desarrollar algoritmos
para reconocer patrones dentro de
los datos..
Minería de Datos (DM): Es una
Comprende la totalidad del proceso
de descubrimiento de información,
preparación datos y limpieza de
datos, análisis, postprocesamiento y
visualización de resultados.
Usa técnicas desarrolladas en ML y estadística
15. Subcategorías de DM
Regresión
Aprendizaje
por reglas de
asociación
Detección
de
Anomalías
Clasificación
Agrupamiento
«Summarization»
Existen diferentes métodos y
algoritmos para cada Categoría. Ej:
Clasificación: SVM, ANN, CTrees,
CN.2, RandomForest, KNN,
NaiveBayes, Regresión Logística
Regresión: SVM, Lineal, KNN,
PADE, PLS, Media.
Agrupamiento: Jerárquico,
Grafos de Interacción, MDS,
SOM, K-Means, Mapas de
Distancias.
17. Aprendizaje por reglas de Asociación
SOM
Reducción de
Dimencionalidad
AgrupamientoReglas de Asociación
Modelamiento
Estadístico
Recomendadores
Métodos de Kernel
Aprendizaje
Supervisado
Aprendizaje NO
Supervisado
21. Supervisado
Se sabe que experimentos se
realizaron, su significado,
condiciones.
Cientos o miles de datos
plenamente identificados.
Transcriptómica: Microarreglos,
RNA Seq
23. Aprendizaje
Supervisado
Colecta de Datos Crudos
Pre-Procesamiento
Datos Faltantes
Extracción de Características
Muestreo
Entrenamiento del Conjunto de Datos
Validación
Cruzada
Pre-Procesamiento
Evaluar
Conjunto
de Datos
Nuevos
datos
Extracción de
Características
Reducción de
Dimensionalidad
Escalar
Características
Refinamiento
Selección del
Modelo
Métricas de
Desempeño
Entrenamiento de
Algoritmo de Aprendizaje
Optimización de
Hiperparámetros
Post-Procesamiento
Clasificación Final/
Modelo de Regresión Adaptado: de Sebastian Raschka
24. • Escalamiento de características
• Ej. estandarización
• Rápida convergencia
• Distancias en la misma escala
(k-NN Dist. Euclidiana)
• Centrado por media
• Datos distribuidos
normalmente
• Estabilidad numérica evitando
pequeños pesos.
• Valores faltantes
• Remover características
(columnas)
• Remover muestras (filas)
• Imputar (media,
Vecindad, …)
• Muestreo
• División aleatoria entre conjuntos
de datos de entrenamiento y
validación.
• Típicamente 60/40, 70/30, 80/20
• No usar conjunto de validación
hasta el puro final
(sobreentrenamiento)
27. Validación cruzada
Es una de las técnicas para evaluar
diferentes selecciones de
combinaciones de características.
Existen multiples sabores de
validación cruzada, el más común
podría ser «k-fold cross-validation».
Conjunto de Datos Completo
Conjunto de Datos de
Entrenamiento
Conjunto de Datos
de Validación
Conjunto
de
Validación
Conjunto
de
Validación
Conjunto
de
Validación
Conjunto
de
Validación
fold 1 fold 2 fold 3 fold 4
k-fold cross-validation (k=4)
1ª iteración
2ª iteración
3ª iteración
4 iteración
calc error
calc error
calc error
calc error
cálculo
de error
promedio
28. Evaluación del Modelo
1-Especificidad/Taza de falsas alarmas
Taza de Error = 1 - Exactitud
Variable de Respuesta Evaluada:
Y es realmente:
Positiva Negativa
Positiva
Negativa
# Falsa
Negativa
#Verdadera
Negativa
# Falsa
Positiva
#Verdadera
Positiva
VP+VN
P+N
Exactitud =
Precisión =
VP
VP+FP
Recall/Sensibilidad=
VP
VP+FN
Especificidad /Verdadera Taza de Error =
VN
VN+FP
Matriz de
Confusión
39. 15-7
FOSSILS (continued)
15. Classification And Evolution
LIVING CAMINALCULES
FOSSIL CAMINALCULES
(numbers in parentheses indicate age in millions of years)
15. Classification And Evolution
LIVING CAMINALCULES
FOSSIL CAMINALCULES
(numbers in parentheses indicate age in millions of years)
44. Clasificadores Comunes
Perceptron Multicapa
Bayesiano Ingenuo
Regresión Logística
KNN- K Vecinos
más Cercanos
Redes Neurales Artificiales - AAN /
Aprendizaje Profundo
Máquinas de Soporte
Vectorial - SVM
Árboles de
Decisión
C4.5
45. C4.5
• Construye un clasificador en forma de un árbol de decisión.
• Usa ganancia de Información en el proceso de generación
del árbol.
• A pesar de que otros sistemas también incorporan podado,
C4.5 utiliza un proceso de podado de un solo paso para
mitigar el sobreentrenamiento.
• Puede trabajar tanto con datos continuos como con
discretos.
• Third, C4.5 can work with both continuous and discrete
data. Hace esto especificando rangos o umbrales para los
datos continuos convirtiendo así a los datos continuos en
datos discretos.
46. K Nearest Neighbor - KNN
• Este es un método de clasificación no
paramétrico, que estima el valor de la
función de densidad de probabilidad o
directamente la probabilidad a posteriori
de que un elemento x pertenezca a la
clase Cj a partir de la información
proporcionada por el conjunto de
prototipos.
• En el proceso de aprendizaje no se hace ninguna suposición
acerca de la distribución de las variables predictoras.
47. Support Vector Machine (SVM)
• Muestren hiperplanos que son capaces
de separar dos o múltiples clases.
Eventualmente el hiperplano con el
mayor margen se selecciona, el
margen es definido como la distancia
mínima de los puntos de muestra al
hiperplano. Las muestra (puntos) que
forman el margen son llamadas
vectores de soporte y establecen el
modelo SVM
49. Clasificador Bayesiano
• El Teorema de Bayes: calcula el la
probabilidad posterior basado en la
probabilidad del prior, en lo que se
llama también verosimilitud.
• Un clasificador Bayesiano Ingenuo
asume que todos los atributos son
condicionalmente independientes, de
este modo, computar la verosimilitud
se simplifica al cálculo del producto
de las probabilidades condicionales
de los atributos de los individuos
observados dada una clase.
51. Redes Neurales Artificiales (ANN)
• Clasificadores de tipo grafo
bioinspirados en el cerebro animal
donde los los nodos interconectados
representan neuronas.
52. Árboles de Decisión
• Son grafos tipo árbol, en los que los
nodos del grafo evalúan ciertas
condiciones en un grupo particular de
características y las ramas van dividiendo
la decisión hasta llegar a los nodos hoja.
• Las hojas representan los niveles mas
bajos en el grafo y determina las
etiquetas de las clases. El árbol óptimo se
entrena minimizando con «Gini Impurity*»
o maximizando la ganancia de
información.
*Es una medida de que tan frecuentemente un elemento del conjunto escogido aleatoriamente puede ser etiquetado
de forma incorrecta, si este fuera aleatoriamente marcado acorde a la distribución de etiquetas en el subconjunto.
53. Hiperparámetros
• Los hiperparámetros de un clasificador o estimador que no son directamente
aprendidos en el paso de aprendizaje estadístico de los datos de
entrenamiento, son optimizados de forma separada.
• El objetivo de la optimización de hiperparámetros es el de mejorar el
desempeño del un clasificador y lograr una buena generalización del
algoritmo de aprendizaje.
• Un método popular de optimización es «grid Search», que típicamente es
implementado como una búsqueda, en contraste con la optimización aleatoria.
• Después de todas las posibles combinaciones de parámetros para un modelo,
se evalúan, se retiene la mejor combinación.
54. Agrupamiento Jerárquico
• Es un método de agrupamiento que busca construir una jerarquía de
grupos. Usa estrategias de dos tipos:
• Aglomerativa: Una aproximación «Bottom UP», cada observación inicia
con un único grupo, y pares de grupos van emergiendo a medida que uno
se mueve hacia la parte superior de la jerarquía.
• Divisiva: Es la aproximación «Top Down» todas las observaciones forman
un único grupo en el que las divisiones ocurren recursivamente a medida
que se mueve hacia abajo en la jerarquía.
• En general, las uniones y divisiones son determinadas de forma voraz.
• El resultado del agrupamiento usualmente ese presenta en forma de
dendrograma
55. k-means
k-means crea k grupos de un conjunto
de objetos de forma tal que los
miembros de los grupos sean los mas
similares entre ellos.
Es una técnica de análisis de
agrupamiento popular en la
exploración de conjuntos de datos.
¿Cómo sabe cuál es el mejor k?
Silhouette
56. Mapa Auto-Organizado - SOM
• Es un tipo de red neuronal artificial,
entrenada usando aprendizaje no
supervisado para producir una
representación discreta del espacio
de las muestras de entrada, llamado
mapa.
• Usan una función de vecindad para
preservar las propiedades
topológicas del espacio de entrada.
• Son útiles para visualizar vistas de baja
dimensión de datos de alta dimensión,
semejante a un escalado
multidimensional.
57. Nada es gratis…
Los modelos son una simplificación de la realidad
La simplificación es basada en presunciones
(sesgo del modelo)
Las presunciones fallan en algunas ocaciones
No existe un único modelo que funcione igual de bien
para todas las situaciones
58. ¿Cuál Algoritmo Escoger?
• ¿Cuál es el tamaño y dimensionalidad del conjunto de entrenamiento?
• ¿Son los datos lineaments separables?
• ¿Que tanto hay que preocuparse por la eficiencia computacional
• Construcción del modelo vs tiempo real de predicción
• Aprendizaje:
• ansioso vs perezoso / en línea vs en lote / desempeño de predicción vs velocidad
• ¿Debe tenerse cuidado en la interpretabilidad de los resultados?
• ….