4. Introducción
• Es un campo de la Inteligencia Artificial
• Su nombre está derivado del concepto que trata
con la construcción y estudio de sistemas que
aprenden de los datos.
• Es un concepto teórico en el que existen varias
técnicas con múltiples implementaciones.
• http://es.wikipedia.org/wiki/Machine_learning
5. En otras palabras…
“Un programa de ordenador se dice que es
capaz de aprender de la experiencia (E) con
una serie de tareas (T) y una medida del
rendimiento (P) si su desempeño en las
tareas T mejora con E”
6. Terminología
• Características/Rasgos
– Nº de características o rasgos distintos que se pueden utilizar para
describir cada elemento de una manera cuantitativa
• Muestras/Ejemplos
– Una muestra es un elemento a procesar (por ejemplo clasificar).
Puede ser un documento, una foto, un vídeo, una fila en una base de
datos o cualquier cosa que podamos describir con un número fijo de
rasgos cuantitativos
• Vector de características
– Vector n-dimensional con características numéricas que representan
un objeto
• Extracción de Características
– Preparación del vector de características
– Transforma los datos en un espacio con alta dimensionalidad a un
espacio con menos dimensiones
• Conjunto de Entrenamiento/Evolución
– Conjunto de datos destinado a descubrir relaciones predictivas.
9. Flujo
a) Entrenamiento: Conjunto de entrenamiento con datos
etiquetados (variable objetivo conocida/etiquetada)
b) Predicción: Conjunto de test con variable objetivo desconocida
12. Aprendizaje Supervisado
• Secuencias de ADN con etiquetas binarias que indican si cada
secuencia se centra en una zona de inicio de transcripción (TSS) o no.
15. Aprendizaje por Refuerzo
• Permite al programa o agente software aprender su
comportamiento basado en la información que recibe del entorno.
• Este comportamiento se puede aprender de una sola vez, o ir
adaptándose con el paso del tiempo.
17. Técnicas
• Clasificación: predecir una clase con las
observaciones
• Clustering: agrupar las observaciones en
grupos significativos
• Regresión (predicción): predecir un valor con
las observaciones
18. Clasificación
• Clasificar un documento en una categoría predefinida
• Los documentos pueden ser texto, imágenes
Ejemplo: Clasificador Bayesiano Ingenuo.
• Pasos:
– Paso 1: Entrenar el programa (construir un modelo) usando el
conjunto de entrenamiento con una categoría conocida por
ejemplo : deportes, política, economía, sucesos …
• El clasificador calculara la probabilidad de cada palabra, la probabilidad
es lo que hará a un documento pertenecer a una de las categorías
consideradas.
– Paso 2: Probar el modelo construido con el conjunto de datos de
test.
• https://es.wikipedia.org/wiki/Clasificador_bayesiano_ingenuo
19. Clustering
• Clustering es la tarea de agrupar un conjunto de
objetos de tal manera que los objetos en el mismo
grupo (llamado clúster) son más similares entre sí.
• Por ejemplo con estas palabras clave
– “zapatos de hombre”
– “zapatos de mujer”
– “camisetas de mujer”
– “camisetas de hombre”
– Pueden ser agrupadas en 2 categorías “zapatos” y
“camisetas” o “hombre” y “mujer”
• Los métodos más populares son clustering K-medias y
clustering Jerárquico.
21. Clustering Jerárquico
• Método de análisis de grupos el cual busca construir
una jerarquía de grupos.
• Existen 2 estrategias:
– Aglomerativas:
• Enfoque ascendente: cada observación comienza en su propio
grupo, y los pares de grupos son mezclados mientras uno sube en
la jerarquía
• Su complejidad temporal es de O(n^3)
– Divisivas:
• Aproximación descendente: todas las observaciones comienzan en
un grupo, y se realizan particiones a medida que bajamos en la
jerarquía.
• Su complejidad temporal es de O(2^n)
https://es.wikipedia.org/wiki/Agrupamiento_jerárquico
22. Regresión
• Es una medida de la relación entre
una variable dependiente (por
ejemplo la salida) y los valores de una
serie de variables independientes
(por ejemplo: tiempo y coste)
• El analisis de la regresión es un
proceso estadístico para estimar las
relaciones entre las variables.
• Regresión significa predecir la salida
o resultado usando los datos de
entrenamiento.
• Es popular la regresión logística
(regresión binaria)
• https://es.wikipedia.org/wiki/Regresión_logística
23. Clasificación vs Regresión
• Clasificar significa agrupar
la resultados de salida en
una clase.
• Usar clasificación para
predecir el tipo de un
tumor (maligno o
benigno) a partir de los
datos de entrenamiento
• Si la variable es
discreta/categórica,
entonces estamos ante un
problema de clasificación
• Regresión significa
predecir el valor de salida
utilizando los datos de
entrenamiento.
• Usar regresión para
predecir el precio de la
vivienda a partir de los
datos de entrenamiento
• Si nuestra objetivo es un
nº real/continuo, estamos
ante un problema de
regresión.
26. Casos de Uso
• Detección de Spam: Hotmail, Yahoo, Gmail
• Traducción Automática: Google Translate
• Búsqueda de Imágenes Similares: Google
Reverse image search
• Clustering (KMeans) : Recomendaciones de
Amazon
• Clasificación: Google News
Continúa..
27. Casos de Uso (continuación)
• Resumen de textos- Google News
• Puntuación de una crítica/comentario: Yelp
• Detección de Fraude: Visa/MasterCard
• Toma de decisiones: Banca/Seguros
• Análisis de sentimientos: Twitter, Facebook
• Reconocimiento de voz: Siri en iPhone
• Reconocimiento Facial: Etiquetado en fotos
de Facebook
34. Gestión de Inventario
• Serie temporal con las unidades vendidas de un
determinado artículo.
• Información disponible: 38 meses desde Junio
2012 – Agosto 2015
35. Gestión de Inventario
• Descomponemos la serie original en componentes Y[t] = T[t] + S[t] + e[t]
– Componente estacional (S[t]) Oscilaciones con periodicidad anual o
submúltiplos del año
– Componente Tendencial (T[t]) Recoge la parte de la variable vinculada
principalmente con factores de largo plazo.
– Componente de Irregular/Error (e[t]) Se determina al quitar los
componentes estacional y el tendencial de la serie original
36. Gestión de Inventario
• Predicción utilizando el método ARIMA .
• ARIMA es un modelo estadístico que utiliza
variaciones y regresiones de datos estadísticos con
el fin de encontrar patrones para una predicción
hacia el futuro.
37. Gestión de Inventario
• Holt-Winters es un método de alisado exponencial que
tiene en cuenta el componente de tendencia (método de
Holt, extensión del método de alisado exponencial simple)
y el componente estacional (extensión por Winters del
método de Holt)
38. Gestión de Inventario
La predicción de Holt-Winters incluye 3 series
temporales:
• Ajustada
• Superior
• Inferior
39. Diagnóstico del cáncer de pecho
Redes Neuronales para el diagnóstico de tumores
malignos o benignos.
40. Herramientas y Frameworks
• Scikit-learn, Pandas, TensorFlow - Python
• Weka – Herramienta con una colección de algoritmos
• OpenNLP – Procesamiento del Lenguaje natural Java
• LingPipe – Procesamiento de texto con lingüística
computacional
• Stanford NLP – Procesamiento del Lenguaje Natural
• Mallet – Modelado de Temas
• Gensim – Modelado de Temas - Python
• LIBSVM : Máquinas de vectores de soporte - Python
41. Herramientas y Frameworks
• Apache Mahout – Librerías ML Big Data
designadas para ser escalables
• MLib , Spark ML – ML Big Data con Apache Spark
• forecast : Predicción con series temporales – R
• nnet : Redes neuronales – R
• arules – Reglas de asociación – R
• randomForest – Clasificación y regresión
utilizando bosques aleatorios – R
• Carrot2 – Clustering de resultados de búsquedas