Introducción al ML

Introducción al
Machine Learning o
Aprendizaje Automático

Contenidos
• Introducción
• Técnicas
– Clasificación
– Clustering
– Regresión
• Casos de Uso y Herramientas
2

Introducción al Machine Learning

Introducción
• Es un campo de la Inteligencia Artificial
• Su nombre está derivado del concepto que trata
con la construcción y estudio de sistemas que
aprenden de los datos.
• Es un concepto teórico en el que existen varias
técnicas con múltiples implementaciones.
• http://es.wikipedia.org/wiki/Machine_learning

En otras palabras…
“Un programa de ordenador se dice que es
capaz de aprender de la experiencia (E) con
una serie de tareas (T) y una medida del
rendimiento (P) si su desempeño en las
tareas T mejora con E”

Terminología
• Características/Rasgos
– Nº de características o rasgos distintos que se pueden utilizar para
describir cada elemento de una manera cuantitativa
• Muestras/Ejemplos
– Una muestra es un elemento a procesar (por ejemplo clasificar).
Puede ser un documento, una foto, un vídeo, una fila en una base de
datos o cualquier cosa que podamos describir con un número fijo de
rasgos cuantitativos
• Vector de características
– Vector n-dimensional con características numéricas que representan
un objeto
• Extracción de Características
– Preparación del vector de características
– Transforma los datos en un espacio con alta dimensionalidad a un
espacio con menos dimensiones
• Conjunto de Entrenamiento/Evolución
– Conjunto de datos destinado a descubrir relaciones predictivas.

Manzana
Qué quieres decir con…
Vamos a profundizar un poco…

Aprendizaje (Training)
Características (Features):
1. Color: Rojo
2. Tipo: Fruta
3. Forma: Redonda
4. Comestible: Si
etc…
Características:
1. Azul cielo
2. Logotipo
3. Redondo
4. No
etc…
Características:
1. Verde
2. Fruta
3. Redonda
4. Si
etc…

Flujo
a) Entrenamiento: Conjunto de entrenamiento con datos
etiquetados (variable objetivo conocida/etiquetada)
b) Predicción: Conjunto de test con variable objetivo desconocida

Categorías
• Aprendizaje Supervisado
• Aprendizaje No Supervisado
• Aprendizaje Semisupervisado
• Aprendizaje por refuerzo

Aprendizaje Supervisado
• Las clases correctas del conjunto de datos de
entrenamiento son conocidas

Aprendizaje Supervisado
• Secuencias de ADN con etiquetas binarias que indican si cada
secuencia se centra en una zona de inicio de transcripción (TSS) o no.

Aprendizaje No Supervisado
• Las clases correctas del conjunto de datos de
entrenamiento no son conocidas

Aprendizaje Semisupervisado
• Mezcla de aprendizaje Supervisado y No Supervisado

Aprendizaje por Refuerzo
• Permite al programa o agente software aprender su
comportamiento basado en la información que recibe del entorno.
• Este comportamiento se puede aprender de una sola vez, o ir
adaptándose con el paso del tiempo.

Técnicas
• Clasificación: predecir una clase con las
observaciones
• Clustering: agrupar las observaciones en
grupos significativos
• Regresión (predicción): predecir un valor con
las observaciones

Clasificación
• Clasificar un documento en una categoría predefinida
• Los documentos pueden ser texto, imágenes
Ejemplo: Clasificador Bayesiano Ingenuo.
• Pasos:
– Paso 1: Entrenar el programa (construir un modelo) usando el
conjunto de entrenamiento con una categoría conocida por
ejemplo : deportes, política, economía, sucesos …
• El clasificador calculara la probabilidad de cada palabra, la probabilidad
es lo que hará a un documento pertenecer a una de las categorías
consideradas.
– Paso 2: Probar el modelo construido con el conjunto de datos de
test.
• https://es.wikipedia.org/wiki/Clasificador_bayesiano_ingenuo

Clustering
• Clustering es la tarea de agrupar un conjunto de
objetos de tal manera que los objetos en el mismo
grupo (llamado clúster) son más similares entre sí.
• Por ejemplo con estas palabras clave
– “zapatos de hombre”
– “zapatos de mujer”
– “camisetas de mujer”
– “camisetas de hombre”
– Pueden ser agrupadas en 2 categorías “zapatos” y
“camisetas” o “hombre” y “mujer”
• Los métodos más populares son clustering K-medias y
clustering Jerárquico.

Clustering K-medias
https://es.wikipedia.org/wiki/K-means
• Tiene como objetivo la partición de un conjunto de n observaciones
en k clusters en el que cada observación pertenece al grupo más
cercano a la media.

Clustering Jerárquico
• Método de análisis de grupos el cual busca construir
una jerarquía de grupos.
• Existen 2 estrategias:
– Aglomerativas:
• Enfoque ascendente: cada observación comienza en su propio
grupo, y los pares de grupos son mezclados mientras uno sube en
la jerarquía
• Su complejidad temporal es de O(n^3)
– Divisivas:
• Aproximación descendente: todas las observaciones comienzan en
un grupo, y se realizan particiones a medida que bajamos en la
jerarquía.
• Su complejidad temporal es de O(2^n)
https://es.wikipedia.org/wiki/Agrupamiento_jerárquico

Regresión
• Es una medida de la relación entre
una variable dependiente (por
ejemplo la salida) y los valores de una
serie de variables independientes
(por ejemplo: tiempo y coste)
• El analisis de la regresión es un
proceso estadístico para estimar las
relaciones entre las variables.
• Regresión significa predecir la salida
o resultado usando los datos de
entrenamiento.
• Es popular la regresión logística
(regresión binaria)
• https://es.wikipedia.org/wiki/Regresión_logística

Clasificación vs Regresión
• Clasificar significa agrupar
la resultados de salida en
una clase.
• Usar clasificación para
predecir el tipo de un
tumor (maligno o
benigno) a partir de los
datos de entrenamiento
• Si la variable es
discreta/categórica,
entonces estamos ante un
problema de clasificación
• Regresión significa
predecir el valor de salida
utilizando los datos de
entrenamiento.
• Usar regresión para
predecir el precio de la
vivienda a partir de los
datos de entrenamiento
• Si nuestra objetivo es un
nº real/continuo, estamos
ante un problema de
regresión.

Casos de Uso
• Detección de Spam: Hotmail, Yahoo, Gmail
• Traducción Automática: Google Translate
• Búsqueda de Imágenes Similares: Google
Reverse image search
• Clustering (KMeans) : Recomendaciones de
Amazon
• Clasificación: Google News
Continúa..

Casos de Uso (continuación)
• Resumen de textos- Google News
• Puntuación de una crítica/comentario: Yelp
• Detección de Fraude: Visa/MasterCard
• Toma de decisiones: Banca/Seguros
• Análisis de sentimientos: Twitter, Facebook
• Reconocimiento de voz: Siri en iPhone
• Reconocimiento Facial: Etiquetado en fotos
de Facebook

Clasificación en Acción
¿No es fácil?

No, no es fácil (Carpeta de Correo no deseado)
No es
Spam
No es
Spam

Reconocimiento de nombres de entidades
Idiomas soportados por herramienta:
• NLTK: Inglés.
• Stanford: Inglés, Español, Chino y Árabe.
• OpenNLP: Inglés, Español, Alemán y Holandés.
• Polyglot-NER: 40 principales idiomas (Inglés, Español, Francés, Ruso,
Polaco, Portugués, Italiano, Holandés. Árabe, Hebreo, Japonés,
Vietnamita, …)

Reconocimiento de nombres de entidades

Imágenes Similares/Duplicadas
Recuerda
¿Características?
Extracción de características:
• Anchura
• Altura
• Contraste
• Brillo
• Posición
• Matiz
• Colores
Información Extra:
Librería LIRE (Lucene Image
REtrieval)
http://www.lire-project.net/

Gestión de Inventario
• Serie temporal con las unidades vendidas de un
determinado artículo.
• Información disponible: 38 meses desde Junio
2012 – Agosto 2015

• Descomponemos la serie original en componentes Y[t] = T[t] + S[t] + e[t]
– Componente estacional (S[t])  Oscilaciones con periodicidad anual o
submúltiplos del año
– Componente Tendencial (T[t])  Recoge la parte de la variable vinculada
principalmente con factores de largo plazo.
– Componente de Irregular/Error (e[t])  Se determina al quitar los
componentes estacional y el tendencial de la serie original

• Predicción utilizando el método ARIMA .
• ARIMA es un modelo estadístico que utiliza
variaciones y regresiones de datos estadísticos con
el fin de encontrar patrones para una predicción
hacia el futuro.

• Holt-Winters es un método de alisado exponencial que
tiene en cuenta el componente de tendencia (método de
Holt, extensión del método de alisado exponencial simple)
y el componente estacional (extensión por Winters del
método de Holt)

La predicción de Holt-Winters incluye 3 series
temporales:
• Ajustada
• Superior
• Inferior

Diagnóstico del cáncer de pecho
Redes Neuronales para el diagnóstico de tumores
malignos o benignos.

Herramientas y Frameworks
• Scikit-learn, Pandas, TensorFlow - Python
• Weka – Herramienta con una colección de algoritmos
• OpenNLP – Procesamiento del Lenguaje natural Java
• LingPipe – Procesamiento de texto con lingüística
computacional
• Stanford NLP – Procesamiento del Lenguaje Natural
• Mallet – Modelado de Temas
• Gensim – Modelado de Temas - Python
• LIBSVM : Máquinas de vectores de soporte - Python

Herramientas y Frameworks
• Apache Mahout – Librerías ML Big Data
designadas para ser escalables
• MLib , Spark ML – ML Big Data con Apache Spark
• forecast : Predicción con series temporales – R
• nnet : Redes neuronales – R
• arules – Reglas de asociación – R
• randomForest – Clasificación y regresión
utilizando bosques aleatorios – R
• Carrot2 – Clustering de resultados de búsquedas

Machine Learning aplicado al Big Data

Conceptos Avanzados
• Modelado de Temas
• Búsqueda Semántica
• Descomposición en valores singulares (SVD)
• Resumen/Recapitulación

Sector Privado
Referencias y Datos de Contacto

Sector Público
Referencias y Datos de Contacto

www.TodoBI.com
info@stratebi.com
www.stratebi.com
Mas información
Tfno: 91.788.34.10
Madrid: Avenida de Brasil, 17, Planta 16
Barcelona: C/ Valencia, 63
Brasil: Av. Paulista, 37 4 andar

Introducción al ML

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Introducción al ML

Ähnlich wie Introducción al ML (20)

Mehr von Stratebi

Mehr von Stratebi (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Introducción al ML