ML Clustering

Aprendizaje de Máquina
(Machine Learning)
Presenta:
Carlos Zubieta

Introducción a ciencia de
datos
para ingenieros de software
1
Carlos Eduardo Zubieta Rico
Ingeniero de Datos @ Wizeline
@zubieta

Qué es ciencia de datos (data science)?
http://drewconway.com/zia/2013/3/26/the-data-science-venn-di
agram
3
Machine
__LearningData
Analysis
Probability
and
statistics Visualizatio
n
Codin
g
Wranglin
g
Scrapin
g
Algorithm
s

Aprendizaje de Máquina
(Machine Learning)

Proceso de aprendizaje
5
Las máquinas pueden aprender de manera probabilística. Para más información,
visita:
https://www.youtube.com/watch?v=MEG35RDD7RA
Para hacer machine learning se
necesita:
- Datos
- Una meta
- Un patrón escondido entre los datos
Observationes Modelo
Más
observationes
Confirmació
n del Modelo
Refinamient
o del Model

6
Aprendizaje
supervisado
Aprendizaje no
supervisado
Clasificación Regresión
Clustering
(agrupamiento)
Aprendizaje de
Máquina
Reducción de la
dimensionalida
d

Clustering usando
agrupamiento jerárquico
aglomerativo
Aprendizaje no supervisado

Problema:
Consolidación de pins en un mapa

Introducción
• Dado un conjunto de n objetos, descritos por p características, el análisis
aglomerativo intenta descubrir grupos (clusters) homogéneos y que estén
separados de otros grupos.
Ejemplo: En el kinder, los objetos los ordenaba basados en forma, tamaño
o color.

Clasificación de los algoritmos:
Estructura anidada
• Los métodos jerárquicos generan una secuencia anidada de particiones
con nodos simples hasta abajo y un grupo que contiene todo hasta arriba.
• Los métodos planos crean un particionamiento de los datos con un solo
nivel.

Clasificación de los algoritmos:
Superposición de los grupos
• En el agrupamiento nítido (duro) cada objeto se asigna exactamente a una
partición.
• En el agrupamiento borroso (suave) cada objeto puede pertenecer a varias
particiones; donde un vector de probabilidades indica el grado de
asociación a cada una.

Consideraciones
• ¿Qué características deben de incluirse para realizar el agrupamiento?
• ¿Cómo debe de medirse la similitud entre los objetos?
• ¿Qué algoritmo debe de usarse?
• ¿Cómo se deben de interpretar y validar los resultados?

Medidas de similitud
• El agrupamiento jerárquico requiere de una matriz de adyacencias
(distancias).
• Una función puede ser considerada una medida de distancia entre dos
objetos si se cumplen las siguientes reglas:
• No negatividad
• Igualdad entre indiscernibles
• Simetria
• Desigualdad del triángulo (eficiencia)
• La distancia euclidiana es la medida usada más comúnmente para valores
continuos.

Procedimientos de agrupamiento:
Enlace simple
• En el enlace simple (vecino más cercano) los grupos de crean de acuerdo
a la distancia entre entre sus miembros más cercanos.

Enlace completo
• En el enlace completo (vecino más lejano) la distancia entre los grupos se
define como la distancia entre sus miembros más alejados.

Enlace promedio
• En el enlace promedio la distancia entre grupos se define como la
distancia promedio entre todos sus pares de miembros.

Ejemplo:
Distancia euclidiana y enlace simple
A B C D E F G H I J K L M N
A B
C
DE
F
G
H I
J
K
N
L
M
DENDROGRA
M
Distance

ReProblema:
Consolidación de pins en un mapa
from scipy.cluster.hierarchy import linkage, fcluster
import numpy as np
coordinates = np.array([
[9.21188389, -0.15188589],
[8.88937431, -0.33937464],
[10.76840064, 2.95244645],
[8.24213268, 1.29094802],
[5.7967009, -5.83776714],
[6.3499309, 0.63959515]
])
links = linkage(coordinates, ‘single’)
max_distance = 5
clusters = fcluster(links, max_distance,
criterion='distance')
print(clusters)
# [1 1 1 1 2]

Otras aplicaciones de agrupación
• Agrupamiento de documentos por tema.
• Detección de fraudes/ataques.
• Compresión de imágenes (indexado).
• Segmentación de clientes para campañas de marketing
• Taxonomia numerica
• Expresión de genes

Selección de algoritmos
http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

Carlos Zubieta
Carlos Zubieta carlos.zubieta@wizel
ine.com

ML Clustering

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie ML Clustering

Ähnlich wie ML Clustering (20)

Mehr von Software Guru

Mehr von Software Guru (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

ML Clustering