Este documento presenta una introducción al aprendizaje de máquinas (machine learning). Explica que el aprendizaje de máquinas permite que las máquinas aprendan de manera probabilística a partir de datos para identificar patrones ocultos. Describe los tipos de aprendizaje supervisado, no supervisado y reducción de dimensionalidad. Luego, se enfoca en el clustering jerárquico aglomerativo como un método de agrupamiento no supervisado y cómo puede usarse para consolidar pins en un mapa.
2. Introducción a ciencia de
datos
para ingenieros de software
1
Carlos Eduardo Zubieta Rico
Ingeniero de Datos @ Wizeline
@zubieta
3. Qué es ciencia de datos (data science)?
http://drewconway.com/zia/2013/3/26/the-data-science-venn-di
agram
3
Machine
__LearningData
Analysis
Probability
and
statistics Visualizatio
n
Codin
g
Wranglin
g
Scrapin
g
Algorithm
s
5. Proceso de aprendizaje
5
Las máquinas pueden aprender de manera probabilística. Para más información,
visita:
https://www.youtube.com/watch?v=MEG35RDD7RA
Para hacer machine learning se
necesita:
- Datos
- Una meta
- Un patrón escondido entre los datos
Observationes Modelo
Más
observationes
Confirmació
n del Modelo
Refinamient
o del Model
9. Introducción
• Dado un conjunto de n objetos, descritos por p características, el análisis
aglomerativo intenta descubrir grupos (clusters) homogéneos y que estén
separados de otros grupos.
Ejemplo: En el kinder, los objetos los ordenaba basados en forma, tamaño
o color.
10. Clasificación de los algoritmos:
Estructura anidada
• Los métodos jerárquicos generan una secuencia anidada de particiones
con nodos simples hasta abajo y un grupo que contiene todo hasta arriba.
• Los métodos planos crean un particionamiento de los datos con un solo
nivel.
11. Clasificación de los algoritmos:
Superposición de los grupos
• En el agrupamiento nítido (duro) cada objeto se asigna exactamente a una
partición.
• En el agrupamiento borroso (suave) cada objeto puede pertenecer a varias
particiones; donde un vector de probabilidades indica el grado de
asociación a cada una.
12. Consideraciones
• ¿Qué características deben de incluirse para realizar el agrupamiento?
• ¿Cómo debe de medirse la similitud entre los objetos?
• ¿Qué algoritmo debe de usarse?
• ¿Cómo se deben de interpretar y validar los resultados?
13. Medidas de similitud
• El agrupamiento jerárquico requiere de una matriz de adyacencias
(distancias).
• Una función puede ser considerada una medida de distancia entre dos
objetos si se cumplen las siguientes reglas:
• No negatividad
• Igualdad entre indiscernibles
• Simetria
• Desigualdad del triángulo (eficiencia)
• La distancia euclidiana es la medida usada más comúnmente para valores
continuos.
14. Procedimientos de agrupamiento:
Enlace simple
• En el enlace simple (vecino más cercano) los grupos de crean de acuerdo
a la distancia entre entre sus miembros más cercanos.
15. Procedimientos de agrupamiento:
Enlace completo
• En el enlace completo (vecino más lejano) la distancia entre los grupos se
define como la distancia entre sus miembros más alejados.
16. Procedimientos de agrupamiento:
Enlace promedio
• En el enlace promedio la distancia entre grupos se define como la
distancia promedio entre todos sus pares de miembros.
19. Otras aplicaciones de agrupación
• Agrupamiento de documentos por tema.
• Detección de fraudes/ataques.
• Compresión de imágenes (indexado).
• Segmentación de clientes para campañas de marketing
• Taxonomia numerica
• Expresión de genes