Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

Aprendizaje no supervisado

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Wird geladen in …3
×

Hier ansehen

1 von 91 Anzeige

Weitere Verwandte Inhalte

Diashows für Sie (20)

Ähnlich wie Aprendizaje no supervisado (20)

Anzeige

Weitere von Jairo Acosta Solano (20)

Aktuellste (20)

Anzeige

Aprendizaje no supervisado

  1. 1. APRENDIZAJE NO SUPERVISADO Facilitador: Jairo Acosta Solano
  2. 2. APRENDIZAJE NO SUPERVISADO Metas de formación: • Conocer los detalles del aprendizaje no supervisado y su importancia en los modelos de analítica de datos. • Aplicar algoritmos para la identificación de clústeres que pueden convertirse en los atributos clase para el aprendizaje supervisado.
  3. 3. APRENDIZAJE SUPERVISADO Los modelos de aprendizaje supervisado son aquellos en los que se aprenden funciones, relaciones que asocian entradas con salidas, por lo que se ajustan a un conjunto de ejemplos de los que conocemos la relación entre la entrada y la salida deseada. Este hecho incluso llega a proporcionar una de las clasificaciones más habituales en el tipo de algoritmos que se desarrollan, así, dependiendo del tipo de salida, suele darse una subcategoría que diferencia entre modelos de clasificación, si la salida es un valor categórico (por ejemplo, una enumeración, o un conjunto finito de clases) , y modelos de regresión, si la salida es un valor de un espacio continuo.
  4. 4. APRENDIZAJE NO SUPERVISADO Los modelos de aprendizaje no supervisado son aquellos en los que no estamos interesados en ajustar pares (entrada, salida), sino en aumentar el conocimiento estructural de los datos disponibles (y posibles datos futuros que provengan del mismo fenómeno), por ejemplo: • Dando una agrupación de los datos según su similaridad (clustering), • Simplificando las estructura de los mismos manteniendo sus características fundamentales (como en los procesos de reducción de la dimensionalidad), • Extrayendo la estructura interna con la que se distribuyen los datos en su espacio original (aprendizaje topológico).
  5. 5. APRENDIZAJE NO SUPERVISADO La mayor parte de las definiciones, resultados teóricos, y algoritmos clásicos más importantes, se clasifican como algoritmos supervisados y, sobre todo en el pasado, muchos de los algoritmos no supervisados se reservaban para tareas de preprocesamiento de datos integrados en metodologías más amplias.
  6. 6. APRENDIZAJE NO SUPERVISADO Este hecho se debe, principalmente, a un cadena de factores. Por una parte, el objetivo que dirige el aprendizaje supervisado está mucho más claramente definido, mientras que el no supervisado resulta más etéreo y difuso. Esto no solo afecta a un desarrollo más amplio al disponer de aplicaciones mejor definidas, sino que también permite disponer de métricas que permiten evaluar con mucha más claridad la bondad del aprendizaje realizado (el rendimiento del algoritmo). Por otra parte, y quizás como resultado de lo anterior, los algoritmos no supervisados resultan ser muy costosos porque requieren de más pruebas de ensayo y error, haciendo que requieran de un aparataje teórico y computacional mucho más elaborado.
  7. 7. APRENDIZAJE NO SUPERVISADO Sin embargo, sobre todo recientemente, han ido surgiendo nuevos algoritmos no supervisados relacionados con lo que se conoce como Aprendizaje de la Representación, que ha demostrado ser el núcleo del Aprendizaje Automático, y donde líneas de trabajo como el Deep Learning están tomando el peso de los avances más interesantes que se están produciendo, hasta el punto de considerarse que el futuro de la Inteligencia Artificial se encuentra más cerca del aprendizaje no supervisado que del supervisado.
  8. 8. APRENDIZAJE NO SUPERVISADO Mientras que en el aprendizaje supervisado tenemos un conjunto de variables que usamos para predecir una determinada clase de salida (sube/baja, renuncia/no renuncia), en el aprendizaje no supervisado no tenemos clases de salida esperadas. En el aprendizaje supervisado teníamos data de entrenamiento y data de testeo que nos permitía validar la efectividad del modelo por la cercanía a la clase conocida. En el aprendizaje no supervisado no tenemos output predeterminado. Esto genera a su vez un gran reto porque es muy difícil saber si ya culminamos con el trabajo o podemos aun generar otro modelo con el que nos sintamos más satisfechos.
  9. 9. APRENDIZAJE NO SUPERVISADO Las principales aplicaciones del aprendizaje no supervisado están relacionadas en el agrupamiento o clustering de datos. Aquí, el objetivo es encontrar subgrupos homogéneos dentro de los datos. Estos algoritmos se basan en la distancia entre observaciones. El ejemplo de la segmentación de clientes sería un ejemplo de clustering.
  10. 10. APRENDIZAJE NO SUPERVISADO El clustering (análisis de conglomerados), es una categoría de técnicas de aprendizaje no supervisadas que nos permite descubrir estructuras ocultas en los datos donde no sabemos la respuesta correcta por adelantado. El objetivo de la agrupación es encontrar una agrupación natural en los datos para que los elementos del mismo grupo sean más similares entre sí que a los de diferentes grupos.
  11. 11. APRENDIZAJE NO SUPERVISADO Dada su naturaleza exploratoria, la agrupación en clústeres es puede ayudarnos a organizar los datos en estructuras significativas: • Encontrar centros de similitud utilizando el popular algoritmo de k-means • Adopción de un enfoque de abajo hacia arriba para construir árboles de agrupamiento jerárquico. • Identificar formas arbitrarias de objetos mediante un enfoque de agrupamiento basado en densidad
  12. 12. ANALISIS DE CONGLOMERADOS (CLUSTERS)
  13. 13. Contextualización Métodos de Dependencia: Se asume que una variable (Y) depende de (es causada o determinada por) otras variables (X1, X2 etc.) Ejemplos: Regresión, ANOVA, Análisis Discriminante Métodosde Independencia: No se asume que ninguna variable sea causada o determinada por otras. Básicamente tenemos X1, X2 ….Xn (pero no Y) Ejemplos: Análisis de Conglomerados, Análisis Factorial, etc. Cuándo se usan métodos de independencia se deja que los datos hablen por ellos mismos. No hay modelización previa.
  14. 14. Contextualización Análisis Factorial: Cuando lo que interesa son agrupar variables. Análisis Clúster: Cuando lo que interesa son agrupar observaciones. Principio rector: Maximización de la homogeneidad intra grupos (conglomerados, segmentos) y simultáneamente Maximización de la heterogeneidad inter grupos.
  15. 15. X1 X2 X3 X4 Cluster Obs1 5 2 1 3 1 Obs2 3 3 4 2 2 Obs3 2 4 3 5 3 Obs4 5 3 2 4 1 Obs5 . . . . 2 Obs6 . . . . 3 Obs7 . . . . 3 Obs8 . . . . 1 Obs9 . . . . 3 Obs10 . . . . 2 Cluster 1 Cluster 2 Cluster 3 Resultado final: En el archivo de datos, una nueva variable que asigna cada observación a un conglomerado específico. Dos fases fundamentales. 1ª: Obtención de segmentos
  16. 16. Cluster 1 Cluster 2 Cluster 3 Edad 32 44 56 % Mujeres 31 54 46 Tamaño de la familia 1.4 2.9 2.1 Opinión 1 3.2 4.0 2.6 Opinión 2 2.1 3.4 3.2 Opinión 3 2.2 3.3 3.0 “Jóvenes solteros” “Familia tradicional” “Maduros felices” Dos fases fundamentales. 2ª: Perfilado de segmentos Resultado final: Una tabla de contingencia entre la variable de agrupamiento y una serie de variables sociodemográficas o de otro tipo (distintas de las utilizadas para establecer los conglomerados). 1 7
  17. 17. ¿Cómo se construyen los conglomerados? El análisis estadístico necesita: 1.Una MEDIDA para calcular la distancia entre dos sujetos, lo distintos que son. 2. Un criterio, una regla, un MÉTODO PARA AGRUPARLOS y asignarlos a cada conglomerado.
  18. 18. Eltipo de medida seleccionada muchas veces influye poco en los resultados finales. Y *B(x2, y2) y2-y1 (x A *) 1, y1 x2-x1 X d = (x -x ) 2 +(y -y ) 2 2 1 2 1 Otras distancias disponibles: City-Block (usa de distancias absolutas en vez de la distancia al cuadrado de las coordenadas), Minkowski, Coseno, Chebychev, Correlación de Pearson. ¿La medida? Distancia Euclídea
  19. 19. ¿El método de agrupamiento? Hay muchos y muy diferentes Nombre 1 Vinculación entre-grupos 2 Vinculación intra-grupos 3 Vecino más próximo 4 Vecino más lejano 5 Agrupación de centroides 6 Agrupación de medianas 7 Método de Ward 8 Conglomerado de k-means 9 Análisis Factorial Jerárquicos Iterativos Aglomerativos Divisivos - Umbral secuencial - Umbral paralelo - Redes Neuronales - Partición óptima (8) Métodos sin solapamiento Métodos con solapamiento - k-centroides con solapamiento - k-means con solapamiento - Análisis de Clases Latentes - AC Borroso - Factorial Tipo-Q (9) Métodos de vinculación Métodos de centroide Métodos de varianza - Centroide (5) - Mediana (6) - Promedio - Entre grupos (1) - Intra grupos (2) - Ponderado - Único - Ordinario (3) - Densidad - Dos fases - Completo (4) - Ward (7)
  20. 20. Principales tipologías de agrupamiento Vinculación única: Mínima distancia * * Vinculación completa: Máxima distancia * * Vinculación media (inter-grupos): Distancia media * * * * Método de Ward: Minimización de la varianza intragrupos * * * * ¤ * * * * ¤* Método de centroide: Distancia entre centros * * * * * * ¤ * * ¤ * * Sin solapamiento Con solapamiento Jerárquico No jerárquico 1a 1b 1c 1b 1b1 1b2 2 Aglomerativo Divisivo 1a
  21. 21. *G *D C * ¿CÓMO FUNCIONAN LOS PROCEDIMIENTOS JERÁRQUICOS (AGLOMERATIVOS)? ¿Qué par de elementos se unirán primero? A* *B *E H*
  22. 22. *D C * Depende de la medida de distancia que utilicemos, pero supongamos que A-B y D-E. Surgen así dos conglomerados. *G A* *B *E H*
  23. 23. C * *D El siguiente punto más próximo a estos dos conglomerados es C. ¿A dónde será adscrito? *G A* *B *E H*
  24. 24. C * *D A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN VARIAS POSIBILIDADES (métodos de agrupamiento). *G A* *B *E H*
  25. 25. 10,5 8,5 7,0 8,5 9,0 12,0 11,0 C * *D A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN VARIAS POSIBILIDADES (métodos de agrupamiento): *G A* *B 9,5 *E H*
  26. 26. C * *D VECINO MÁS LEJANO (COMPLETE LINKAGE): Adscribe C al conglomerado cuya distancia el caso más alejado de ese conglomerado es menor. *G A* *B 10,5 9,5 *E H* d(C;AB)=max(dCA;dCB)
  27. 27. 8,5 *D VECINO MÁS PRÓXIMO (SINGLE LINKAGE): Adscribe C al conglomerado cuyo distancia al caso más cercano de ese conglomerado es menor. *G A* *B 7,0 d(C;AB)=min(dCA;dCB) C * Inconvenientes: Encadenamiento Ventajas: Detecta muy bien “outliers”. *E H*
  28. 28. 9,0 8,5 C * *G *D MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al conglomerado cuya promedio de distancias es menor. A* *B WARD y VINCULACIÓN INTERGRUPOS. H* *E • Vinculación Intragrupos • Vinculación intergrupos • Mediana • Centroide • Ward Tienden a obtener conglomerados de tamaño similar. Preferibles al resto de jerárquicos, especialmente
  29. 29. MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al conglomerado cuya distancia es menor a... Vinculación INTERgrupos: Media de todas las distancias entre C y cada uno de los elementos del conglomerado. Vinculación INTRAgrupos: Incluye además las distancias dentro de cada conglomerado, es decir, todas las posibles.
  30. 30. MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al conglomerado cuya distancia es menor a... Centroide: Centro de simetría del cluster, calculado como la media de las distancias de todos sus elementos: Mediana: Centroides calculados sólo con valores centrales. Ward: Proporciona la menor suma de cuadrados intragrupos. Envez de utilizar las distancias entre casos utiliza esta medida de variabilidad.
  31. 31. Todos estos métodos JERÁRQUICOS... ... como resultado de su proceso aglomerativo, ofrecen un DENDROGRAMA, una representación gráfica en forma de árbol que muestra: 1. Qué elementos se han ido uniendo en cada paso. 2. Cómo se organizan los casos. 3. Cuántos conglomerados podemos distinguir en los datos.
  32. 32. Paso 0: Cada observación Es considerada como un conglomerado independiente 0,2 0,4 0,6 0,8 1,0 OBS 5 * OBS 3 * OBS 4 * OBS 6 * Medida de Distancia ¿CÓMO SE CREA EL DENDROGRAMA? OBS 1 * OBS 2 *
  33. 33. Paso 1: Se agrupan los dos casos más próximos entre sí. 0,2 0,4 0,6 0,8 1,0 OBS 1 * Cluster1 OBS 2 * OBS 3 * OBS 4 * OBS 5 * OBS 6 *
  34. 34. Paso 2: Se agrupan los siguientes casoscon menores distancias entre ellos. OBS 1 * Cluster1 OBS 2 * OBS 3 * OBS 4 * OBS 5 * Cluster 2 OBS 6 * 0,2 0,4 0,6 0,8 1,0
  35. 35. Paso 3: El caso 3 se une al clúster 1 OBS 1 * Cluster1 OBS 2 * OBS 3 * OBS 4 * OBS 5 * Cluster 2 OBS 6 * 0,2 0,4 0,6 0,8 1,0
  36. 36. OBS 1 * OBS 5 * OBS 2 * OBS 3 * OBS 4 * OBS 6 * Cluster 1-2 Paso 4: Se juntan los dos clusters 1 y 2, quedando un sólo caso desparejado: un outlier. 0,2 0,4 0,6 0,8 1,0
  37. 37. Ejemplos de dendrogramas Un buen resultado: 2 conglomerados claros Un mal resultado: No hay conglomerados claros Un mal resultado: Tenemos un outlier (caso 1017) y el dendrograma muestra encadenamiento Dendrograma típico al emplear Vecino Más Próximo
  38. 38. Ejemplos de dendrogramas
  39. 39. ¿Y QUÉ HAY DE LOS MÉTODOS ITERATIVOS? No agrupan los datos por similaridad entre ellos No crean un dendrograma. Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. • Cada paso de un método jerárquico va agrupando casos similares en un mismo cluster. • Cada paso de un método iterativo va recolocando los centroides para que estén óptimamente posicionados en el centro real del conglomerado.
  40. 40. El algoritmo de los k vecinos más cercanos (k-NN, o k Nearest Neighbour) es un algoritmo de clasificación supervisado basado en criterios de vecindad. En particular, k-NN se basa en la idea de que los nuevos ejemplos serán clasificados con la misma clase que tengan la mayor cantidad de vecinos más parecidos a ellos del conjunto de entrenamiento. Así pues, este algoritmo sigue un procedimiento que seguimos cada uno de nosotros al ver un ejemplo nuevo: vemos a qué se parece más de lo que conocemos, y lo metemos en la misma bolsa. Algoritmo K-NN
  41. 41. Obviamente, este algoritmo introduce ya una condición que debe cumplirse entre los datos que tengamos, y es que hemos de ser capaces de medir la similaridad entre dos cualesquiera de ellos, por eso se considera que el espacio de datos de entrada debe ser algo parecido a un espacio métrico (es decir, un espacio donde haya una distancia definida), por lo que muchas veces será común pensar en los datos de entrada como si vinieran dados por medio de vectores de un espacio vectorial numérico estándar. Algoritmo K-NN
  42. 42. Su versión más simple, el algoritmo del vecino más cercano (aquel que asigna a una nueva muestra la clasificación de la muestra más parecida) explora todo el conocimiento almacenado en el conjunto de entrenamiento para determinar cuál será la clase a la que pertenece una nueva muestra, pero únicamente tiene en cuenta el vecino más próximo (más similar) a ella, por lo que es lógico pensar que es posible que no se esté aprovechando de forma eficiente toda la información que se podría extraer del conjunto de entrenamiento. Algoritmo K-NN
  43. 43. Con el objetivo de resolver esta posible deficiencia surge la generalización de los k vecinos más cercanos (k-NN), en la que se utiliza la información suministrada por los k ejemplos del conjunto de entrenamiento más cercanos al que queremos clasificar. Algoritmo K-NN
  44. 44. En problemas prácticos donde se aplica esta regla de clasificación se acostumbra tomar un número, k, de vecinos impar para evitar posibles empates (aunque esta decisión solo resueve el problema en clasificaciones binarias). En otras ocasiones, en caso de empate, se selecciona la clase que verifique que sus representantes tengan la menor distancia media al nuevo ejemplo que se está clasificando. En última instancia, si también así se produce un empate, siempre se puede decidir aleatoriamente entre las clases con mayor representación. Algoritmo K-NN
  45. 45. A partir de una idea tan simple es fácil introducir variantes que se espera funcionen mejor, aunque suele ser a cambio de introducir complejidad computacional, y una posible variante de este algoritmo consiste en ponderar la contribución de cada vecino de acuerdo a la distancia entre él y la muestra a ser clasificada, dando mayor peso a los vecinos más cercanos frente a los que puedan estar más alejados. Algoritmo K-NN
  46. 46. Por ejemplo, podemos ponderar el voto de cada vecino de acuerdo al cuadrado inverso de sus distancias: Si x es el ejemplo que queremos clasificar, V son las posibles clases de clasificación, y {x1,…,xk} es el conjunto de los k ejemplos de entrenamiento más cercanos, definimos el peso de xi respecto a x como: Algoritmo K-NN
  47. 47. y entonces la clase asignada a x es aquella que verifique que la suma de los pesos de sus representantes sea máxima, es decir: Esta mejora es muy efectiva en muchos problemas prácticos. Es robusto ante el ruido de los datos y suficientemente efectivo en conjuntos de datos grandes. Algoritmo K-NN
  48. 48. Algoritmo K-NN
  49. 49. En el algoritmo k-NN existe el problema de que requiere de mucha memoria y tiempo de ejecución porque hay que almacenar continuamente todos los datos que definen el espacio de ejemplos inicial. Sin embargo, es muy probable que muchas de las muestras iniciales no sean necesarias para clasificar las demás, ya que su información es redundante con las otras existentes. Algunas variantes interesantes que intentan mitigar este problema son: • K-NN condensado • K-NN Reducido Algoritmo K-NN
  50. 50. k-NN Condensado: Dado un orden en los datos de entrada, cada ejemplo del conjunto se clasifica por medio de k-NN haciendo uso únicamente de los datos anteriores; si la clasificación obtenida coincide con la real, ese ejemplo se elimina de los datos, si no, permanece. Observa que depende del orden dado a los datos y, además, tiene el problema de conservar los datos que introducen ruido al sistema. k-NN Reducido: es similar a la anterior, pero se comienza con el conjunto completo de datos, y se eliminan aquellos que no afectan a la clasificación del resto de datos de entrada. Al revés de lo que ocurre con la condensación, este método es capaz de eliminar las muestras que producen ruido, y guarda aquellas que son críticas para la clasificación. Algoritmo K-NN
  51. 51. Un problema fundamental que presenta este algoritmo es que no proporciona un mecanismo independiente de los datos, sino que precisa del conjunto de entrenamiento completo para poder evaluar cualquier nuevo ejemplo. Lo que significa que el algoritmo debe acompañarse de los datos de aprendizaje para poder ser aplicado. Si el conjunto de datos es muy grande, el algoritmo puede llegar a ser muy ineficiente. Aunque hay variantes que permiten optimizar el proceso y disminuir el conjunto de datos para aligerar la dependencia de este conjunto, en ningún caso se proporciona como resultado un algoritmo libre de datos (en este sentido, se dice que este modelo es no paramétrico). Algoritmo K-NN
  52. 52. No paramétrico significa que no hace suposiciones explícitas sobre la forma funcional de la función que está intentando aproximar, evitando los peligros de modelar mal la distribución subyacente de los datos. Por ejemplo, supongamos que nuestros datos son altamente no gausianos pero el modelo de aprendizaje que elegimos asume una forma gaussiana. En ese caso, nuestro algoritmo haría predicciones extremadamente pobres. Algoritmo K-NN
  53. 53. El aprendizaje basado en instancias significa que nuestro algoritmo no aprende explícitamente un modelo. En su lugar, elige memorizar las instancias de entrenamiento que posteriormente se utilizan como "conocimiento" para la fase de predicción. Concretamente, esto significa que sólo cuando se hace una consulta a nuestra base de datos (es decir, cuando le pedimos que prediga una etiqueta a la que se le ha dado una entrada), el algoritmo utilizará las instancias de entrenamiento para devolver una respuesta. Algoritmo K-NN
  54. 54. En este punto, probablemente la pregunta esencial es cómo elegir la variable k y cuáles son sus efectos en el clasificador. Como la mayoría de los algoritmos de aprendizaje, la k en k-NN es lo que se denomina un hiperparámetro que el diseñador debe elegir para obtener el mejor ajuste posible para el conjunto de datos. Intuitivamente, se puede pensar que K controla la forma de la frontera entre las distintas clases del problema (los límites de decisión). Algoritmo K-NN
  55. 55. Cuando k es pequeño, estamos restringiendo la región de una predicción dada y forzando al clasificador a ser "más ciego" a la distribución general. Un valor pequeño para k proporciona el ajuste más flexible, que tendrá un sesgo bajo pero una alta varianza. Gráficamente, el límite de decisión será más dentado. Por otro lado, un valor k más alto promedia más votantes en cada predicción y por lo tanto es más resistente a valores atípicos. Los valores más grandes de k tendrán límites de decisión más suaves, lo que significa menor varianza pero mayor sesgo. Algoritmo K-NN
  56. 56. A pesar de todo lo anterior, es un algoritmo que está en la caja de herramientas de cualquier profesional del análisis de datos, ya que es tremendamente sencillo de aplicar y proporciona unos primeros resultados que permiten medir la eficiencia comparada de otros modelos más elaborados. k-NN se utiliza a menudo en aplicaciones de búsqueda en las que se buscan elementos "similares"; es decir, cuando la tarea es de alguna forma la de "encontrar elementos similares a uno dado" (a veces, a esto se le llama una búsqueda k-NN). Algoritmo K-NN
  57. 57. La forma de medir la similitud es creando una representación vectorial de los elementos, y luego comparando los vectores utilizando una métrica de distancia apropiada (como la distancia euclidiana, por ejemplo). Algoritmo K-NN
  58. 58. Así, algunos ejemplos concretos de búsqueda de k-NN: Búsqueda de documentos semánticamente similares (es decir, documentos que contienen temas similares): Búsqueda por Conceptos. Se utiliza, por ejemplo, para ayudar a las empresas a encontrar todos los correos electrónicos, contratos, etc. que son relevantes para una demanda. Algoritmo K-NN
  59. 59. El mayor caso de uso de la búsqueda k-NN podría ser el de los sistemas de recomendación. Si sabe que a un usuario le gusta un artículo en particular, entonces el objetivo es recomendarle artículos similares. Para encontrar artículos similares, se compara el conjunto de usuarios a los que les gusta cada artículo; si a un conjunto similar de usuarios les gustan dos artículos diferentes, entonces los artículos en sí son probablemente similares. Esto se aplica a la recomendación de productos, a la recomendación de medios de consumo o incluso a la "recomendación" de anuncios para mostrar a un usuario. Algoritmo K-NN
  60. 60. También se puede utilizar para clasificación. k-NN no es popular como una red neuronal o una SVM, y por lo general funciona más lentamente y tiene menor precisión que estas otras aproximaciones, pero tiene algunas buenas cualidades prácticas. Es fácil de entrenar (porque no hay entrenamiento), fácil de usar, y es fácil de entender los resultados. De hecho, se utiliza más en la industria de lo que podría pensarse inicialmente. Por ejemplo, algunas empresas utilizan algoritmos de aprendizaje profundo para generar vectores de características que representan los rostros de las personas. Algoritmo K-NN
  61. 61. Luego usan k-NN para identificar a una persona comparando la cara con su lista de vigilancia. ¿La razón? k-NN es lo suficientemente bueno y no sería práctico entrenar un clasificador separado para cada persona de la lista de vigilancia. Hoy en día se usa una técnica similar para clasificar de forma sencilla la huella digital de los usuarios de un dispositivo. Algoritmo K-NN
  62. 62. Algoritmo K-Mean Agrupar objetos por similitud usando k-means Uno de los algoritmos de agrupación en clústeres más populares, k-means, que se usa ampliamente en el mundo académico y en la industria. El agrupamiento (o análisis de conglomerados) es una técnica que nos permite encontrar grupos de objetos similares, objetos que están más relacionados entre sí que con objetos de otros grupos. Los ejemplos de aplicaciones de agrupación en clústeres orientadas a los negocios incluyen la agrupación de documentos, música y películas por diferentes temas, o encontrar clientes que compartan intereses similares basados en comportamientos de compra comunes como base para motores de recomendación.
  63. 63. El algoritmo de K-means intenta encontrar una partición de las muestras en K agrupaciones, de forma que cada ejemplo pertenezca a una de ellas, concretamente a aquella cuyo centroide esté más cerca. El mejor valor de K para que la clasificación separe lo mejor posible los ejemplos no se conoce a priori, y depende completamente de los datos con los que trabajemos. Algoritmo K-Mean
  64. 64. La diferencia con un algoritmo supervisado: en este caso, no tenemos un conocimiento a priori que nos indique cómo deben agruparse ninguno de los datos de que disponemos, es decir, no hay un protocolo externo que nos indique lo bien o mal que vamos a realizar la tarea, ningún criterio supervisa la bondad de nuestras soluciones. Algoritmo K-Mean
  65. 65. Pero eso no significa que nosotros no podamos introducir una medida de bondad, aunque sea artificial y subjetiva. En este caso, el algoritmo de las K-means va a intentar minimizar la varianza total del sistema, es decir, si ci es el centroide de la agrupación i-ésima, y {xi j} es el conjunto de ejemplos clasificados en esa agrupación, entonces intentamos minimizar la función: Algoritmo K-Mean
  66. 66. Intuitivamente, cuanto más pequeña sea esta cantidad, más agrupados están los ejemplos en esas bolsas. Pero observemos que el número de bolsas no viene dado por el algoritmo, sino que hemos de decidirlo antes de ejecutarlo. A pesar de que el problema se plantea como una optimización (minimización de un potencial) que puede resultar relativamente compleja, existe un algoritmo muy sencillo que devuelve el mismo resultado (en la mayoría de las ocasiones). Algoritmo K-Mean
  67. 67. Fijado K, los pasos que sigue el algoritmo son los siguientes: • Seleccionar al azar K puntos del conjunto de datos como centros iniciales de los grupos. • Asignar el resto de ejemplos al centro más cercano (ya tenemos K agrupaciones iniciales). • Calcular el centroide de los grupos obtenidos. • Reasignar los centros a estos centroides. • Repetir desde el paso 2 hasta que no haya reasignación de centros (o los últimos desplazamientos estén por debajo de un umbral y no haya cambios en las agrupaciones obtenidas). Algoritmo K-Mean
  68. 68. • Inicializar de forma aleatoria K centroides de clusters 𝜇1, 𝜇2, … , 𝜇𝐾 • Repetir • for i=1 to m • 𝑐(𝑖) =indexar de 1 hasta K al clúster más cercano a 𝑥(𝑖) 𝑚𝑖𝑛𝐾| 𝑥 𝑖 − 𝜇𝑘 |2 • For k=1 to K • 𝜇𝑘 = promedio de los puntos asignados al cluster k (centroides) Algoritmo K-Mean
  69. 69. El algoritmo anterior es relativamente eficiente, y normalmente se requieren pocos pasos para que el proceso se estabilice pero, en contra, es necesario determinar el número de agrupaciones a priori. Además, como ocurre en muchos problemas de optimización por aproximaciones sucesivas, el sistema es sensible a la posición inicial de los K centros, haciendo que no consigan un mínimo global, sino que se sitúe en un mínimo local (algo muy común cuando se trabaja con un problema de optimización no convexo). Por desgracia, no existe un método teórico global que permita encontrar el valor óptimo de grupos iniciales ni las posiciones en las que debemos situar los centros, por lo que se suele hacer una aproximación experimental repitiendo el algoritmo con diversos valores y posiciones de centros. Algoritmo K-Mean
  70. 70. En general, un valor elevado de K hace que el error disminuya, pero a cambio se tiene un sobre entrenamiento que disminuye la cantidad de información que la agrupación resultante da. De hecho, si se toma K igual al tamaño del conjunto de entrenamiento, es decir, tantas agrupaciones como puntos, el potencial anterior resulta ser 0, y aunque es un mínimo real del potencial, es poco informativo, ya que no produce agrupamientos, sino que considera que cada elemento es un grupo independiente. Algoritmo K-Mean
  71. 71. Clúster K-Means
  72. 72. Clúster K-Means
  73. 73. ¿CÓMO FUNCIONA K-MEANS? Supongamos que el número de grupos k =3.
  74. 74. ¿CÓMO FUNCIONA K-MEANS? Iteración 0 Se comienza con una posición aleatoria de los centroides.
  75. 75. ¿CÓMO FUNCIONA K-MEANS? Iteración 1 Se asigna cada caso al centroide más próximo.
  76. 76. ¿CÓMO FUNCIONA K-MEANS? Iteración 2 Se recoloca el centroide en el centro de los puntos asignados.
  77. 77. ¿CÓMO FUNCIONA K-MEANS? Iteración 3 Se continúa iterativamente hasta que: 1. La distancia entre centroides es máxima. 2. La distancia caso- centroide es mínima.
  78. 78. ¿QUÉ MÉTODO ES PREFERIBLE? VENTAJAS DE LOS JERÁRQUICOS - Proporcionan una fotografía de cómo estan organizados los datos El investigador puede ver cuántos conglomerados “existen” en los datos. - Pueden calcularse los centros de esos conglomerados: centroides (medias). - Vecino Más Próximo es especialmente bueno para localizar outliers. - Ward y Vinculación INTERgrupos son los preferidos de entre los jerárquicos: estudios de simulación han comprobado que adscriben cada elemento a su conglomerado verdadero mejor que el resto (especialmente WARD). Tienden a ofrecer conglomerados similares en tamaño y dispersión de sus elementos, de forma redondeada. DESVENTAJAS DE LOS JERÁRQUICOS - Cualquiera de los métodos jerárquicos por separado funciona peor que k-means.
  79. 79. ¿QUÉ MÉTODO ES PREFERIBLE? VENTAJAS DE LOS ITERATIVOS - K medias es el método más robusto respecto a presencia de outliers y errores en las medidas de distancia. DESVENTAJAS DE LOS ITERATIVOS - Requiere que el investigador especifique previamente tanto el número de conglomerados como sus centros iniciales. ¿SOLUCIÓN? Combinar ambos procedimientos, utilizando: 1. Jerárquico para eliminar outliers, determinar el numero de clusters y sus centros iniciales. 2. k-means para obtener la solución conglomerativa final.
  80. 80. Descripción de los segmentos Obtención de los segmentos Etapas preliminares 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA SELECCIÓN DE VARIABLES VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO PERFILADO DE LOS CONGLOMERADOS 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL Fases a la hora de ejecutar un Análisis de Conglomerados
  81. 81. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS SELECCIÓN DE VARIABLES WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO PERFILADO DE LOS CONGLOMERADOS 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL ETAPAS PRELIMINARES CUESTIONES PREVIAS  ¿Cuál es el objetivo de mi estudio?  ¿Busco explorar datos o confirmar hipótesis?  ¿Quiero encontrar segmentos o grupos? SELECCIÓN DE VARIABLES  Las variables deben ser independientes, no correlacionadas. Si son ítems de un test mejor hacer un análisis factorial antes.  Debe tener sentido agruparlas Rubbish in, rubbish out.  El número de variables a introducir en el análisis no es importante (Md =15).  Sí debe mantenerse un número suficiente de casos por variable, idealmente 2m(m =nº variables).  Por lo tanto, mejor muestras grandes y representativas.
  82. 82. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS SELECCIÓN DE VARIABLES WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS PERFILADO DE LOS CONGLOMERADOS Posibles outliers. El número indica la posición que ocupan en el ARCHIVO. Se ocultan de los análisis y se vuelve a ejecutar este método para comprobar el efecto sobre el dendrograma.
  83. 83. FASE: MÉTODOS ERARQUICOS PLANTEAMIENTO DEL PROBLEMA VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS SELECCIÓN DE VARIABLES WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS J 1 VINCULACIÓN INTRAGRUPOS: ª ANÁLISIS DE LA FIABILIDAD ACIÓN DEL FICHERO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS Para determinar el número de conglomerados “natural” existen criterios numéricos y gráficos. El dendrograma nos muestra 3 grupos claros: Para validar esta solución, se recomienda utilizar, además, otro procedimiento PERFILADO DE LOS CONGLOMERADOS
  84. 84. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA SELECCIÓN DE VARIABLES VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS El análisis del CAMBIO EN EL COEFICIENTE DE CONGLOMERACIÓN indica que 3 conglomerados es además la opción mejor desde un punto de vista estadístico. PERFILADO DE LOS CONGLOMERADOS
  85. 85. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA SELECCIÓN DE VARIABLES VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS PERFILADO DE LOS CONGLOMERADOS
  86. 86. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA SELECCIÓN DE VARIABLES VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS PASOS Se calculan las medias de cada variable para cada uno de los 3 conglomerados. Se copian los datos en un ARCHIVO de datos, nombrando a las variables exactamente igual e incluyendo una variable que se debe llamar necesariamente cluster_ PERFILADO DE LOS CONGLOMERADOS
  87. 87. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS SELECCIÓN DE VARIABLES WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS En esta última fase final especificamos: 1. 3 como número de conglomerados. 2. ElARCHIVO de medias recién creado como centros iniciales. La variable que se crea en el archivo de datos tras un k medias se reconoce bien respecto de un método jerárquico. Importante informar del %de casos reasignados a PERFILADO DE LOS CONGLOMERADOS otro conglomerado.
  88. 88. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS SELECCIÓN DE VARIABLES WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL PERFILADO DE LOS SEGMENTOS IMPORTANTÍSIM A FASE T enemos ya los conglomerados form ados… pero ahora qué hacemos con ellos?? Debemos cruzarlos con otras variables del cuestionario (no utilizadas para crear los grupos) con el fin de perfilarlos, saber un poco más de ellos. Para ello se utilizan: - Contrastes F si se cruza la variable de conglomerados con una variable métrica. - Contrastes X2 si se cruzan con una variable categórica. PERFILADO DE LOS CONGLOMERADOS
  89. 89. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA SELECCIÓN DE VARIABLES VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL PERFILADO DE LOS SEGMENTOS PERFILADO DE LOS CONGLOMERADOS

×