SlideShare ist ein Scribd-Unternehmen logo
1 von 137
 
 
Módulo de Recuperación Módulo de Adaptación
 
[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object]
[object Object],[object Object]
[object Object],hombre mujer ?
[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object]
Temperature Headache Temperature Flu e1  yes  normal  no e2  yes  high  yes e3  yes  very high  yes e4  no  normal  no e5  no  high  no   e6  no  very high  no yes yes {e2} no no {e5} yes yes {e3} no no {e6} normal no {e1, e4} Headache high {e2, e5} very   high Headache {e3,e6}
<0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > f(x)= w x+ b
<0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > Muchas posibilidades !
<0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > Margen
<0,0> e 1 Margen
<0,0> f(z)= w z+ b z modelo
Uso de las funciones núcleo (kernel functions)
 
[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object]
Toda unidad  u j  (excepto las de entradas) calcula una nueva activación  u ' j S j  representa el nivel de voltaje que excita la neurona u ' j  denota la intensidad de la salida resultante de la neurona. j 1 2 n . . . w 1 j w 2 j w nj
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Curvas ROC
[object Object],[object Object],[object Object]
[object Object]
[object Object],[object Object],[object Object],Corpus of Texts Colección de objetos Algoritmo de agrupamiento Grupo 1 Grupo 2 Grupo  k . . . Tan disimilares como sea posible (Heterogeneidad) Tan similares como sea posible (Homogeneidad)
[object Object],[object Object],[object Object],[object Object]
Algoritmo de agrupamiento . . . Corpus of Texts Corpus de textos Tópico 1 Tópico 2 Tópico k
Algoritmo de agrupamiento de documentos Cluster 1 Document 1: <TOPICS><D>cocoa</D></TOPICS> Document 3: <TOPICS><D>cocoa</D></TOPICS> Document 4: <TOPICS><D>cocoa</D></TOPICS> Document 5: <TOPICS><D>cocoa</D></TOPICS> Document 6: <TOPICS><D>cocoa</D></TOPICS> Document 7: <TOPICS><D>cocoa</D></TOPICS> Document 8: <TOPICS><D>cocoa</D></TOPICS> Document 9: <TOPICS><D>cocoa</D></TOPICS> Document 10: <TOPICS><D>cocoa</D></TOPICS> Cluster 2 Document 60: <TOPICS><D>silver</D></TOPICS> Document 61: <TOPICS><D>silver</D></TOPICS> Document 62: <TOPICS><D>silver</D></TOPICS> Document 63: <TOPICS><D>silver</D></TOPICS> Document 64: <TOPICS><D>silver</D></TOPICS> Document 65: <TOPICS><D>silver</D></TOPICS> Document 66: <TOPICS><D>silver</D></TOPICS> Document 67: <TOPICS><D>silver</D></TOPICS> Document 68: <TOPICS><D>silver</D></TOPICS> Document 69: <TOPICS><D>silver</D></TOPICS> Document 70: <TOPICS><D>silver</D></TOPICS> Cluster 17 Document 71: <TOPICS><D>reserves</D></TOPICS> Document 72: <TOPICS><D>reserves</D></TOPICS> Document 74: <TOPICS><D>reserves</D></TOPICS> Document 77: <TOPICS><D>reserves</D></TOPICS> Document 80: <TOPICS><D>reserves</D></TOPICS> … Reuters-21578 Text Categorization Collection, 135 topics http://www.daviddlewis.com/resources/testcollections/reuters21578
BioMed Central's open access full-text corpus for data mining research  Algoritmo de agrupamiento de documentos
Solapado Determinista Aglomerativo Divisivo Probabilístico (Fuzzy)  =1 Posibilístico DURO JERÁRQUICO BORROSO
[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
A D C E B A D C E B El número de clusters depende de  “ donde dibujemos la línea”
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],C 1 C 2 i j a ij
[object Object],[object Object],[object Object],[object Object],C 1 C 2 C 1 C 2
[object Object],[object Object],C 1 C 2 avg
[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],pequeña grande grande!
[object Object]
[object Object],Cuando    = 1, la forma de calcular la distancia entre los objetos se llama la métrica  Manhattan .  Si     =2, nos referimos a la distancia Euclidiana.  Para los valores       2, estamos en presencia de la métrica  Supermum
Métrica Camberra
Correlación de Pearson es el valor promedio que toma el  atributo h  en el conjunto de datos
[object Object],[object Object],[object Object],[object Object],[object Object]
Para pesos binarios C  es el número de términos que  D i   y  D j  tienen en común,  y  A  y  B  son el número de términos de  D i  y  D j  respectivamente
A  es el número de palabras que describen a  D i ,  B  es el número de palabras que describen a  D j  y  C  es el número de palabras que aparecen tanto en  D i  como en  D j . Para pesos binarios
Más usado D i D j 
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],Nürnberger, A. Klose, A. Kruse, R.  Clustering of Document Collection to Support Interactive Text Exploration.  Studies in Classification, Data Analysis and Knowledge Organization. Exploratory Data Analysis in Empirical Research. Proceedings of the 25th Annuals Conference of the Gesellschaft für Klassification. pp 291-299. 2001.
[object Object],[object Object],[object Object]
[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],Algoritmos Estrella Condensado y Estrella Generalizado
Ejemplo de agrupamiento con el algoritmo  Star  donde influye el orden de los datos   Ejemplo de la obtención de clusters ilógicos según agrupamiento  Star  debido a que dos estrellas nunca pueden ser vecinas.
[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],… …
[object Object],[object Object]
Fuente: Newman, M. E. J. Detecting community structure in networks. The European Physical Journal B, 38(2). pp.  321-330. 2004. Potencial que tiene una arista para controlar el flujo de información en el grafo. Favorece a las aristas que se encuentran entre grupos y desfavorecen las incidentes a nodos de un mismo grupo.  Si una arista actúa en la interacción de muchos nodos su nivel de intermediación debe ser alto.
[object Object],[object Object],[object Object],[object Object],[object Object]
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 21 22 20 19
[object Object],[object Object]
Intermediación diferencial  -intermediación Diferencial geodésico c -vecindad Fuente: A. Ochoa, L. Arco. Differential Betweenness in complex networks clustering. CIARP. LNCS. Vol. 5197. pp. 222-229. 2008.
[object Object],[object Object],[object Object],[object Object],[object Object],Mientras que el algoritmo GN tiene la complejidad  O ( m 2 n ).
[object Object],[object Object],[object Object],[object Object],[object Object]
1  BioMed Central ha publicado 22003 artículos http://www.biomedcentral.com/info/abou t/datamining/ 2  Colección Reuters-21578 disponible en el sitio web de David D. Lewis http://www.research.att.com/~lewis 3  IEEE Congress on Evolutionary Computation, suministrada por Nees Jan van Eck y Rudolf Kruse  Corpus Cantidad de documentos Cantidad de grupos Distribución de documentos por grupos BioMed 1 31 2 Grupo 1 =[1..11]  Grupo 2 =[12..31] Reuters 2 29 2 Grupo 1 =[1..12]  Grupo 2 =[13..29] CEC2006 3 29 2 Grupo 1 =[1..18]  Grupo 2 =[19..29]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],Fuente:  “An effective document clustering method using user-adaptable distance metrics”. Han-joon Kim y Sang-goo Lee.  Proceedings of the Symposium on Applied computing. Madrid.  ACM. 2002.
[object Object],[object Object],[object Object],Fuente:  “Semi-supervised clustering with user feedback”. D. Cohn y otros. Technical Report TR2003-1892, Cornell University, 2003.
[object Object],[object Object],[object Object],[object Object],Fuente:  “Personalized Hierarchical Clustering”. Korinna Bade y Andreas Nürnberger. Proceedings of the International Conference on Web Intelligence. Washington, DC. IEEE Computer Society. 2006.
[object Object],[object Object],[object Object],[object Object],Fuente:  “Personalized Hierarchical Clustering”. Korinna Bade y Andreas Nürnberger. Proceedings of the International Conference on Web Intelligence. Washington, DC. IEEE Computer Society. 2006.
[object Object],[object Object]
[object Object],[object Object],El conocimiento del dominio contribuye a determinar qué tipo de agrupamiento se va a utilizar con el objetivo de obtener los mejores resultados .
[object Object],[object Object],Fuente: X. Xu, N. Yuruk, Z. Feng, T. Schweiger. SCAN: A structural clustering algorithm for networks. ACM. KDD. 2007.
[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],Fuente:  Newman, M. E. J. The structure and function of networks. Computer Physics Communications, 147: 40-45. 2002.
Fuente: Radicchi, F., Castellano, C., Cecconi, F., Loreto, V. and Parisi, D. Defining and identifying communities in networks. PNAS Proc. National Academic of Science USA, 101(9). 2004.
Fuente: Girvan, M. and Newman, M. E. J. Community structure in social and biological networks. PNAS Proc. National Academy of Science USA, 99(12): 7821-7826. 2002.
Fuente: Newman, M. E. J. and Girvan, M. Finding and evaluating community structure in networks. Physical Review E, 69(026113). 2004.
Fuente: Newman, M. E. J. Analysis of weighted networks. Physical Review E, 70. 2004. El ancho de las aristas indica su peso. Los colores de los vértices indican los grupos. Varias investigaciones muestran que el lenguaje existe en una red  small-world . Fuente: Ferrer, R. and Solé, R. V. The small world of human language. Proc. R. Soc. Lond. B, 268(1482): 2261-2265. 2001.
Nodos: documentos Aristas: conexiones de los documentos con una similitud coseno superior a un umbral fijado. Grupos:  [0..27] talk.politics.guns [28..58] talk.politics.mideast Fuente: Colección 20-newsgroups disponible en http://www.ai.mit.edu/people/jrennie/20Newsgroups
[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object]
[object Object],[object Object]
[object Object],[object Object],Dunn Bezdek
[object Object],[object Object]
[object Object],[object Object],[object Object]
[object Object],donde el número de documentos de la clase   i   que están asignados al cluster  j   p ij   la probabilidad que un miembro del clusters  j  pertenezca a la clase  i   La entropía de cada cluster  j
[object Object],[object Object],n ij   es el número de miembros de la clase  i   en el cluster  j ,  n j   es el número de miembros del cluster  j  y  n i  es el número de miembros de la clase  i
[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],Fuente: L. Arco y otros. On clustering validity measures and the Rough Set Theory. MICAI 2006. IEEE Computer Society.
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Evaluación del instrumento de medición Confiabilidad Validez Contenido Criterio Constructo Pruebas de Wilcoxon a Resultados con y sin ruido Correlación con medidas internas Correlación con medidas externas Propiedades que se chequean
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
L/G C/G/A Peso Umbral Max/Min P/C Costo Entropía L&G Grupos Si No Min P Bajo Precisión Local - No No Max P Bajo Cubrimiento Local - No No Max P Bajo Medida-F Local - No Si Max P Bajo Información Mutua Local - No No Max P Bajo Estadístico Kappa Global Grupos No No Max P Alto Medida-F Global Global Clases Si Si Max P Bajo MAP&R Global Clases No No Max P&C Bajo Error del agrupamiento Global Pares No No Min P&C Alto Cluster Recall Global Pares No No Max P&C Alto Cluster Precision Global Pares No No Max P&C Alto Estadístico Rand Global Pares No No Max P&C Alto Coeficiente Jaccard Global Pares No No Max P&C Alto Índice de F&M Global Pares No No Max P&C Alto
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Mide en qué grado la clase está incluida en el grupo. Busca correspondencia de cada grupo con las clases. Mide en qué grado el grupo cubre la clase. Media armónica de Precisión y Cubrimiento EM (?) EM (3) E 0.1825 0.2241 Pr 1 0.9271 Re 0.6 0.9067 OFM 0.7239 0.9048 EM (3) 9.33% incorrectos grupos 0 1 2 Iris-setosa 0 50 0 Iris-versicolor 50 0 27 Iris-virginica 14 0 36 EM (?) 40% incorrectos grupos 0 1 2 3 4 Iris-setosa 28 0 0 22 0 Iris-versicolor 0 0 27 0 23 Iris-virginica 0 35 15 0 0
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral Índice C Densidad de los grupos No Si No No No No Similitud Global Cohesión de los grupos (Local) No No No No Si No Dunn original Grupos compactos y bien separados (razón) Si No No Si Si No Dunn-Bezdek Grupos compactos y bien separados (razón) Si No Si Si Si No Bezdek general Grupos compactos y bien separados (razón) Si Si No No Si No Davies-Bouldin Dispersión de los grupos y su separación Si No Si No Si No Índice SD Suma pesada de la distancia intra-grupo y entre grupos Si No Si No No No Índice S_Dbw Suma pesada de la distancia intra-grupo y entre grupos Si No No No Si No Índice Silueta Grupos compactos y bien separados Si No No Si Si No
Objetivo Valora  Integral Indep.Forma Centro Ruido Diversos tamaños Umbral FOM Estimar número de grupos Si Si No No No Si Expansión Árbol de expansión mínimo No Si No Si No Si Conductancia Árbol de expansión mínimo (permite ponderar vértices) No Si No Si No Si Conectividad parcial pesada Conectividad de las aristas pesadas por grupos No Si No No Si Si Densidad esperada Densidad de los grupos por peso de las aristas No Si No No Si Si Modularidad Interconexiones antes y después del agrupamiento Si Si No Si Si Si Índice de tendencia del agrupamiento Forma grafo k-partito con las relaciones entre los k grupos No Si No No Si Si
Objetivo Valora  Integral Indep.Forma Centro Ruido Diversos tamaños Umbral Medida de la fortaleza de las conexiones Identifica grupos débiles y fuertes (solo conexiones) No Si No No Si Si Medida de la interacción Promedio de la interacción intra-grupo entre el promedio de la interacción con nodos externos No Si No Si Si Si Precisión del grupo Razón de los objetos típicos del grupo y los relacionados con él Si (local) Si No No Si Si Calidad del grupo Porciento de objetos bien asignados al grupo Si (local) Si No No Si Si Precisión generalizada del agrupamiento Precisión global ponderada por grupos Si Si No No Si Si Calidad generalizada del agrupamiento Calidad global ponderada por grupos Si Si No No Si Si
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Weitere ähnliche Inhalte

Ähnlich wie ML y agrupamiento de documentos

Jflambert lyada - ayudantia matematicas discretas
Jflambert   lyada - ayudantia matematicas discretasJflambert   lyada - ayudantia matematicas discretas
Jflambert lyada - ayudantia matematicas discretasFrancisco Lambert Obediente
 
Jflambert lyada - ayudantia ordenamiento y teo maestro
Jflambert   lyada - ayudantia ordenamiento y teo maestroJflambert   lyada - ayudantia ordenamiento y teo maestro
Jflambert lyada - ayudantia ordenamiento y teo maestroFrancisco Lambert Obediente
 
Aprendizaje automático I - Sesión 2 Caso Práctico.pdf
Aprendizaje automático I - Sesión 2 Caso Práctico.pdfAprendizaje automático I - Sesión 2 Caso Práctico.pdf
Aprendizaje automático I - Sesión 2 Caso Práctico.pdfGerard Alba
 
Tecnicas de Busqueda en IA
Tecnicas de Busqueda en IATecnicas de Busqueda en IA
Tecnicas de Busqueda en IARafaelVargas155
 
5. inecuaciones con valor absoluto
5. inecuaciones con valor absoluto5. inecuaciones con valor absoluto
5. inecuaciones con valor absolutositayanis
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoDMC Perú
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadradoTATHYYYYY
 
Clustering
ClusteringClustering
Clusteringluisfe
 
Clustering
ClusteringClustering
Clusteringluisfe
 
Normalidad uni y multivariante en r
Normalidad uni y multivariante en rNormalidad uni y multivariante en r
Normalidad uni y multivariante en redgar carpio
 
Introducción a la programación y la informática. Tema 6
Introducción a la programación y la informática. Tema 6Introducción a la programación y la informática. Tema 6
Introducción a la programación y la informática. Tema 6Andres Garcia Garcia
 
Introducción a Machine Learning
Introducción a Machine Learning   Introducción a Machine Learning
Introducción a Machine Learning Pablo Casas
 
Clustering.ppt
Clustering.pptClustering.ppt
Clustering.pptnicoals2
 

Ähnlich wie ML y agrupamiento de documentos (20)

Jflambert lyada - ayudantia matematicas discretas
Jflambert   lyada - ayudantia matematicas discretasJflambert   lyada - ayudantia matematicas discretas
Jflambert lyada - ayudantia matematicas discretas
 
Jflambert lyada - ayudantia ordenamiento y teo maestro
Jflambert   lyada - ayudantia ordenamiento y teo maestroJflambert   lyada - ayudantia ordenamiento y teo maestro
Jflambert lyada - ayudantia ordenamiento y teo maestro
 
Aprendizaje automático I - Sesión 2 Caso Práctico.pdf
Aprendizaje automático I - Sesión 2 Caso Práctico.pdfAprendizaje automático I - Sesión 2 Caso Práctico.pdf
Aprendizaje automático I - Sesión 2 Caso Práctico.pdf
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Clase 2. unidad_2
Clase 2. unidad_2Clase 2. unidad_2
Clase 2. unidad_2
 
Clase 2. unidad_2
Clase 2. unidad_2Clase 2. unidad_2
Clase 2. unidad_2
 
Tecnicas de Busqueda en IA
Tecnicas de Busqueda en IATecnicas de Busqueda en IA
Tecnicas de Busqueda en IA
 
5. inecuaciones con valor absoluto
5. inecuaciones con valor absoluto5. inecuaciones con valor absoluto
5. inecuaciones con valor absoluto
 
Método de conteo
Método  de conteoMétodo  de conteo
Método de conteo
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
 
Tarea chi cuadrado
Tarea chi cuadradoTarea chi cuadrado
Tarea chi cuadrado
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadrado
 
Sistemas Lineales
Sistemas LinealesSistemas Lineales
Sistemas Lineales
 
Clustering
ClusteringClustering
Clustering
 
Clustering
ClusteringClustering
Clustering
 
Normalidad uni y multivariante en r
Normalidad uni y multivariante en rNormalidad uni y multivariante en r
Normalidad uni y multivariante en r
 
Introducción a la programación y la informática. Tema 6
Introducción a la programación y la informática. Tema 6Introducción a la programación y la informática. Tema 6
Introducción a la programación y la informática. Tema 6
 
Aprendizaje de un perceptrón simple
Aprendizaje de un perceptrón simpleAprendizaje de un perceptrón simple
Aprendizaje de un perceptrón simple
 
Introducción a Machine Learning
Introducción a Machine Learning   Introducción a Machine Learning
Introducción a Machine Learning
 
Clustering.ppt
Clustering.pptClustering.ppt
Clustering.ppt
 

Mehr von Luis Álamo

Sistemas Basados en Casos IUT
Sistemas Basados en Casos IUTSistemas Basados en Casos IUT
Sistemas Basados en Casos IUTLuis Álamo
 
Reglas y hechos IA
Reglas y hechos IAReglas y hechos IA
Reglas y hechos IALuis Álamo
 
Alojamiento de páginas web
Alojamiento de páginas webAlojamiento de páginas web
Alojamiento de páginas webLuis Álamo
 
Desarrollo de Páginas Web
Desarrollo de Páginas WebDesarrollo de Páginas Web
Desarrollo de Páginas WebLuis Álamo
 
Estandarización de paginas web
Estandarización de paginas webEstandarización de paginas web
Estandarización de paginas webLuis Álamo
 
Horario laboratorio1oct2011 ene2012
Horario laboratorio1oct2011 ene2012Horario laboratorio1oct2011 ene2012
Horario laboratorio1oct2011 ene2012Luis Álamo
 
Formato control asistencia sevicio comunitario
Formato control asistencia sevicio comunitarioFormato control asistencia sevicio comunitario
Formato control asistencia sevicio comunitarioLuis Álamo
 
Búsquedas heurísticas
Búsquedas heurísticasBúsquedas heurísticas
Búsquedas heurísticasLuis Álamo
 
Introducción a la inteligencia artificial profesora iris albarran
Introducción a la inteligencia artificial   profesora iris albarranIntroducción a la inteligencia artificial   profesora iris albarran
Introducción a la inteligencia artificial profesora iris albarranLuis Álamo
 
PNF Informática
PNF InformáticaPNF Informática
PNF InformáticaLuis Álamo
 

Mehr von Luis Álamo (12)

Sistemas Basados en Casos IUT
Sistemas Basados en Casos IUTSistemas Basados en Casos IUT
Sistemas Basados en Casos IUT
 
Reglas y hechos IA
Reglas y hechos IAReglas y hechos IA
Reglas y hechos IA
 
Alojamiento de páginas web
Alojamiento de páginas webAlojamiento de páginas web
Alojamiento de páginas web
 
Desarrollo de Páginas Web
Desarrollo de Páginas WebDesarrollo de Páginas Web
Desarrollo de Páginas Web
 
Estandarización de paginas web
Estandarización de paginas webEstandarización de paginas web
Estandarización de paginas web
 
Horario laboratorio1oct2011 ene2012
Horario laboratorio1oct2011 ene2012Horario laboratorio1oct2011 ene2012
Horario laboratorio1oct2011 ene2012
 
Formato control asistencia sevicio comunitario
Formato control asistencia sevicio comunitarioFormato control asistencia sevicio comunitario
Formato control asistencia sevicio comunitario
 
Búsquedas heurísticas
Búsquedas heurísticasBúsquedas heurísticas
Búsquedas heurísticas
 
Introducción a la inteligencia artificial profesora iris albarran
Introducción a la inteligencia artificial   profesora iris albarranIntroducción a la inteligencia artificial   profesora iris albarran
Introducción a la inteligencia artificial profesora iris albarran
 
PNF Informática
PNF InformáticaPNF Informática
PNF Informática
 
Polimorfismo
PolimorfismoPolimorfismo
Polimorfismo
 
Polimorfismo
PolimorfismoPolimorfismo
Polimorfismo
 

Kürzlich hochgeladen

Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.Alejandrino Halire Ccahuana
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dstEphaniiie
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICAÁngel Encinas
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdfenelcielosiempre
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxdkmeza
 
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...JAVIER SOLIS NOYOLA
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfNancyLoaa
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Lourdes Feria
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptxFelicitasAsuncionDia
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAEl Fortí
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...JonathanCovena1
 
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática4    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática4    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptxdeimerhdz21
 
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIAFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIIsauraImbrondone
 
MAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMarjorie Burga
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSYadi Campos
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.amayarogel
 
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñotapirjackluis
 
Valoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVValoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVGiustinoAdesso1
 

Kürzlich hochgeladen (20)

Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes d
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
 
Fe contra todo pronóstico. La fe es confianza.
Fe contra todo pronóstico. La fe es confianza.Fe contra todo pronóstico. La fe es confianza.
Fe contra todo pronóstico. La fe es confianza.
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdf
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptx
 
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdf
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...
 
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática4    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática4    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptx
 
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIAFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
 
MAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grande
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
 
Valoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVValoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCV
 

ML y agrupamiento de documentos

  • 1.  
  • 2.  
  • 3. Módulo de Recuperación Módulo de Adaptación
  • 4.  
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15. Temperature Headache Temperature Flu e1 yes normal no e2 yes high yes e3 yes very high yes e4 no normal no e5 no high no e6 no very high no yes yes {e2} no no {e5} yes yes {e3} no no {e6} normal no {e1, e4} Headache high {e2, e5} very high Headache {e3,e6}
  • 16. <0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > f(x)= w x+ b
  • 17. <0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > Muchas posibilidades !
  • 18. <0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > Margen
  • 19. <0,0> e 1 Margen
  • 20. <0,0> f(z)= w z+ b z modelo
  • 21. Uso de las funciones núcleo (kernel functions)
  • 22.  
  • 23.
  • 24.
  • 25.
  • 26.
  • 27. Toda unidad u j (excepto las de entradas) calcula una nueva activación u ' j S j representa el nivel de voltaje que excita la neurona u ' j denota la intensidad de la salida resultante de la neurona. j 1 2 n . . . w 1 j w 2 j w nj
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35.
  • 36.
  • 37. Algoritmo de agrupamiento . . . Corpus of Texts Corpus de textos Tópico 1 Tópico 2 Tópico k
  • 38. Algoritmo de agrupamiento de documentos Cluster 1 Document 1: <TOPICS><D>cocoa</D></TOPICS> Document 3: <TOPICS><D>cocoa</D></TOPICS> Document 4: <TOPICS><D>cocoa</D></TOPICS> Document 5: <TOPICS><D>cocoa</D></TOPICS> Document 6: <TOPICS><D>cocoa</D></TOPICS> Document 7: <TOPICS><D>cocoa</D></TOPICS> Document 8: <TOPICS><D>cocoa</D></TOPICS> Document 9: <TOPICS><D>cocoa</D></TOPICS> Document 10: <TOPICS><D>cocoa</D></TOPICS> Cluster 2 Document 60: <TOPICS><D>silver</D></TOPICS> Document 61: <TOPICS><D>silver</D></TOPICS> Document 62: <TOPICS><D>silver</D></TOPICS> Document 63: <TOPICS><D>silver</D></TOPICS> Document 64: <TOPICS><D>silver</D></TOPICS> Document 65: <TOPICS><D>silver</D></TOPICS> Document 66: <TOPICS><D>silver</D></TOPICS> Document 67: <TOPICS><D>silver</D></TOPICS> Document 68: <TOPICS><D>silver</D></TOPICS> Document 69: <TOPICS><D>silver</D></TOPICS> Document 70: <TOPICS><D>silver</D></TOPICS> Cluster 17 Document 71: <TOPICS><D>reserves</D></TOPICS> Document 72: <TOPICS><D>reserves</D></TOPICS> Document 74: <TOPICS><D>reserves</D></TOPICS> Document 77: <TOPICS><D>reserves</D></TOPICS> Document 80: <TOPICS><D>reserves</D></TOPICS> … Reuters-21578 Text Categorization Collection, 135 topics http://www.daviddlewis.com/resources/testcollections/reuters21578
  • 39. BioMed Central's open access full-text corpus for data mining research Algoritmo de agrupamiento de documentos
  • 40. Solapado Determinista Aglomerativo Divisivo Probabilístico (Fuzzy)  =1 Posibilístico DURO JERÁRQUICO BORROSO
  • 41.
  • 42.
  • 43.
  • 44.
  • 45.
  • 46. A D C E B A D C E B El número de clusters depende de “ donde dibujemos la línea”
  • 47.
  • 48.
  • 49.
  • 50.
  • 51.
  • 52.
  • 53.
  • 54.
  • 55.
  • 56.
  • 57.
  • 59. Correlación de Pearson es el valor promedio que toma el atributo h en el conjunto de datos
  • 60.
  • 61. Para pesos binarios C es el número de términos que D i y D j tienen en común, y A y B son el número de términos de D i y D j respectivamente
  • 62. A es el número de palabras que describen a D i , B es el número de palabras que describen a D j y C es el número de palabras que aparecen tanto en D i como en D j . Para pesos binarios
  • 63. Más usado D i D j 
  • 64.
  • 65.
  • 66.
  • 67.
  • 68.
  • 69.
  • 70.
  • 71.
  • 72.
  • 73.
  • 74.
  • 75.
  • 76. Ejemplo de agrupamiento con el algoritmo Star donde influye el orden de los datos Ejemplo de la obtención de clusters ilógicos según agrupamiento Star debido a que dos estrellas nunca pueden ser vecinas.
  • 77.
  • 78.
  • 79.
  • 80.
  • 81. Fuente: Newman, M. E. J. Detecting community structure in networks. The European Physical Journal B, 38(2). pp. 321-330. 2004. Potencial que tiene una arista para controlar el flujo de información en el grafo. Favorece a las aristas que se encuentran entre grupos y desfavorecen las incidentes a nodos de un mismo grupo. Si una arista actúa en la interacción de muchos nodos su nivel de intermediación debe ser alto.
  • 82.
  • 83. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 21 22 20 19
  • 84.
  • 85.
  • 86. Intermediación diferencial  -intermediación Diferencial geodésico c -vecindad Fuente: A. Ochoa, L. Arco. Differential Betweenness in complex networks clustering. CIARP. LNCS. Vol. 5197. pp. 222-229. 2008.
  • 87.
  • 88.
  • 89. 1 BioMed Central ha publicado 22003 artículos http://www.biomedcentral.com/info/abou t/datamining/ 2 Colección Reuters-21578 disponible en el sitio web de David D. Lewis http://www.research.att.com/~lewis 3 IEEE Congress on Evolutionary Computation, suministrada por Nees Jan van Eck y Rudolf Kruse Corpus Cantidad de documentos Cantidad de grupos Distribución de documentos por grupos BioMed 1 31 2 Grupo 1 =[1..11] Grupo 2 =[12..31] Reuters 2 29 2 Grupo 1 =[1..12] Grupo 2 =[13..29] CEC2006 3 29 2 Grupo 1 =[1..18] Grupo 2 =[19..29]
  • 90.
  • 91.
  • 92.
  • 93.
  • 94.
  • 95.
  • 96.
  • 97.
  • 98.
  • 99.
  • 100.
  • 101.
  • 102.
  • 103. Fuente: Radicchi, F., Castellano, C., Cecconi, F., Loreto, V. and Parisi, D. Defining and identifying communities in networks. PNAS Proc. National Academic of Science USA, 101(9). 2004.
  • 104. Fuente: Girvan, M. and Newman, M. E. J. Community structure in social and biological networks. PNAS Proc. National Academy of Science USA, 99(12): 7821-7826. 2002.
  • 105. Fuente: Newman, M. E. J. and Girvan, M. Finding and evaluating community structure in networks. Physical Review E, 69(026113). 2004.
  • 106. Fuente: Newman, M. E. J. Analysis of weighted networks. Physical Review E, 70. 2004. El ancho de las aristas indica su peso. Los colores de los vértices indican los grupos. Varias investigaciones muestran que el lenguaje existe en una red small-world . Fuente: Ferrer, R. and Solé, R. V. The small world of human language. Proc. R. Soc. Lond. B, 268(1482): 2261-2265. 2001.
  • 107. Nodos: documentos Aristas: conexiones de los documentos con una similitud coseno superior a un umbral fijado. Grupos: [0..27] talk.politics.guns [28..58] talk.politics.mideast Fuente: Colección 20-newsgroups disponible en http://www.ai.mit.edu/people/jrennie/20Newsgroups
  • 108.
  • 109.
  • 110.
  • 111.
  • 112.
  • 113.
  • 114.
  • 115.
  • 116.
  • 117.
  • 118.
  • 119.
  • 120.
  • 121.
  • 122.
  • 123.
  • 124.
  • 125. Evaluación del instrumento de medición Confiabilidad Validez Contenido Criterio Constructo Pruebas de Wilcoxon a Resultados con y sin ruido Correlación con medidas internas Correlación con medidas externas Propiedades que se chequean
  • 126.
  • 127. L/G C/G/A Peso Umbral Max/Min P/C Costo Entropía L&G Grupos Si No Min P Bajo Precisión Local - No No Max P Bajo Cubrimiento Local - No No Max P Bajo Medida-F Local - No Si Max P Bajo Información Mutua Local - No No Max P Bajo Estadístico Kappa Global Grupos No No Max P Alto Medida-F Global Global Clases Si Si Max P Bajo MAP&R Global Clases No No Max P&C Bajo Error del agrupamiento Global Pares No No Min P&C Alto Cluster Recall Global Pares No No Max P&C Alto Cluster Precision Global Pares No No Max P&C Alto Estadístico Rand Global Pares No No Max P&C Alto Coeficiente Jaccard Global Pares No No Max P&C Alto Índice de F&M Global Pares No No Max P&C Alto
  • 128.
  • 129.
  • 130. Mide en qué grado la clase está incluida en el grupo. Busca correspondencia de cada grupo con las clases. Mide en qué grado el grupo cubre la clase. Media armónica de Precisión y Cubrimiento EM (?) EM (3) E 0.1825 0.2241 Pr 1 0.9271 Re 0.6 0.9067 OFM 0.7239 0.9048 EM (3) 9.33% incorrectos grupos 0 1 2 Iris-setosa 0 50 0 Iris-versicolor 50 0 27 Iris-virginica 14 0 36 EM (?) 40% incorrectos grupos 0 1 2 3 4 Iris-setosa 28 0 0 22 0 Iris-versicolor 0 0 27 0 23 Iris-virginica 0 35 15 0 0
  • 131.
  • 132. Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral Índice C Densidad de los grupos No Si No No No No Similitud Global Cohesión de los grupos (Local) No No No No Si No Dunn original Grupos compactos y bien separados (razón) Si No No Si Si No Dunn-Bezdek Grupos compactos y bien separados (razón) Si No Si Si Si No Bezdek general Grupos compactos y bien separados (razón) Si Si No No Si No Davies-Bouldin Dispersión de los grupos y su separación Si No Si No Si No Índice SD Suma pesada de la distancia intra-grupo y entre grupos Si No Si No No No Índice S_Dbw Suma pesada de la distancia intra-grupo y entre grupos Si No No No Si No Índice Silueta Grupos compactos y bien separados Si No No Si Si No
  • 133. Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral FOM Estimar número de grupos Si Si No No No Si Expansión Árbol de expansión mínimo No Si No Si No Si Conductancia Árbol de expansión mínimo (permite ponderar vértices) No Si No Si No Si Conectividad parcial pesada Conectividad de las aristas pesadas por grupos No Si No No Si Si Densidad esperada Densidad de los grupos por peso de las aristas No Si No No Si Si Modularidad Interconexiones antes y después del agrupamiento Si Si No Si Si Si Índice de tendencia del agrupamiento Forma grafo k-partito con las relaciones entre los k grupos No Si No No Si Si
  • 134. Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral Medida de la fortaleza de las conexiones Identifica grupos débiles y fuertes (solo conexiones) No Si No No Si Si Medida de la interacción Promedio de la interacción intra-grupo entre el promedio de la interacción con nodos externos No Si No Si Si Si Precisión del grupo Razón de los objetos típicos del grupo y los relacionados con él Si (local) Si No No Si Si Calidad del grupo Porciento de objetos bien asignados al grupo Si (local) Si No No Si Si Precisión generalizada del agrupamiento Precisión global ponderada por grupos Si Si No No Si Si Calidad generalizada del agrupamiento Calidad global ponderada por grupos Si Si No No Si Si
  • 135.
  • 136.
  • 137.

Hinweis der Redaktion

  1. If the boundary region is small, we will obtain better results of quality, accuracy and weighted accuracy of classification measures. We propose to use quality, accuracy and weighted accuracy of classification measures to validate clustering results, considering the application of accuracy and quality of approximation measures to validate each cluster. If  ( Ci )=1, Ci is crisp (exact) with respect to set of terms which describes this cluster of documents, if  ( Ci )&lt;1, Ci is rough (vague) with respect of terms which describes this cluster of documents, clusteri is a rough cluster.