SlideShare ist ein Scribd-Unternehmen logo
1 von 7
Clasificación Automática utilizando Clustering (Kmeans, EM) de la Colección 20 NewsGroup<br />Santiago Fernando Suárez S.<br />Inteligencia Artificial Avanzada<br />Escuela de Ciencias de la Computación<br />UNIVERSIDAD TECNICA PARTICULAR DE LOJA<br />sfsuarez@utpl.edu.ec<br />RESUMEN<br />General Terms: Algorithms, Categorization Text<br />Palabras claves<br />Clasificador, modelo vectorial, clustering, Minería de texto.<br />Abstract<br />En este trabajo se presenta un estudio comparativo de categorización de documentos entre los algoritmos de clustering K-means, EM sobre un conjunto de datos pertenecientes al repositorio 20 News Group, además se presenta una recopilación de trabajos que abordan el mismo problema, se exponen  las técnicas empleadas y algunos resultados obtenidos. Asimismo se habla de las ventajas y desventajas de  los métodos de clasificación supervisado, semi-supervisado y no supervisado. Se aborda también sobre los modelo de representación de los documentos, se presenta una descripción sobre el modelo vectorial utilizado en la Recuperación de Información ahora aplicado a la categorización de documentos.<br />Introducción<br />Este proyecto está enfocado al análisis y experimentación del  aprendizaje automático teniendo como herramienta la clasificación. Esta actividad aunque parece trivial para el ser humano para un computador no lo es tanto, ya que todos los escenarios y las posibles combinaciones   entre las variables no son siempre los mismos, para solucionar este y otros problemas aparecen las técnicas clasificación supervisada; que a partir de un conjunto de entrenamiento previamente preparado por un agente humano se procede a sacar el conocimiento necesario para la clasificación de nuevos casos.  <br />Planteamiento del Problema<br />La cantidad de documentos presentes en la red es cada vez mayor, la información se encuentran contenido en repositorios tanto públicos como privados. La diversidad de contenidos a si como su diversidad hace necesario el uso de herramientas que permitan organizar los documentos de acuerdo a cada interés particular con el menor esfuerzo posible por parte del ser humano.<br />Esto hace necesario el uso de herramientas que permitan organizar los documentos de acuerdo a cada interés particular con el menor esfuerzo posible por parte del ser humano.<br />Objetivos<br />El presente proyecto tiene como objetivo conocer los modelos de agrupación más efectivos para la clasificación de.  Además se contemplan que dicho clasificador cuente con las siguientes características:<br />Cuente con un modelo flexible de representación de documentos<br />Independiente del dominio.- Que no está restringido a un solo campo si no que sea de propósito general.<br />Que trabaje de igual forma con contenido estructurado como no estructurado.<br />Trabajos Realizados<br />Existen gran variedad de trabajos relacionados con este tema, entre esos podemos mencionar el trabajo de Guzmán (2009) el cual utiliza una categorización semiautomática de documentos, específicamente el algoritmo selft-training; este funciona con un número pequeño de instancias categorizadas previamente mano y luego utiliza  la web como un corpus referencial, para obtener nuevos casos de entrenamiento y así aumentar la diferencia entre los patrones de cada clase, así como también  la eficacia del clasificador. Siguiendo la misma línea de clasificación semi-automática se encuentra Aparicio (2008) en donde se utilizan la variante multimonial del clasificador Naive Bayes para generar un modelo de mezclas de términos en base a la longitud del documento y así calcular la probabilidad. También se utiliza el algoritmo EM (Expectation-Maximization) como primer paso se estima el valor esperado de la clase dada  para encontrar los máximos locales de los parámetros del modelo estimado, luego se maximiza la probabilidad de los parámetros utilizando los valores del paso anterior. En Figuerola (2000) se hace uso del modelo vectorial de los sistemas de Recuperación de Información (RI) para generar vectores patrón para el entrenamiento, estos son de tipo binario los cuales reflejan la ocurrencia de términos en los documentos, a cada término se le asigna un peso calculado a partir de la propuesta de Salton (1968), el proceso de reconocimiento de patrones de cada clase se hace utilizando  el algoritmo de Rochio.<br />En Cruz (2006) se hace una clasificación de críticas de cine, lo particular de este trabajo es que utiliza bigramas  los cuales sirven de entrada al algoritmo PMI-IR (Pointwise Mutual Information-Information Retrieval) para el cálculo de la orientación semántica (positivas o negativas)  de las críticas, la clasificación en si es la suma de las orientaciones semánticas.  Martín (2009) también enfoca su trabajo en la clasificación de críticas de cine, en este trabajo los documentos a clasificar pasan por una actividades previa  basado en actividades de Procesamiento de Lenguaje Natural (segmentación, lematización, desambiguación semántica) la clasificación se la realiza utilizando los algoritmos KNN y K Nearest Neightbour. En Rangel (2004) se hace una clasificación de páginas Web para un dominio específico (Teatro) utiliza el método Bow y la validación cruzada para verificar la adecuación de la colección de entrenamiento, la clasificación se realiza usando el algoritmo de Naive Bayes, obteniendo muy bueno resultados. Zubiaga (2009) también trabaja con la clasificación de páginas web, para ello utiliza el algoritmo SVM (Support Vector Machine) ya que estos no requieren una selección o reducción de términos, tampoco un ajuste de parámetros lo que facilita su directo uso sobre los documentos a clasificar. Yoliz (2003) utiliza los algoritmos genéticos, en este trabajo los documentos son  representados mediante  la numeración de grupo la cual contiene varios parámetros (Cantidad de documentos, cantidad de grupos, similitud) para el cruzamiento de cromosomas utilizan una solución creada en base a los requerimientos del problema, los resultados de este trabajo son mejores que los obtenidos con el algoritmo “Bisecting K-Means con refinamiento”. En Lilac (2009) se propone a la clasificación automática de los documentos utilizando el algoritmo A- Priori, se pone especial interés en el análisis de las relaciones entre el conjunto de documentos de una clase  y los términos que contienen, produciendo un conjunto de reglas basado en los términos y sus frecuencias en cada categoría. Fawad (2009) utiliza el método de clasificación x-Sim clustering, la idea principal de este algoritmo es aprender de la matriz de similitud de los documentos y la matriz de similitud entre las palabras  los patrones en cada iteración, los experimentos mostraron que este enfoque aporta iguales o mejores resultados que utilizando el método de SVM.<br />Como se ha revisado existen formas supervisadas y no supervisadas para resolver el problema de clasificación de documentos, también se presenta un interés en técnicas semi-supervisadas ya que estas dedican el menor esfuerzo  en la creación del conjunto de entrenamiento. Asimismo la   naturaleza de la clasificación ha evolucionado, en un principio solo se basaba en la similitud sintáctica  de palabras  pero actualmente se están considerando y utilizando sistemas de clasificación que comprendan el sentido de los términos de los documentos (similitud semántica).<br />Metodología<br />Elección del Clasificador<br />De los  trabajos revisados podemos destacar que existen varias formas de solucionar este problema, entre estás se destacan las técnicas semi-supervisadas las cuales tienen la capacidad de trabajar  con un número reducido de ejemplares de entrenamiento lo cual las hace atractivas frente a las   técnicas supervisadas, las cuales demanda importantes recursos (tiempo, personal) para la construcción del conjunto de entrenamiento.<br /> Las técnicas no supervisadas sobresalen por el hecho de que extraen las clases de los propios datos, no necesitan pre-procesamiento y los datos no etiquetados son más fáciles de encontrar en la red, sin embargo; según lo expone Chapelle (2005) las técnicas supervisadas ofrecen resultados más precisos frente a las técnicas no supervisadas y semi-supervisadas; en cambio, Díaz (2007) sostiene que las técnicas como Kohonen y Clustering (técnicas no supervisadas)  son las que mejor se adaptan a la dinámica de la producción de información actual.<br />A lo que se refiere a los métodos se ha encontrado en varias oportunidades a Naive Bayes [Rangel (2004), Martín (2009)] su uso radica en que permiten calcular de forma explícita la probabilidad asociada a cada una de las hipótesis posibles, lo que constituye una gran ventaja sobre otras técnicas, Mitchell (1997).<br /> <br />También en la literatura revisada se ha encontrado varias implementaciones de clustering  [Aparicio (2008), Fawad (2009)]  estos algoritmos se acercan más a la realidad de la información en la red, trabajan directamente sobre los documentos no necesitan ni de estructuración ni categorización previa, trabajan descubriendo grupos. <br />Aunque los métodos bayesianos parecen reunir todas las características ideales, pero el consumo de tiempo y recursos para construir el modelo de entrenamiento pesa, la cantidad de información en la red necesita de métodos automáticos para su procesamiento, los algoritmos de clustering  se adaptan fácilmente a las necesidades de la red;  así lo expone Díaz (2007) estos algoritmos son capaces de de filtrar la red descubriendo relaciones y agrupamiento importantes en los documentos.<br /> Teniendo presente sus ventajas  en este trabajo se emplearan los algoritmos de clustering, principalmente se utilizarán el SimpleKmeans, el algoritmo EM y CobWeb, de los cuales explotaremos su simplicidad de uso, y eficiencia.<br />SimpleKMeans: Es un algoritmo clasificado como Método de Particionado y Recolocación. Este método representa cada uno de los clusters por la media (o media ponderada) de sus puntos, es decir, por su centroide. Este método únicamente se puede aplicar a atributos numéricos,  la representación mediante centroides tiene la ventaja de que tiene un significado gráfico y estadístico inmediato. La suma de las discrepancias entre un punto y su centroide, expresado a través de la distancia apropiada, se usa como función objetivo. La función objetivo, suma de los cuadrados de los errores entre los puntos y sus centroides respectivos, es igual a la varianza total dentro del propio clúster. La suma de los cuadrados de los errores se puede racionalizar, como el negativo del log-likelihood, para modelos mixtos que utilicen distribuciones normales.<br />EM: Asigna a cada instancia una distribución de probabilidad de pertenencia a cada cluster. Este algoritmo tiene la capacidad de decidir cuántos clusters crear basado en validación cruzada, o en su defecto especificar explícitamente  a priori cuantos debe generar. Asumiendo que todas lo atributos atributos son variables aleatorias independientes utiliza el modelo Gaussiano finito de mezclas. Este es más complejo que el KMedias, ya que requiere muchas más operaciones.<br /> <br />Cobweb: Es un algoritmo de clustering jerárquico, utiliza aprendizaje incremental, realizando  agrupaciones instancia a instancia. Durante la ejecución del algoritmo se forma un árbol (árbol de clasificación) donde cada hoja representan los segmentos y el nodo raíz representa  el  conjunto de datos de entrada. Las instancias se añaden una a una y el árbol se va actualizando en cada paso. Cada actualización debe encontrar el mejor sitio donde debe ir la nueva instancia, esta operación puede necesitar de la reestructuración de todo el árbol o simplemente la inclusión de la instancia en un nodo que ya existía. <br />Este algoritmo utiliza dos parámetros: <br />a) Acuity: La utilidad de categoría es una estimación de la media y la desviación estándar del valor de los atributos, este parámetro en si representa la medida de error de un nodo con una sola instancia, es  decir, establece la varianza mínima de un atributo. <br />b) Cut-off: Utilizado para evitar el crecimiento desmesurado del número de segmentos. Indica en que grado se debe producir la utilidad de categoría para que la instancia sea tenida  en cuenta de manera individual.<br />Representación de los Documentos<br />La representación de los documentos consiste en transformar el contenido de cada documento en un formato común y manejable para el algoritmo de clasificación, existen varias tipos de representación, entre estas se encuentra  la representación Vectorial  utilizada para operaciones de RI, también son utilizadas ampliamente para procesos de categorización de documentos. Este trabajo utiliza este tipo de representación la cual consiste en la  representación lógica que trabaja con un vector de pesos wij, el cual indica el grado de relevancia del término ti en el documento dj, esta relevancia está sujeta a la frecuencia con que el término ti aparece en el documento dj. <br /> t1t2t3…ti…tmd1w11w12w13…w1i…w1md2w21w22w23…w2i…w2m……………………diwi1wi2wi31…wij…wim……………………dnwn1wn3wn3…wnj…wnm<br />Tabla 1: Matriz de frecuencia de términos Llidó (2002)<br />Conjunto de Entrenamiento y Pruebas<br />Los casos que sirve de entrenamiento y pruebas fueron recolectados del repositorio 20-newsgroup el cual es un conjunto de documentos cortos sobre noticias, se encuentra dividido en 20 categorías, para efectos de este trabajo se han considerado las categorías de: Atheism, Baseball, Motorcycles, Politics, Electronics   las cuales hablan religión, deprotes, motos, políticos y electrónica. De esta colección se ha  escogido el 60% (749) como conjunto de entrenamiento  y el restante (40% - 499) serán tomados para probar el clasificador.<br />ClaseInstanciasAtheism214Baseball120Motorcycles315Politics419Electronics180Total1248<br />Tabla 2: Conjunto de Categorías<br />Los atributos con los que se trabajan son 3:<br />Preparación de Datos<br />Una vez obtenidos los datos, los cuales se encontraban  en forma física (documentos) se procedió a indexarlos con la con la finalidad de obtener una vista lógica del contenido de los documentos lo que en si es importante al proyecto y más fácil de manejar, todo el contenido de los documentos se almacenó en un índice del cual se extrajo los atributos con los cuales se va a trabajar:<br />Nombre: El nombre del documento por el cual se lo identificará.<br />Contenido (Contents): El cual guarda el contenido de los documentos en formato plano.<br />Clase: Es un valor nominal que representa a la clase que pertenece <br />Una vez obtenidos los identificados los parámetros con los que se va a trabajar existen unos pasos previos que se tienen que tienen que realizar y los cuales se detallan enseguida.<br />Pre-procesado de Datos<br />Previos al proceso de clasificación y test debemos trabajar con los datos ya que los atributos en su mayoría son de tipo texto  y los algoritmos de clustering no pueden trabajar con esta clase de datos, es por eso que se hace uso de los filtros que provee Weka para el pre-procesado.<br />StringtoNominal: Este filtro se encarga de nominalizar los atributos de tipo texto en los data set, en nuestro caso será aplicado al atributo Titulo. <br />StringToWordVector: Transforma el contenido de cada documento tipo texto en vectores de pesos, utiliza un stemmer, un tokenizador y un archivo pasado pro parámetro que contiene el listado de stopword (palabras vacías), los resultados que arrojan son: {12,14,56,23,66,11,34}  <br />Remove: En este punto la variable que contiene la clase a la que pertenece cada documento resulta irrelevante para el análisis esa así que se procede a eliminarla.<br />NumericToBinary: Este se encarga de transformar a binarios cada número del vector  de representación, es aplicado al contenido  cada documento. <br />BestFirst: busca en el espacio de atributos aquellos  subconjuntos de atributos más representativos utilizando la estrategia greedy hillclimbing con backtracking. <br />CfsSubsetEval : Evalúa un subconjunto de atributos considerando la habilidad predictiva individual de cada variable, así como el grado de redundancia entre ellas. Se prefieren  los subconjuntos de atributos que estén altamente correlacionados con la clase y tengan baja intercorrelación<br />Estos filtros permiten encontrar los atributos más representativos para cada clase, del conjunto de datos destacan los siguientes atributos:<br />Tabla 3: Subconjuntos de atributos   representativos del conjunto de datos<br />GainRatioAttributeEval: evalúa cada atributo midiendo su razón de beneficio con respecto a la clase.<br />Ranker: devuelve una lista ordenada de los atributos según su calidad.<br />Estos dos algoritmos permiten evaluar los atributos de manera individual y permite obtener los mejor posicionados a continuación se presenta una lista de los mismos.<br />Tabla 4: Lista de atributos con los mejores promedios según su calidad<br />Herramientas a utilizar<br />Las herramientas que se van a utilizar en este proyecto son:<br />Netbeans, Como entorno de desarrollo <br />Librería Apache Lucene para el pre procesamiento  de los documentos: Remoción de palabras vacías, análisis de frecuencia de términos<br />WEKA, librearía especializada en algoritmos de aprendizaje automático, entre estos se encuentra los algoritmos a Implementar: SimplekMeans, EM,CobWeb<br />Pruebas<br />Definición de las Métricas<br />Para medir el funcionamiento de cada técnica se utilizarán las medidas de precisión y exhaustividad y utilizadas para las operaciones de RI  además  de la distribución F,  ya que  son ampliamente utilizadas en problemas de clasificación de documentos [Figuerola (2000), Téllez (2003)]. Estas se calculan a partir de las siguientes ecuaciones:<br />R= aa+c  Precisión<br />P=aa+b  Exhaustividad<br />Donde: <br />a es el número de documentos pertenecientes a una clase y adscritos a esa clase<br />b es el número de documentos no pertenecientes a una clase pero asignados a esa clase<br />c es el número de documentos pertenecientes a una clase no asignados a esa clase<br />Además se analizan la desviación estándar y la taza de error para conjunto de datos para analizar la efectividad de cada técnica empleada, estos datos son provistos por Weka. <br />3.3 Interpretación de los resultados<br />Kmeans:<br />Al utilizar este algoritmo con los valores por defecto (Iteraciones 500 y seed 10) no se obtuvo buenos resultados, la clasificación fue mediocre para las clases expuestas, por tal motivo se procedió a utilizar el mismo conjunto de datos  variando las iteraciones y el seed todo esto con el fin de mejorar los resultados, después de haber hecho varias corridas, se llego a un punto máximo donde la clasificación no podía mejorar más (ver tabla 4), el cambio del método para calcular la distancia fue preponderante ya que con la Distancia Euclideana los resultados no superan el 45% de precisión en cambio con la distancia de Manhattan se alcanzó un valor máximo de precisión de 56 %  (corrida 5 y 6). Esto tiene su razón de ser ya que el resultado final del Cluster depende radicalmente a la medida de asociación utilizada Mahía (2009)  <br />Tabla 5: Configuraciones y resultados de 13 corridas con simplekmeans<br />A pesar de que se utilizó las configuraciones de la corrida con los mejores resultados, aun se mantiene el problema de la clase baseball cuyos elementos el clasificador no puede catalogar.<br />Tabla 6: Resultados de la corrida 6<br />Esto  se debe a que los elementos de esta clase tienen un valor demasiado pequeño de heterogeneidad con respecto a los demás, es decir que su similaridad es tan inapreciables que el clasificador termina asignándolos a clases diferentes Esto puede ser corregido con un pre-procesamiento de datos   más profundo. Mahía (2009) propone algunas técnicas para contrarrestar este problema: una correlación de conexión entre variables y Medidas de similitud para variables nominales binarias.<br />A continuación se presenta la matriz de clasificación resultante con los valores de cada clase.<br />Tabla 7: Matriz de Confusión SimpleKMeans<br />EM<br />La clasificación con esta técnica se encontró la mejor configuración en la tercera  corrida con superiores resultados que aplicando simpleKmeans. En esta técnica se redujo el número de iteraciones a 50 y elseed se mantuvo en 100 para obtener resultados deseados. <br />Tabla 8: Resultados de la corrida 3<br />En la siguiente tabla se muestran la matriz de confusión resultante de la configuración empleada, los resultados son muy buenos a pesar de que persiste el problema de la clase baseball cuyos elementos han sido asignados a otras clases.<br />Tabla 9: Matriz de Confusión EM <br />EM Computacional es costoso pero posee mayores beneficios a los que se refiere a clasificación ya que posee un método iterativo e incremental basado en la maximización de la probabilidad, aunque para este caso dicha maximización abarco las instancias de la clase baseball  aunque este punto puede ocasionar problemas en futuras clasificaciones puede ser remediado con un mejor reprocesamiento de los datos.<br />Conclusiones  y trabajo futuro<br />En este trabajo se han llegado a las siguientes conclusiones:<br />Conclusiones<br />No todas las agrupaciones generadas por los algoritmos clustering son representativas.<br />El algoritmo clustering no puede recuperarse de decisiones incorrectas.<br />El coste computacional de los algoritmo de clustering crece a razón de On2  <br />Se debe conocer bien la naturaliza del problema para cuestiones de pre-procesado de datos e interpretación de resultados<br />Los caracteres especiales, números y palabras vacías afectan gravemente el proceso de clasificación.<br />Se pueden mejorar los resultados de clasificación aplicando mecanismos de Procesamiento de Lenguaje Natural (PLN)<br />La selección de atributos (BestFirst, Raker, GainRatioAttributeEval, CfsSubsetEval) ayudan a mejorar enormemente la clasificación<br />La exhaustividad no necesariamente está relacionada con la precisión.<br />Para una clasificación efectiva se debe considerar la distribución de los atributos en cada clase para medir si son representativos.<br />Bibliografía<br />Aparicio, R. y Acuña, E (2008). “Clasificación Semi-Supervisada de Documentos”. Departamento de Ciencias Matemáticas, Universidad de Puerto Rico. Extraído el 5 de mayo de 2010 desde: www.iiis.org/CDs2008/CD2009CSC/CISCI2009/PapersPdf/C758MD.pdf<br />Chapelle O. and Zien A.” Semi-Supervised classification by low density separation”. 10th workshop on AI and stat Extraído el 10 de Mayo de 2010 desde: http://www.kyb.mpg.de/publications/pdfs/pdf2899.pdf<br />Cruz, F. Troyano, J y Ortega, J. (2006) “Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español”. Universidad de Sevilla-España. Extraído el 3 de Mayo de 2010 desde: www.sepln.org/revistaSEPLN/revista/41/sec3-art2.pdf<br />Fawad, S. y Bisson, G. (2009) “Text Categorization Using Word Similarities Based on Higher Order Co-occurrences”. Extraído el 10 de Mayo de 2010 desde: http://www.siam.org/proceedings/datamining/2010/dm10_001_hussains.pdf<br />Figuerola, C. Zazo, A. y Alonso, L. (2000). “Categorización de documentos en español: algunos resultados experimentales“. Universidad de Salamanca. Facultad de Documentación. España – Salamanca. Extraído el 17 de abril de 2010 desde: reina.usal.es/papers/figuerola2000categorizacion.pdf<br />Guzman, R. (2009).”Categorización Semi-automática de documentos usando la Web como corpus”. Universidad Politécnica de Valencia. Valencia-España. Extraído el 15 de abril de 2010 desde http://dspace.upv.es/xmlui/handle/10251/6562.<br />Lilac, A. “Auto Classification for Search Intelligence”. Extraído el 13 de Mayo de 2010 desde: http://www.waset.org/journals/waset/v49/v49-150.pdf<br />Martin, M. y  Villena, J. (2009). “Sistema de Clasificación Automática de Críticas de Cine”. Universidad Carlos III. Madrid-España. Extraído el 6 de Mayo de 2010 desde: http://e-archivo.uc3m.es/bitstream/10016/5846/1/PFC_Miriam_Martin_Garcia.pdf<br />Mitchell, T. (1997). “Machine Learning”, McGraw-Hill. Extraído el 10 de Mayo de 2010 desde:  http://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf<br />Rangel, M. y Penas, A. (2004):”Clasificación de Páginas Web en Dominio Específico”. Universidad de Madrid. Extraído el 10 de Mayo de 2010 desde: http://www.sepln.org/revistaSEPLN/revista/41/sec3-art4.pdf<br />Salton, G. (1968). “Automatic Organization Retrieval”. Universidad de Michigan. New York: McGraw-Hill. <br />Yolis, E. (2003):” ALGORITMOS GENÉTICOS APLICADOS A LA CATEGORIZACIÓN  AUTOMÁTICA DE DOCUMENTOS”. Universidad de Buenos Aires. Extraído el 10 de Mayo de 2010 desde: http://laboratorios.fi.uba.ar/lsi/yolis-tesisingenieriainformatica.pdf<br />Zubiaga, A. (2009): “Aproximaciones a SVM semisupervisado multiclase para clasificación de páginas web”. Extraído el 9 de Mayo de 2010 desde: www.sepln.org/revistaSEPLN/revista/.../03Articulos-p16-63a70.pdf<br />Figueras, S. (2001): quot;
Análisis de conglomerados o clusterquot;
. Universidad de Zaragoza – España. Extraído el 9 de Mayo de 2010 desde: http://www.5campus.org/leccion/cluster<br />Téllez, A. (2003) y otros. “Aplicando la Clasificación de Texto en la Extracción de Información”. Instituto Nacional de Astrofísica Óptica y Electrónica. Puebla –México. Universidad Politécnica de Valencia. Valencia, España. Extraído el 5 de mayo de 2010 desde: http://ccc.inaoep.mx/~mmontesg/publicaciones/2004/IEconClasificacion-tallerENC04.pdf<br />Díaz, C. (2007): “CLASIFICACIÓN NO SUPERVISADA”. Universidad Carlos III. Extraído el 5 de mayo de 2010 desde: http://clustering.50webs.com/docs/clasificacion_no_supervisada.pdf<br />Llidó, María D. (2002).  Extracción y Recuperación de Información Temporal. Tesis Doctoral. Universidad Jaume I. Extraído el 12 de Diciembre de 2009 desde http://www.tesisenxarxa.net/TESIS_UJI/AVAILABLE/TDX-0630104-124212//llido.pdf<br />Maldonado M. (2002). Hermes: Servidor y biblioteca de modelos de recuperación de información. Tesis. Universidad de las Américas Puebla. Extraído el 19 de Enero de 2010 desde: http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/maldonado_n_mf/capitulo_2.html.<br />Mahía, R (2009):” INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO”. Universidad Autónoma de Madrid. UDI de Econometría e Informática - Dpto. Economía Aplicada. Extraído el01 de Junio de 2010 desde: http://www.uam.es/personal_pdi/economicas/rmc/documentos/cluster.PDF<br />
Clasificación de documentos utilizando clustering K-means y EM
Clasificación de documentos utilizando clustering K-means y EM
Clasificación de documentos utilizando clustering K-means y EM
Clasificación de documentos utilizando clustering K-means y EM
Clasificación de documentos utilizando clustering K-means y EM
Clasificación de documentos utilizando clustering K-means y EM

Weitere ähnliche Inhalte

Was ist angesagt?

Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquicoguest83cad74
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datoslalopg
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datosBryan Barragan
 
Unidad 3 paradigmas de la ingeniería del software
Unidad 3 paradigmas de la ingeniería del softwareUnidad 3 paradigmas de la ingeniería del software
Unidad 3 paradigmas de la ingeniería del softwareAndhy H Palma
 
Técnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosTécnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosValeria Gavilanes
 

Was ist angesagt? (8)

Sistemas modelos-v10
Sistemas modelos-v10Sistemas modelos-v10
Sistemas modelos-v10
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datos
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
Unidad 3 paradigmas de la ingeniería del software
Unidad 3 paradigmas de la ingeniería del softwareUnidad 3 paradigmas de la ingeniería del software
Unidad 3 paradigmas de la ingeniería del software
 
Keel
KeelKeel
Keel
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Técnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosTécnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datos
 

Andere mochten auch

Grupo Musical, LD y Jhoni - presentación electrónica (en espanol)
Grupo Musical, LD y Jhoni - presentación electrónica (en espanol)Grupo Musical, LD y Jhoni - presentación electrónica (en espanol)
Grupo Musical, LD y Jhoni - presentación electrónica (en espanol)Bridget Z
 
Webinar Fernando Zavala
Webinar Fernando ZavalaWebinar Fernando Zavala
Webinar Fernando Zavalamatildebaeza
 
Fulls protocols departament d'orientació
Fulls protocols departament d'orientacióFulls protocols departament d'orientació
Fulls protocols departament d'orientacióacanet3
 
IntroduccióN Laura
IntroduccióN LauraIntroduccióN Laura
IntroduccióN Lauradetbarrios
 
Manoscarlos2
Manoscarlos2Manoscarlos2
Manoscarlos2dgwest7
 
Diseño de una revista
Diseño de una revistaDiseño de una revista
Diseño de una revistaJaime Castro
 
Cajero Aut[1][1]..
Cajero Aut[1][1]..Cajero Aut[1][1]..
Cajero Aut[1][1]..djhorigomez
 
Articulo Diaio Neuquen
Articulo Diaio NeuquenArticulo Diaio Neuquen
Articulo Diaio NeuquenCEPREVI
 
Presentación SISRED para delegación Nicaragua 8/oct/2013
Presentación SISRED para delegación Nicaragua 8/oct/2013Presentación SISRED para delegación Nicaragua 8/oct/2013
Presentación SISRED para delegación Nicaragua 8/oct/2013Alvaro Sandoval
 
Incómoda Libertad (Fotonovela)
Incómoda Libertad (Fotonovela)Incómoda Libertad (Fotonovela)
Incómoda Libertad (Fotonovela)Laura Segovia
 
Proyecto Socrates Comenius
Proyecto Socrates ComeniusProyecto Socrates Comenius
Proyecto Socrates Comeniuspilarricobernal
 
Septimo Escuela 119
Septimo Escuela 119Septimo Escuela 119
Septimo Escuela 119dzappala
 
\"Con el ingenio de los chicos de tercer grado\"
\"Con el ingenio de los chicos de tercer grado\"\"Con el ingenio de los chicos de tercer grado\"
\"Con el ingenio de los chicos de tercer grado\"guest4f3915
 
Exposicion Pamela Otero
Exposicion Pamela OteroExposicion Pamela Otero
Exposicion Pamela OteroPame.oc
 

Andere mochten auch (20)

Grupo Musical, LD y Jhoni - presentación electrónica (en espanol)
Grupo Musical, LD y Jhoni - presentación electrónica (en espanol)Grupo Musical, LD y Jhoni - presentación electrónica (en espanol)
Grupo Musical, LD y Jhoni - presentación electrónica (en espanol)
 
Webinar Fernando Zavala
Webinar Fernando ZavalaWebinar Fernando Zavala
Webinar Fernando Zavala
 
Fulls protocols departament d'orientació
Fulls protocols departament d'orientacióFulls protocols departament d'orientació
Fulls protocols departament d'orientació
 
IntroduccióN Laura
IntroduccióN LauraIntroduccióN Laura
IntroduccióN Laura
 
Ivan.
Ivan.Ivan.
Ivan.
 
Manoscarlos2
Manoscarlos2Manoscarlos2
Manoscarlos2
 
Redes locales 10
Redes locales 10Redes locales 10
Redes locales 10
 
Diseño de una revista
Diseño de una revistaDiseño de una revista
Diseño de una revista
 
Cajero Aut[1][1]..
Cajero Aut[1][1]..Cajero Aut[1][1]..
Cajero Aut[1][1]..
 
Articulo Diaio Neuquen
Articulo Diaio NeuquenArticulo Diaio Neuquen
Articulo Diaio Neuquen
 
Apocalypto
ApocalyptoApocalypto
Apocalypto
 
Strategy Desk Oct 17
Strategy Desk Oct 17Strategy Desk Oct 17
Strategy Desk Oct 17
 
Presentación SISRED para delegación Nicaragua 8/oct/2013
Presentación SISRED para delegación Nicaragua 8/oct/2013Presentación SISRED para delegación Nicaragua 8/oct/2013
Presentación SISRED para delegación Nicaragua 8/oct/2013
 
Incómoda Libertad (Fotonovela)
Incómoda Libertad (Fotonovela)Incómoda Libertad (Fotonovela)
Incómoda Libertad (Fotonovela)
 
Protocolos
ProtocolosProtocolos
Protocolos
 
Proyecto Socrates Comenius
Proyecto Socrates ComeniusProyecto Socrates Comenius
Proyecto Socrates Comenius
 
Septimo Escuela 119
Septimo Escuela 119Septimo Escuela 119
Septimo Escuela 119
 
\"Con el ingenio de los chicos de tercer grado\"
\"Con el ingenio de los chicos de tercer grado\"\"Con el ingenio de los chicos de tercer grado\"
\"Con el ingenio de los chicos de tercer grado\"
 
La primera guerra mundial
La primera guerra mundialLa primera guerra mundial
La primera guerra mundial
 
Exposicion Pamela Otero
Exposicion Pamela OteroExposicion Pamela Otero
Exposicion Pamela Otero
 

Ähnlich wie Clasificación de documentos utilizando clustering K-means y EM

Clasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos EvolutivosClasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos EvolutivosALONSO UCHIHA
 
proceso analisis de diseño
proceso analisis de diseñoproceso analisis de diseño
proceso analisis de diseñodorimenlinda
 
Doris sotillo 1investigacion
Doris sotillo 1investigacionDoris sotillo 1investigacion
Doris sotillo 1investigaciondorimenlinda
 
Análisis del sistema de información
Análisis del sistema de informaciónAnálisis del sistema de información
Análisis del sistema de informaciónalmayor
 
Proceso de análisis
Proceso de análisisProceso de análisis
Proceso de análisisJesus Peralta
 
Slideshare 2do corte, luismortell
Slideshare 2do corte, luismortellSlideshare 2do corte, luismortell
Slideshare 2do corte, luismortellforwer1223
 
Fundamentos y metodos de analisis de requerimientos
Fundamentos y metodos de analisis de requerimientosFundamentos y metodos de analisis de requerimientos
Fundamentos y metodos de analisis de requerimientoslexiherrera
 
Metodologã­a orientada-a-objetos-omt.-rumbaugh
Metodologã­a orientada-a-objetos-omt.-rumbaughMetodologã­a orientada-a-objetos-omt.-rumbaugh
Metodologã­a orientada-a-objetos-omt.-rumbaughviisistemas
 
UML(Diseños de Sistemas)
UML(Diseños de Sistemas)UML(Diseños de Sistemas)
UML(Diseños de Sistemas)josue salas
 
Minería de datos
Minería de datosMinería de datos
Minería de datosanag catal
 
Análisis y diseño de sistemas1
Análisis y diseño de sistemas1Análisis y diseño de sistemas1
Análisis y diseño de sistemas1Andoni Vasquez
 
Tipos de modelo y metodologias
Tipos de modelo y metodologiasTipos de modelo y metodologias
Tipos de modelo y metodologiasJosafat Mtz
 
Metodología Estructurada
Metodología EstructuradaMetodología Estructurada
Metodología Estructuradarenyv123
 
Analisis y diseño orientado a odjetos
Analisis y diseño orientado a odjetosAnalisis y diseño orientado a odjetos
Analisis y diseño orientado a odjetosLex Marin
 
Metodología orientada a objetos (omt). rumbaugh
Metodología orientada a objetos (omt). rumbaughMetodología orientada a objetos (omt). rumbaugh
Metodología orientada a objetos (omt). rumbaughWilfredy Inciarte
 
Modelos clásicos presentación
Modelos clásicos   presentaciónModelos clásicos   presentación
Modelos clásicos presentaciónHernan Arteaga
 
Planificacion de proyecto de software
Planificacion de proyecto de softwarePlanificacion de proyecto de software
Planificacion de proyecto de softwareYORGELIS1608
 

Ähnlich wie Clasificación de documentos utilizando clustering K-means y EM (20)

Clasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos EvolutivosClasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos Evolutivos
 
proceso analisis de diseño
proceso analisis de diseñoproceso analisis de diseño
proceso analisis de diseño
 
Doris sotillo 1investigacion
Doris sotillo 1investigacionDoris sotillo 1investigacion
Doris sotillo 1investigacion
 
Análisis del sistema de información
Análisis del sistema de informaciónAnálisis del sistema de información
Análisis del sistema de información
 
Proceso de análisis
Proceso de análisisProceso de análisis
Proceso de análisis
 
Slideshare 2do corte, luismortell
Slideshare 2do corte, luismortellSlideshare 2do corte, luismortell
Slideshare 2do corte, luismortell
 
Fundamentos y metodos de analisis de requerimientos
Fundamentos y metodos de analisis de requerimientosFundamentos y metodos de analisis de requerimientos
Fundamentos y metodos de analisis de requerimientos
 
Metodologã­a orientada-a-objetos-omt.-rumbaugh
Metodologã­a orientada-a-objetos-omt.-rumbaughMetodologã­a orientada-a-objetos-omt.-rumbaugh
Metodologã­a orientada-a-objetos-omt.-rumbaugh
 
UML(Diseños de Sistemas)
UML(Diseños de Sistemas)UML(Diseños de Sistemas)
UML(Diseños de Sistemas)
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Tecnicas de modelado y metodologias para aplicaciones Web
Tecnicas de modelado y metodologias para aplicaciones WebTecnicas de modelado y metodologias para aplicaciones Web
Tecnicas de modelado y metodologias para aplicaciones Web
 
Modelado y metodologias para aplicaciones web
Modelado y metodologias para aplicaciones webModelado y metodologias para aplicaciones web
Modelado y metodologias para aplicaciones web
 
Análisis y diseño de sistemas1
Análisis y diseño de sistemas1Análisis y diseño de sistemas1
Análisis y diseño de sistemas1
 
Tipos de modelo y metodologias
Tipos de modelo y metodologiasTipos de modelo y metodologias
Tipos de modelo y metodologias
 
Metodología Estructurada
Metodología EstructuradaMetodología Estructurada
Metodología Estructurada
 
Analisis y diseño orientado a odjetos
Analisis y diseño orientado a odjetosAnalisis y diseño orientado a odjetos
Analisis y diseño orientado a odjetos
 
Metodología orientada a objetos (omt). rumbaugh
Metodología orientada a objetos (omt). rumbaughMetodología orientada a objetos (omt). rumbaugh
Metodología orientada a objetos (omt). rumbaugh
 
Modelos clásicos presentación
Modelos clásicos   presentaciónModelos clásicos   presentación
Modelos clásicos presentación
 
Analisis y diseno_oo
Analisis y diseno_ooAnalisis y diseno_oo
Analisis y diseno_oo
 
Planificacion de proyecto de software
Planificacion de proyecto de softwarePlanificacion de proyecto de software
Planificacion de proyecto de software
 

Kürzlich hochgeladen

Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdfDemetrio Ccesa Rayme
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfAngélica Soledad Vega Ramírez
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Carlos Muñoz
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaDecaunlz
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADauxsoporte
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.José Luis Palma
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdfgimenanahuel
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdfBaker Publishing Company
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosCesarFernandez937857
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...JonathanCovena1
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxlclcarmen
 
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxEXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxPryhaSalam
 

Kürzlich hochgeladen (20)

Unidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la InvestigaciónUnidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la Investigación
 
Medición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptxMedición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptx
 
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdfTema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdf
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativa
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDAD
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos Básicos
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
 
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
 
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxEXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
 

Clasificación de documentos utilizando clustering K-means y EM

  • 1. Clasificación Automática utilizando Clustering (Kmeans, EM) de la Colección 20 NewsGroup<br />Santiago Fernando Suárez S.<br />Inteligencia Artificial Avanzada<br />Escuela de Ciencias de la Computación<br />UNIVERSIDAD TECNICA PARTICULAR DE LOJA<br />sfsuarez@utpl.edu.ec<br />RESUMEN<br />General Terms: Algorithms, Categorization Text<br />Palabras claves<br />Clasificador, modelo vectorial, clustering, Minería de texto.<br />Abstract<br />En este trabajo se presenta un estudio comparativo de categorización de documentos entre los algoritmos de clustering K-means, EM sobre un conjunto de datos pertenecientes al repositorio 20 News Group, además se presenta una recopilación de trabajos que abordan el mismo problema, se exponen las técnicas empleadas y algunos resultados obtenidos. Asimismo se habla de las ventajas y desventajas de los métodos de clasificación supervisado, semi-supervisado y no supervisado. Se aborda también sobre los modelo de representación de los documentos, se presenta una descripción sobre el modelo vectorial utilizado en la Recuperación de Información ahora aplicado a la categorización de documentos.<br />Introducción<br />Este proyecto está enfocado al análisis y experimentación del aprendizaje automático teniendo como herramienta la clasificación. Esta actividad aunque parece trivial para el ser humano para un computador no lo es tanto, ya que todos los escenarios y las posibles combinaciones entre las variables no son siempre los mismos, para solucionar este y otros problemas aparecen las técnicas clasificación supervisada; que a partir de un conjunto de entrenamiento previamente preparado por un agente humano se procede a sacar el conocimiento necesario para la clasificación de nuevos casos. <br />Planteamiento del Problema<br />La cantidad de documentos presentes en la red es cada vez mayor, la información se encuentran contenido en repositorios tanto públicos como privados. La diversidad de contenidos a si como su diversidad hace necesario el uso de herramientas que permitan organizar los documentos de acuerdo a cada interés particular con el menor esfuerzo posible por parte del ser humano.<br />Esto hace necesario el uso de herramientas que permitan organizar los documentos de acuerdo a cada interés particular con el menor esfuerzo posible por parte del ser humano.<br />Objetivos<br />El presente proyecto tiene como objetivo conocer los modelos de agrupación más efectivos para la clasificación de. Además se contemplan que dicho clasificador cuente con las siguientes características:<br />Cuente con un modelo flexible de representación de documentos<br />Independiente del dominio.- Que no está restringido a un solo campo si no que sea de propósito general.<br />Que trabaje de igual forma con contenido estructurado como no estructurado.<br />Trabajos Realizados<br />Existen gran variedad de trabajos relacionados con este tema, entre esos podemos mencionar el trabajo de Guzmán (2009) el cual utiliza una categorización semiautomática de documentos, específicamente el algoritmo selft-training; este funciona con un número pequeño de instancias categorizadas previamente mano y luego utiliza la web como un corpus referencial, para obtener nuevos casos de entrenamiento y así aumentar la diferencia entre los patrones de cada clase, así como también la eficacia del clasificador. Siguiendo la misma línea de clasificación semi-automática se encuentra Aparicio (2008) en donde se utilizan la variante multimonial del clasificador Naive Bayes para generar un modelo de mezclas de términos en base a la longitud del documento y así calcular la probabilidad. También se utiliza el algoritmo EM (Expectation-Maximization) como primer paso se estima el valor esperado de la clase dada para encontrar los máximos locales de los parámetros del modelo estimado, luego se maximiza la probabilidad de los parámetros utilizando los valores del paso anterior. En Figuerola (2000) se hace uso del modelo vectorial de los sistemas de Recuperación de Información (RI) para generar vectores patrón para el entrenamiento, estos son de tipo binario los cuales reflejan la ocurrencia de términos en los documentos, a cada término se le asigna un peso calculado a partir de la propuesta de Salton (1968), el proceso de reconocimiento de patrones de cada clase se hace utilizando el algoritmo de Rochio.<br />En Cruz (2006) se hace una clasificación de críticas de cine, lo particular de este trabajo es que utiliza bigramas los cuales sirven de entrada al algoritmo PMI-IR (Pointwise Mutual Information-Information Retrieval) para el cálculo de la orientación semántica (positivas o negativas) de las críticas, la clasificación en si es la suma de las orientaciones semánticas. Martín (2009) también enfoca su trabajo en la clasificación de críticas de cine, en este trabajo los documentos a clasificar pasan por una actividades previa basado en actividades de Procesamiento de Lenguaje Natural (segmentación, lematización, desambiguación semántica) la clasificación se la realiza utilizando los algoritmos KNN y K Nearest Neightbour. En Rangel (2004) se hace una clasificación de páginas Web para un dominio específico (Teatro) utiliza el método Bow y la validación cruzada para verificar la adecuación de la colección de entrenamiento, la clasificación se realiza usando el algoritmo de Naive Bayes, obteniendo muy bueno resultados. Zubiaga (2009) también trabaja con la clasificación de páginas web, para ello utiliza el algoritmo SVM (Support Vector Machine) ya que estos no requieren una selección o reducción de términos, tampoco un ajuste de parámetros lo que facilita su directo uso sobre los documentos a clasificar. Yoliz (2003) utiliza los algoritmos genéticos, en este trabajo los documentos son representados mediante la numeración de grupo la cual contiene varios parámetros (Cantidad de documentos, cantidad de grupos, similitud) para el cruzamiento de cromosomas utilizan una solución creada en base a los requerimientos del problema, los resultados de este trabajo son mejores que los obtenidos con el algoritmo “Bisecting K-Means con refinamiento”. En Lilac (2009) se propone a la clasificación automática de los documentos utilizando el algoritmo A- Priori, se pone especial interés en el análisis de las relaciones entre el conjunto de documentos de una clase y los términos que contienen, produciendo un conjunto de reglas basado en los términos y sus frecuencias en cada categoría. Fawad (2009) utiliza el método de clasificación x-Sim clustering, la idea principal de este algoritmo es aprender de la matriz de similitud de los documentos y la matriz de similitud entre las palabras los patrones en cada iteración, los experimentos mostraron que este enfoque aporta iguales o mejores resultados que utilizando el método de SVM.<br />Como se ha revisado existen formas supervisadas y no supervisadas para resolver el problema de clasificación de documentos, también se presenta un interés en técnicas semi-supervisadas ya que estas dedican el menor esfuerzo en la creación del conjunto de entrenamiento. Asimismo la naturaleza de la clasificación ha evolucionado, en un principio solo se basaba en la similitud sintáctica de palabras pero actualmente se están considerando y utilizando sistemas de clasificación que comprendan el sentido de los términos de los documentos (similitud semántica).<br />Metodología<br />Elección del Clasificador<br />De los trabajos revisados podemos destacar que existen varias formas de solucionar este problema, entre estás se destacan las técnicas semi-supervisadas las cuales tienen la capacidad de trabajar con un número reducido de ejemplares de entrenamiento lo cual las hace atractivas frente a las técnicas supervisadas, las cuales demanda importantes recursos (tiempo, personal) para la construcción del conjunto de entrenamiento.<br /> Las técnicas no supervisadas sobresalen por el hecho de que extraen las clases de los propios datos, no necesitan pre-procesamiento y los datos no etiquetados son más fáciles de encontrar en la red, sin embargo; según lo expone Chapelle (2005) las técnicas supervisadas ofrecen resultados más precisos frente a las técnicas no supervisadas y semi-supervisadas; en cambio, Díaz (2007) sostiene que las técnicas como Kohonen y Clustering (técnicas no supervisadas) son las que mejor se adaptan a la dinámica de la producción de información actual.<br />A lo que se refiere a los métodos se ha encontrado en varias oportunidades a Naive Bayes [Rangel (2004), Martín (2009)] su uso radica en que permiten calcular de forma explícita la probabilidad asociada a cada una de las hipótesis posibles, lo que constituye una gran ventaja sobre otras técnicas, Mitchell (1997).<br /> <br />También en la literatura revisada se ha encontrado varias implementaciones de clustering [Aparicio (2008), Fawad (2009)] estos algoritmos se acercan más a la realidad de la información en la red, trabajan directamente sobre los documentos no necesitan ni de estructuración ni categorización previa, trabajan descubriendo grupos. <br />Aunque los métodos bayesianos parecen reunir todas las características ideales, pero el consumo de tiempo y recursos para construir el modelo de entrenamiento pesa, la cantidad de información en la red necesita de métodos automáticos para su procesamiento, los algoritmos de clustering se adaptan fácilmente a las necesidades de la red; así lo expone Díaz (2007) estos algoritmos son capaces de de filtrar la red descubriendo relaciones y agrupamiento importantes en los documentos.<br /> Teniendo presente sus ventajas en este trabajo se emplearan los algoritmos de clustering, principalmente se utilizarán el SimpleKmeans, el algoritmo EM y CobWeb, de los cuales explotaremos su simplicidad de uso, y eficiencia.<br />SimpleKMeans: Es un algoritmo clasificado como Método de Particionado y Recolocación. Este método representa cada uno de los clusters por la media (o media ponderada) de sus puntos, es decir, por su centroide. Este método únicamente se puede aplicar a atributos numéricos, la representación mediante centroides tiene la ventaja de que tiene un significado gráfico y estadístico inmediato. La suma de las discrepancias entre un punto y su centroide, expresado a través de la distancia apropiada, se usa como función objetivo. La función objetivo, suma de los cuadrados de los errores entre los puntos y sus centroides respectivos, es igual a la varianza total dentro del propio clúster. La suma de los cuadrados de los errores se puede racionalizar, como el negativo del log-likelihood, para modelos mixtos que utilicen distribuciones normales.<br />EM: Asigna a cada instancia una distribución de probabilidad de pertenencia a cada cluster. Este algoritmo tiene la capacidad de decidir cuántos clusters crear basado en validación cruzada, o en su defecto especificar explícitamente a priori cuantos debe generar. Asumiendo que todas lo atributos atributos son variables aleatorias independientes utiliza el modelo Gaussiano finito de mezclas. Este es más complejo que el KMedias, ya que requiere muchas más operaciones.<br /> <br />Cobweb: Es un algoritmo de clustering jerárquico, utiliza aprendizaje incremental, realizando agrupaciones instancia a instancia. Durante la ejecución del algoritmo se forma un árbol (árbol de clasificación) donde cada hoja representan los segmentos y el nodo raíz representa el conjunto de datos de entrada. Las instancias se añaden una a una y el árbol se va actualizando en cada paso. Cada actualización debe encontrar el mejor sitio donde debe ir la nueva instancia, esta operación puede necesitar de la reestructuración de todo el árbol o simplemente la inclusión de la instancia en un nodo que ya existía. <br />Este algoritmo utiliza dos parámetros: <br />a) Acuity: La utilidad de categoría es una estimación de la media y la desviación estándar del valor de los atributos, este parámetro en si representa la medida de error de un nodo con una sola instancia, es decir, establece la varianza mínima de un atributo. <br />b) Cut-off: Utilizado para evitar el crecimiento desmesurado del número de segmentos. Indica en que grado se debe producir la utilidad de categoría para que la instancia sea tenida en cuenta de manera individual.<br />Representación de los Documentos<br />La representación de los documentos consiste en transformar el contenido de cada documento en un formato común y manejable para el algoritmo de clasificación, existen varias tipos de representación, entre estas se encuentra la representación Vectorial utilizada para operaciones de RI, también son utilizadas ampliamente para procesos de categorización de documentos. Este trabajo utiliza este tipo de representación la cual consiste en la representación lógica que trabaja con un vector de pesos wij, el cual indica el grado de relevancia del término ti en el documento dj, esta relevancia está sujeta a la frecuencia con que el término ti aparece en el documento dj. <br /> t1t2t3…ti…tmd1w11w12w13…w1i…w1md2w21w22w23…w2i…w2m……………………diwi1wi2wi31…wij…wim……………………dnwn1wn3wn3…wnj…wnm<br />Tabla 1: Matriz de frecuencia de términos Llidó (2002)<br />Conjunto de Entrenamiento y Pruebas<br />Los casos que sirve de entrenamiento y pruebas fueron recolectados del repositorio 20-newsgroup el cual es un conjunto de documentos cortos sobre noticias, se encuentra dividido en 20 categorías, para efectos de este trabajo se han considerado las categorías de: Atheism, Baseball, Motorcycles, Politics, Electronics las cuales hablan religión, deprotes, motos, políticos y electrónica. De esta colección se ha escogido el 60% (749) como conjunto de entrenamiento y el restante (40% - 499) serán tomados para probar el clasificador.<br />ClaseInstanciasAtheism214Baseball120Motorcycles315Politics419Electronics180Total1248<br />Tabla 2: Conjunto de Categorías<br />Los atributos con los que se trabajan son 3:<br />Preparación de Datos<br />Una vez obtenidos los datos, los cuales se encontraban en forma física (documentos) se procedió a indexarlos con la con la finalidad de obtener una vista lógica del contenido de los documentos lo que en si es importante al proyecto y más fácil de manejar, todo el contenido de los documentos se almacenó en un índice del cual se extrajo los atributos con los cuales se va a trabajar:<br />Nombre: El nombre del documento por el cual se lo identificará.<br />Contenido (Contents): El cual guarda el contenido de los documentos en formato plano.<br />Clase: Es un valor nominal que representa a la clase que pertenece <br />Una vez obtenidos los identificados los parámetros con los que se va a trabajar existen unos pasos previos que se tienen que tienen que realizar y los cuales se detallan enseguida.<br />Pre-procesado de Datos<br />Previos al proceso de clasificación y test debemos trabajar con los datos ya que los atributos en su mayoría son de tipo texto y los algoritmos de clustering no pueden trabajar con esta clase de datos, es por eso que se hace uso de los filtros que provee Weka para el pre-procesado.<br />StringtoNominal: Este filtro se encarga de nominalizar los atributos de tipo texto en los data set, en nuestro caso será aplicado al atributo Titulo. <br />StringToWordVector: Transforma el contenido de cada documento tipo texto en vectores de pesos, utiliza un stemmer, un tokenizador y un archivo pasado pro parámetro que contiene el listado de stopword (palabras vacías), los resultados que arrojan son: {12,14,56,23,66,11,34} <br />Remove: En este punto la variable que contiene la clase a la que pertenece cada documento resulta irrelevante para el análisis esa así que se procede a eliminarla.<br />NumericToBinary: Este se encarga de transformar a binarios cada número del vector de representación, es aplicado al contenido cada documento. <br />BestFirst: busca en el espacio de atributos aquellos subconjuntos de atributos más representativos utilizando la estrategia greedy hillclimbing con backtracking. <br />CfsSubsetEval : Evalúa un subconjunto de atributos considerando la habilidad predictiva individual de cada variable, así como el grado de redundancia entre ellas. Se prefieren  los subconjuntos de atributos que estén altamente correlacionados con la clase y tengan baja intercorrelación<br />Estos filtros permiten encontrar los atributos más representativos para cada clase, del conjunto de datos destacan los siguientes atributos:<br />Tabla 3: Subconjuntos de atributos representativos del conjunto de datos<br />GainRatioAttributeEval: evalúa cada atributo midiendo su razón de beneficio con respecto a la clase.<br />Ranker: devuelve una lista ordenada de los atributos según su calidad.<br />Estos dos algoritmos permiten evaluar los atributos de manera individual y permite obtener los mejor posicionados a continuación se presenta una lista de los mismos.<br />Tabla 4: Lista de atributos con los mejores promedios según su calidad<br />Herramientas a utilizar<br />Las herramientas que se van a utilizar en este proyecto son:<br />Netbeans, Como entorno de desarrollo <br />Librería Apache Lucene para el pre procesamiento de los documentos: Remoción de palabras vacías, análisis de frecuencia de términos<br />WEKA, librearía especializada en algoritmos de aprendizaje automático, entre estos se encuentra los algoritmos a Implementar: SimplekMeans, EM,CobWeb<br />Pruebas<br />Definición de las Métricas<br />Para medir el funcionamiento de cada técnica se utilizarán las medidas de precisión y exhaustividad y utilizadas para las operaciones de RI además de la distribución F, ya que son ampliamente utilizadas en problemas de clasificación de documentos [Figuerola (2000), Téllez (2003)]. Estas se calculan a partir de las siguientes ecuaciones:<br />R= aa+c Precisión<br />P=aa+b Exhaustividad<br />Donde: <br />a es el número de documentos pertenecientes a una clase y adscritos a esa clase<br />b es el número de documentos no pertenecientes a una clase pero asignados a esa clase<br />c es el número de documentos pertenecientes a una clase no asignados a esa clase<br />Además se analizan la desviación estándar y la taza de error para conjunto de datos para analizar la efectividad de cada técnica empleada, estos datos son provistos por Weka. <br />3.3 Interpretación de los resultados<br />Kmeans:<br />Al utilizar este algoritmo con los valores por defecto (Iteraciones 500 y seed 10) no se obtuvo buenos resultados, la clasificación fue mediocre para las clases expuestas, por tal motivo se procedió a utilizar el mismo conjunto de datos variando las iteraciones y el seed todo esto con el fin de mejorar los resultados, después de haber hecho varias corridas, se llego a un punto máximo donde la clasificación no podía mejorar más (ver tabla 4), el cambio del método para calcular la distancia fue preponderante ya que con la Distancia Euclideana los resultados no superan el 45% de precisión en cambio con la distancia de Manhattan se alcanzó un valor máximo de precisión de 56 % (corrida 5 y 6). Esto tiene su razón de ser ya que el resultado final del Cluster depende radicalmente a la medida de asociación utilizada Mahía (2009) <br />Tabla 5: Configuraciones y resultados de 13 corridas con simplekmeans<br />A pesar de que se utilizó las configuraciones de la corrida con los mejores resultados, aun se mantiene el problema de la clase baseball cuyos elementos el clasificador no puede catalogar.<br />Tabla 6: Resultados de la corrida 6<br />Esto se debe a que los elementos de esta clase tienen un valor demasiado pequeño de heterogeneidad con respecto a los demás, es decir que su similaridad es tan inapreciables que el clasificador termina asignándolos a clases diferentes Esto puede ser corregido con un pre-procesamiento de datos más profundo. Mahía (2009) propone algunas técnicas para contrarrestar este problema: una correlación de conexión entre variables y Medidas de similitud para variables nominales binarias.<br />A continuación se presenta la matriz de clasificación resultante con los valores de cada clase.<br />Tabla 7: Matriz de Confusión SimpleKMeans<br />EM<br />La clasificación con esta técnica se encontró la mejor configuración en la tercera corrida con superiores resultados que aplicando simpleKmeans. En esta técnica se redujo el número de iteraciones a 50 y elseed se mantuvo en 100 para obtener resultados deseados. <br />Tabla 8: Resultados de la corrida 3<br />En la siguiente tabla se muestran la matriz de confusión resultante de la configuración empleada, los resultados son muy buenos a pesar de que persiste el problema de la clase baseball cuyos elementos han sido asignados a otras clases.<br />Tabla 9: Matriz de Confusión EM <br />EM Computacional es costoso pero posee mayores beneficios a los que se refiere a clasificación ya que posee un método iterativo e incremental basado en la maximización de la probabilidad, aunque para este caso dicha maximización abarco las instancias de la clase baseball aunque este punto puede ocasionar problemas en futuras clasificaciones puede ser remediado con un mejor reprocesamiento de los datos.<br />Conclusiones y trabajo futuro<br />En este trabajo se han llegado a las siguientes conclusiones:<br />Conclusiones<br />No todas las agrupaciones generadas por los algoritmos clustering son representativas.<br />El algoritmo clustering no puede recuperarse de decisiones incorrectas.<br />El coste computacional de los algoritmo de clustering crece a razón de On2 <br />Se debe conocer bien la naturaliza del problema para cuestiones de pre-procesado de datos e interpretación de resultados<br />Los caracteres especiales, números y palabras vacías afectan gravemente el proceso de clasificación.<br />Se pueden mejorar los resultados de clasificación aplicando mecanismos de Procesamiento de Lenguaje Natural (PLN)<br />La selección de atributos (BestFirst, Raker, GainRatioAttributeEval, CfsSubsetEval) ayudan a mejorar enormemente la clasificación<br />La exhaustividad no necesariamente está relacionada con la precisión.<br />Para una clasificación efectiva se debe considerar la distribución de los atributos en cada clase para medir si son representativos.<br />Bibliografía<br />Aparicio, R. y Acuña, E (2008). “Clasificación Semi-Supervisada de Documentos”. Departamento de Ciencias Matemáticas, Universidad de Puerto Rico. Extraído el 5 de mayo de 2010 desde: www.iiis.org/CDs2008/CD2009CSC/CISCI2009/PapersPdf/C758MD.pdf<br />Chapelle O. and Zien A.” Semi-Supervised classification by low density separation”. 10th workshop on AI and stat Extraído el 10 de Mayo de 2010 desde: http://www.kyb.mpg.de/publications/pdfs/pdf2899.pdf<br />Cruz, F. Troyano, J y Ortega, J. (2006) “Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español”. Universidad de Sevilla-España. Extraído el 3 de Mayo de 2010 desde: www.sepln.org/revistaSEPLN/revista/41/sec3-art2.pdf<br />Fawad, S. y Bisson, G. (2009) “Text Categorization Using Word Similarities Based on Higher Order Co-occurrences”. Extraído el 10 de Mayo de 2010 desde: http://www.siam.org/proceedings/datamining/2010/dm10_001_hussains.pdf<br />Figuerola, C. Zazo, A. y Alonso, L. (2000). “Categorización de documentos en español: algunos resultados experimentales“. Universidad de Salamanca. Facultad de Documentación. España – Salamanca. Extraído el 17 de abril de 2010 desde: reina.usal.es/papers/figuerola2000categorizacion.pdf<br />Guzman, R. (2009).”Categorización Semi-automática de documentos usando la Web como corpus”. Universidad Politécnica de Valencia. Valencia-España. Extraído el 15 de abril de 2010 desde http://dspace.upv.es/xmlui/handle/10251/6562.<br />Lilac, A. “Auto Classification for Search Intelligence”. Extraído el 13 de Mayo de 2010 desde: http://www.waset.org/journals/waset/v49/v49-150.pdf<br />Martin, M. y Villena, J. (2009). “Sistema de Clasificación Automática de Críticas de Cine”. Universidad Carlos III. Madrid-España. Extraído el 6 de Mayo de 2010 desde: http://e-archivo.uc3m.es/bitstream/10016/5846/1/PFC_Miriam_Martin_Garcia.pdf<br />Mitchell, T. (1997). “Machine Learning”, McGraw-Hill. Extraído el 10 de Mayo de 2010 desde: http://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf<br />Rangel, M. y Penas, A. (2004):”Clasificación de Páginas Web en Dominio Específico”. Universidad de Madrid. Extraído el 10 de Mayo de 2010 desde: http://www.sepln.org/revistaSEPLN/revista/41/sec3-art4.pdf<br />Salton, G. (1968). “Automatic Organization Retrieval”. Universidad de Michigan. New York: McGraw-Hill. <br />Yolis, E. (2003):” ALGORITMOS GENÉTICOS APLICADOS A LA CATEGORIZACIÓN AUTOMÁTICA DE DOCUMENTOS”. Universidad de Buenos Aires. Extraído el 10 de Mayo de 2010 desde: http://laboratorios.fi.uba.ar/lsi/yolis-tesisingenieriainformatica.pdf<br />Zubiaga, A. (2009): “Aproximaciones a SVM semisupervisado multiclase para clasificación de páginas web”. Extraído el 9 de Mayo de 2010 desde: www.sepln.org/revistaSEPLN/revista/.../03Articulos-p16-63a70.pdf<br />Figueras, S. (2001): quot; Análisis de conglomerados o clusterquot; . Universidad de Zaragoza – España. Extraído el 9 de Mayo de 2010 desde: http://www.5campus.org/leccion/cluster<br />Téllez, A. (2003) y otros. “Aplicando la Clasificación de Texto en la Extracción de Información”. Instituto Nacional de Astrofísica Óptica y Electrónica. Puebla –México. Universidad Politécnica de Valencia. Valencia, España. Extraído el 5 de mayo de 2010 desde: http://ccc.inaoep.mx/~mmontesg/publicaciones/2004/IEconClasificacion-tallerENC04.pdf<br />Díaz, C. (2007): “CLASIFICACIÓN NO SUPERVISADA”. Universidad Carlos III. Extraído el 5 de mayo de 2010 desde: http://clustering.50webs.com/docs/clasificacion_no_supervisada.pdf<br />Llidó, María D. (2002). Extracción y Recuperación de Información Temporal. Tesis Doctoral. Universidad Jaume I. Extraído el 12 de Diciembre de 2009 desde http://www.tesisenxarxa.net/TESIS_UJI/AVAILABLE/TDX-0630104-124212//llido.pdf<br />Maldonado M. (2002). Hermes: Servidor y biblioteca de modelos de recuperación de información. Tesis. Universidad de las Américas Puebla. Extraído el 19 de Enero de 2010 desde: http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/maldonado_n_mf/capitulo_2.html.<br />Mahía, R (2009):” INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO”. Universidad Autónoma de Madrid. UDI de Econometría e Informática - Dpto. Economía Aplicada. Extraído el01 de Junio de 2010 desde: http://www.uam.es/personal_pdi/economicas/rmc/documentos/cluster.PDF<br />