Este documento presenta los pasos del proceso de minería de datos textual. Describe las etapas de obtención y agrupamiento de datos, preprocesamiento, generación de atributos, selección de atributos, aplicación de técnicas de minería de datos como agrupamiento, clasificación y reglas de asociación, e interpretación de resultados. El objetivo general es extraer información y conocimiento útil a partir de grandes cantidades de datos textuales.
1. Francisco Berrizbeitia
Curso de Miinería de Datos
Maestría en ciencias de la computación
Universidad Simón Bolívar
Noviembre 2013
2. ¿Por qué ?
Hay una enorme cantidad
de información en texto.
Aparte de los libros,
periódicos y enciclopedias
en Internet se generan
enormes cantidades de
información textual.
5. Obtención de los datos
Los textos se encuentran en documentos
dispersos como páginas web, informes,
actualizaciones de estatus, etc.
El primer paso consisten en la obtención
de estos datos y su agrupamiento para
comenzar a trabajar
7. Pre procesamiento
Eliminación de ruido
•
•
•
•
•
•
•
•
Texto deliberadamente equivocado SPAM
Textos ambiguos
Texto erróneo
Palabras que no tienen poder discriminatorio
(STOP WORDS)
Ruido en el formato (tags, links)
Multiplicidad de idiomas
Sinónimos, palabras con varios significados
Frases típicas
11. Pre procesamiento
1. Se puede importar los
datos en CVS
2. Hay que eliminar los
caracteres: ,;:”’%()
3. Aplicar primero el filtro
NominalToString.
4. Aplicar el filtro
StringToWordVector
17. Generación de atributos
Selección de atributos
¿Cuáles palabras tienen
la mejor capacidad
discriminatoria?
Se puede usar un
clasificador
18. Generación de atributos
Latent Semantic Analysis
Es una teoría y un método
para extraer y representar
el significado de las
palabras dentro de un
contexto utilizando técnicas
estadísticas sobre un
cuerpo de texto grande.
http://lsa.colorado.edu/whatis.html
19. Generación de atributos
1. Ir a Select Atributes
2. Seleccionar Latent
Semantic analisys
3. Start
4. Guardar el nuevo data
set
20. Pasos
Minería de datos
Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto
22. Agrupamiento
1. Ir a Clustering
2. Seleccionar el alogirmo
de agrupamiento
3. Start
4. Clic derecho sobre el
resultado y seleccionar
visualize cluster
assigments
24. Interpretar los resultados
Interpretar (Agrupamiento)
Evaluar los resultados
(Clasificación, reglas de asociación).
Sacar conclusiones o iterar sobre
los pasos anteriores
25. Francisco Berrizbeitia
Curso de Miinería de Datos
Maestría en ciencias de la computación
Universidad Simón Bolívar
Noviembre 2013