Minería de Texto Curso

•Descargar como PPTX, PDF•

1 recomendación•1,280 vistas

Este documento presenta los pasos del proceso de minería de datos textual. Describe las etapas de obtención y agrupamiento de datos, preprocesamiento, generación de atributos, selección de atributos, aplicación de técnicas de minería de datos como agrupamiento, clasificación y reglas de asociación, e interpretación de resultados. El objetivo general es extraer información y conocimiento útil a partir de grandes cantidades de datos textuales.

Tecnología

Francisco Berrizbeitia
Curso de Miinería de Datos
Maestría en ciencias de la computación
Universidad Simón Bolívar
Noviembre 2013

¿Por qué ?
Hay una enorme cantidad
de información en texto.
Aparte de los libros,
periódicos y enciclopedias
en Internet se generan
enormes cantidades de
información textual.

Pasos

Interpretación y
evaluación

Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto

Pasos

Obtención y
agrupamiento del
Texto
Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto

Obtención de los datos
Los textos se encuentran en documentos
dispersos como páginas web, informes,
actualizaciones de estatus, etc.

El primer paso consisten en la obtención
de estos datos y su agrupamiento para
comenzar a trabajar

Pasos

Pre
Procesamiento
Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto

Pre procesamiento

Eliminación de ruido
•
•
•
•
•
•
•
•

Texto deliberadamente equivocado SPAM
Textos ambiguos
Texto erróneo
Palabras que no tienen poder discriminatorio
(STOP WORDS)
Ruido en el formato (tags, links)
Multiplicidad de idiomas
Sinónimos, palabras con varios significados
Frases típicas

Pre procesamiento
Convertir el documento en un vector de
palabras. “Tokenization”

Pre procesamiento

1. Se puede importar los
datos en CVS
2. Hay que eliminar los
caracteres: ,;:”’%()
3. Aplicar primero el filtro
NominalToString.
4. Aplicar el filtro
StringToWordVector

Pasos

Generación de
atributos

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto

Generación de atributos

Representación del texto
“Bag of Words”

Pasos

Selección de
atributos

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto

Generación de atributos

Selección de atributos
¿Cuáles palabras tienen
la mejor capacidad
discriminatoria?

Se puede usar un
clasificador

Generación de atributos

Latent Semantic Analysis
Es una teoría y un método
para extraer y representar
el significado de las
palabras dentro de un
contexto utilizando técnicas
estadísticas sobre un
cuerpo de texto grande.

http://lsa.colorado.edu/whatis.html

Generación de atributos

1. Ir a Select Atributes
2. Seleccionar Latent
Semantic analisys
3. Start
4. Guardar el nuevo data
set

Pasos

Minería de datos

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto

Minería de datos

Agrupamiento
Clasificación
Reglas de asociación

Agrupamiento

1. Ir a Clustering
2. Seleccionar el alogirmo
de agrupamiento
3. Start
4. Clic derecho sobre el
resultado y seleccionar
visualize cluster
assigments

Pasos

Interpretar los
resultados

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto

Interpretar los resultados

Interpretar (Agrupamiento)
Evaluar los resultados
(Clasificación, reglas de asociación).

Sacar conclusiones o iterar sobre
los pasos anteriores

Más contenido relacionado

La actualidad más candente

Informacion en la redRosangel Diaz

Gbi1234MANS

A Investigarguest28c1d6cf

Metodos de busqueda gbiluisatorresolivera

Trabajo parte 2alexavil10

Presentación1aidualc49

1.base de datosAlexis Lema

La investigación científica metodologias herramientas entornos 2016Erla Mariela Morales Morgado

La actualidad más candente (8)

Informacion en la red

Gbi

A Investigar

Metodos de busqueda gbi

Trabajo parte 2

Presentación1

1.base de datos

La investigación científica metodologias herramientas entornos 2016

Destacado

Text miningAli A Jalil

Articulo revista amaiYesenia G. Pedraza

¿Que es el Text Mining?DMC Perú

Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú

minería de textosUNAM Facultad de Contaduría, Administración e Informática

Resultados encuesta parcmdc

Data miningmayimez

Introducción a Text MiningJuan Azcurra

5 text mining la ultima palabra yesenia glez pearsonEvelyn Femat

VenturaLuciano Ordoñez

Mineria De DatosJanett Julca Flores

Introduction to Text MiningMinha Hwang

Textmining IntroductionDatamining Tools

Minería de textos sacar más partido de las preguntas abiertasAlter Análisis

Minería y visualización de textoEwing Ma

Minig text and audiovisual dataJonathan Calero

Ejercicio En WekaVeronica Ramirez

Relación Entre Big Data, Data Mining y EstadísticaDMC Perú

Presentación Guadalajara #Tecnopoliticay15MJavier Toret Medina

Datawarehouse y Dataminingdannoblack

Destacado (20)

Text mining

Articulo revista amai

¿Que es el Text Mining?

Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.

minería de textos

Resultados encuesta

Data mining

Introducción a Text Mining

5 text mining la ultima palabra yesenia glez pearson

Ventura

Mineria De Datos

Introduction to Text Mining

Textmining Introduction

Minería de textos sacar más partido de las preguntas abiertas

Minería y visualización de texto

Minig text and audiovisual data

Ejercicio En Weka

Relación Entre Big Data, Data Mining y Estadística

Presentación Guadalajara #Tecnopoliticay15M

Datawarehouse y Datamining

Similar a Minería de Texto Curso

Trabajo informática Carriercomputacion1

Clasificación de Páginas web usando Marcadores socialesNicolás Tourné

Estrategias de búsqueda Docente Dis Grafico Mauricio Tenecota

Trabajo de internetcomputacion1

Metadatos by Luz Marina francoLuz Franco

Athento Basic, Gestión Documental InteligenteYerbabuena Software

Presentación gestión semántica contenidosYerbabuena Software

Scraping o cómo escarbar datosInstituto Industrial Luis A. Huergo

metadatos reglas y tipsJosue Reyes

17.Metadatos - Reglas y TipsJosue Reyes

17.metadatos reglas y tipsJosue Reyes

Métodos y técnicas eficaces y eficientes de búsqueda de información en internetANGEL MONTALVO DE JESUS

Introducción al Data MiningAndres Eyherabide

Seogemagonzalezc

Técnicas de análisis de datosEmilio Rodríguez García

Analisis seodaysi

Migración de file system a SharePointarielgsobrino

Curso SEO para ISCIIIMASmedios com

Diapositivas dhtic Juve GHJuve GonzheRn

Similar a Minería de Texto Curso (20)

Trabajo informática Carrier

Clasificación de Páginas web usando Marcadores sociales

Estrategias de búsqueda

Trabajo de internet

Metadatos by Luz Marina franco

Athento Basic, Gestión Documental Inteligente

Presentación gestión semántica contenidos

Scraping o cómo escarbar datos

metadatos reglas y tips

17.Metadatos - Reglas y Tips

17.metadatos reglas y tips

Métodos y técnicas eficaces y eficientes de búsqueda de información en internet

Introducción al Data Mining

Seo

Técnicas de análisis de datos

Analisis seo

Migración de file system a SharePoint

Curso SEO para ISCIII

Diapositivas dhtic Juve GH

Más de Francisco Berrizbeitia

Evaluación de diferentes estrategias de muestreo para tratar el problema de ...Francisco Berrizbeitia

Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...Francisco Berrizbeitia

News construction from microblogging posts using open data Francisco Berrizbeitia

News construction from microblogging post using open dataFrancisco Berrizbeitia

Autosimilaridad en vinculacionesFrancisco Berrizbeitia

Vinculaciones autosimilaresFrancisco Berrizbeitia

Trabajo 1 - Definición de un sitio web de contenido multimediaFrancisco Berrizbeitia

Introducción al el mercadeo en InternetFrancisco Berrizbeitia

¿ Cómo empezar con mi sitio web?Francisco Berrizbeitia

2013 digital future_in_focus_venezuelaFrancisco Berrizbeitia

Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...Francisco Berrizbeitia

Caracterización de la popularidad de los archivos de un wiki a gran escala v3Francisco Berrizbeitia

Formación en salud y seguridad industrial llave en manoFrancisco Berrizbeitia

Listado de cursos manual rseFrancisco Berrizbeitia

AID Aprendizaje - NosotrosFrancisco Berrizbeitia

Keylight ae user guideFrancisco Berrizbeitia

Personalizacion de blogspotFrancisco Berrizbeitia

Trabajo 1 - Conceptualización del proyecto de difusión audiovisualFrancisco Berrizbeitia

Clase 3 estrategias de difusionFrancisco Berrizbeitia

Emprendimiento en web 2.0 / Cifras y casos de exitoFrancisco Berrizbeitia

Más de Francisco Berrizbeitia (20)

Evaluación de diferentes estrategias de muestreo para tratar el problema de ...

Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...

News construction from microblogging posts using open data

News construction from microblogging post using open data

Autosimilaridad en vinculaciones

Vinculaciones autosimilares

Trabajo 1 - Definición de un sitio web de contenido multimedia

Introducción al el mercadeo en Internet

¿ Cómo empezar con mi sitio web?

2013 digital future_in_focus_venezuela

Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...

Caracterización de la popularidad de los archivos de un wiki a gran escala v3

Formación en salud y seguridad industrial llave en mano

Listado de cursos manual rse

AID Aprendizaje - Nosotros

Keylight ae user guide

Personalizacion de blogspot

Trabajo 1 - Conceptualización del proyecto de difusión audiovisual

Clase 3 estrategias de difusion

Emprendimiento en web 2.0 / Cifras y casos de exito

Último

Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López

Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55

AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21

Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA

El uso delas tic en la vida cotidiana MFELmaryfer27m

Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640

dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10

El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López

Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho

GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733

tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90

Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48

FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327

La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997

Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE

El uso de las TIC's en la vida cotidiana.241514949

LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López

Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770

Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11

Minería de Texto Curso

1. Francisco Berrizbeitia Curso de Miinería de Datos Maestría en ciencias de la computación Universidad Simón Bolívar Noviembre 2013

2. ¿Por qué ? Hay una enorme cantidad de información en texto. Aparte de los libros, periódicos y enciclopedias en Internet se generan enormes cantidades de información textual.

3. Pasos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto

4. Pasos Obtención y agrupamiento del Texto Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto

5. Obtención de los datos Los textos se encuentran en documentos dispersos como páginas web, informes, actualizaciones de estatus, etc. El primer paso consisten en la obtención de estos datos y su agrupamiento para comenzar a trabajar

6. Pasos Pre Procesamiento Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto

7. Pre procesamiento Eliminación de ruido • • • • • • • • Texto deliberadamente equivocado SPAM Textos ambiguos Texto erróneo Palabras que no tienen poder discriminatorio (STOP WORDS) Ruido en el formato (tags, links) Multiplicidad de idiomas Sinónimos, palabras con varios significados Frases típicas

8. Pre procesamiento

9. Pre procesamiento

10. Pre procesamiento Convertir el documento en un vector de palabras. “Tokenization”

11. Pre procesamiento 1. Se puede importar los datos en CVS 2. Hay que eliminar los caracteres: ,;:”’%() 3. Aplicar primero el filtro NominalToString. 4. Aplicar el filtro StringToWordVector

12. Pasos Generación de atributos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto

13. Generación de atributos Representación del texto “Bag of Words”

14. Generación de atributos

15. Generación de atributos Dimensionalidad

16. Pasos Selección de atributos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto

17. Generación de atributos Selección de atributos ¿Cuáles palabras tienen la mejor capacidad discriminatoria? Se puede usar un clasificador

18. Generación de atributos Latent Semantic Analysis Es una teoría y un método para extraer y representar el significado de las palabras dentro de un contexto utilizando técnicas estadísticas sobre un cuerpo de texto grande. http://lsa.colorado.edu/whatis.html

19. Generación de atributos 1. Ir a Select Atributes 2. Seleccionar Latent Semantic analisys 3. Start 4. Guardar el nuevo data set

20. Pasos Minería de datos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto

21. Minería de datos Agrupamiento Clasificación Reglas de asociación

22. Agrupamiento 1. Ir a Clustering 2. Seleccionar el alogirmo de agrupamiento 3. Start 4. Clic derecho sobre el resultado y seleccionar visualize cluster assigments

23. Pasos Interpretar los resultados Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto

24. Interpretar los resultados Interpretar (Agrupamiento) Evaluar los resultados (Clasificación, reglas de asociación). Sacar conclusiones o iterar sobre los pasos anteriores

25. Francisco Berrizbeitia Curso de Miinería de Datos Maestría en ciencias de la computación Universidad Simón Bolívar Noviembre 2013

Minería de Texto Curso

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (8)

Destacado

Destacado (20)

Similar a Minería de Texto Curso

Similar a Minería de Texto Curso (20)

Más de Francisco Berrizbeitia

Más de Francisco Berrizbeitia (20)

Último

Último (20)

Minería de Texto Curso