SlideShare ist ein Scribd-Unternehmen logo
1 von 9
TEXT-MINING
REALIZADO POR: FERNANDA CHICA - XAVIER RIOFRIO
UNIVERSIDAD DE CUENCA
pág. 1
Contenido
Text mining.................................................................................................................................... 2
1. INTRODUCCION..................................................................................................................... 2
2. HISTORIA ............................................................................................................................... 2
3. ANALISIS DE TEXTO ............................................................................................................... 2
4. APLICACIONES ....................................................................................................................... 2
5. SOFTWARE COMERCIAL ........................................................................................................ 3
6. TEXTMINING CON WEKA....................................................................................................... 4
7. CONCLUSION......................................................................................................................... 7
8. BIBLIOGRAFIA........................................................................................................................ 7
UNIVERSIDAD DE CUENCA
pág. 2
Text mining
1. INTRODUCCION
Esta se refiere al proceso de derivar información nueva de textos. Esta es equivalente text
analytics, esta hace referencia al proceso de obtenerinformación de high-quality deltexto.
Informaciónde altacalidadse obtienenormalmente a través de los patronesy tendenciasque se
presentan a través de mediostales como el aprendizajeestadístico de patrones. La minería de
textospor lo general implicaelproceso de estructuración deltexto de entrada, derivando
patronesdentro de losdatos estructurados, y, finalmente,la evaluación y lainterpretacióndela
salida.
Las tareasde minería de textotípico incluyenla categorizaciónde texto, la agrupación
texto,concepto/extracción de entidades, la producción de taxonomíasgranulares, análisis de
los sentimientos, el documento resumen ymodelosentidad relación.
2. HISTORIA
En los años ochenta surgieron los primeros esfuerzos de minería de textos que necesitaban
una cantidad de esfuerzo humano demasiado alta, pero los avances tecnológicos han
permitido que esta área progrese de manera rápida en los últimos años. Esta es un área
multidisciplinaria basada en la recuperación de información, minería de datos, aprendizaje
automático, estadísticas y la lingüística computacional. Como la mayor parte de la información
(más de un 80%) se encuentra actualmente almacenada como texto, se cree que la minería de
textos tiene un gran valor comercial.
3. ANALISIS DE TEXTO
El objetivo general es, en esencia, de convertir el texto en datos para el análisis, a través de la
aplicación de procesamiento de lenguaje natural y los métodos analíticos.
Esto consiste enla recuperación de información, usar un tipo de análisis léxicopara
estudiardistribuciones de frecuenciade palabras, un reconocimiento de patrones, una
extracción de información, técnicas de mineríade datos que incluyenenlace yanálisis de
asociación, visualización y análisis predictivo.
Una aplicación típicaes escanearun conjunto dedocumentos escritos enun lenguajenatural
ycualquier modelodel conjunto de documentosa efectos de clasificaciónde predicciónorellenar
uníndice debúsqueda debase de datos ocon la informaciónextraída.
4. APLICACIONES
La tecnologíaahora se aplicaen líneas generalespara una ampliavariedad depúblico, tal cual en
este caso de la minería de texto, para lo que uno se imagine se puede aplicar, a continuación
nombraremos algún ejemplo:
UNIVERSIDAD DE CUENCA
pág. 3
Aplicaciones de seguridad.
Muchas empresas y gobiernos utilizan la minería de textos para el seguimiento yanálisis
defuentes en líneade texto sin formato, como las noticias de Internet, blogs, etc.parafines de
seguridad nacional. También está involucradoen el estudio deltexto cifrado/descifrado.
Biomédicos
Se refierea la mineríade texto aplicadoa los textosy la literaturadel dominio dela
biologíamolecularybiomedicina. Es uncampo de investigaciónbastante recienteen el borde
delprocesamiento del lenguajenatural,la bioinformática, lainformática médicay la
lingüísticacomputacional.
Hayun creciente interés enla mineríade textoylas estrategiasde extracción
deinformaciónaplicada ala literaturabiomédica ybiologíamoleculardebido a la
crecientecantidad de publicacionesdisponibles electrónicamentealmacenados enbases de
datos comoPubMed.
Aplicaciones de software
Estas están siendoinvestigadas y desarrolladaspor las principalesempresas, como IBM
yMicrosoft, para automatizar aún máslosprocesos de extraccióny análisis,y por
diferentesempresasque trabajan enel ámbito de labúsqueda yla indexaciónen general,
comouna forma de mejorarsusresultados.
Marketing
Está empezandoa utilizaren la comercializaciónymás concretamente, enanálisisde gestiónde
relaciones con clientes. Coussementy VandenPoelaplicanpara mejorar los modelosde análisis
predictivoparala pérdida de clientes
Aplicaciones académicas
El tema de la minería de textos es de importancia para publicadores que tengan grandes
bancos de datos que requieran de indexación. Esto es el caso en particular para disciplinas
científicas en las que hay una gran cantidad de información muy específica en forma de texto
escrito.
5. SOFTWARE COMERCIAL
A continuación se presentara una lista de los más conocidos:
SOFTWARE USO
AndersonAnalytics proveedordeanálisisdetextoydecontenidorelacionadoconelcomportamientodelconsumidor.
Attensity grupodesolucionesdemineríadetextosparadiversasindustrias.
Clarabridge aplicacionesdemineríadetextos,categorizaciónparaclientes,serviciosdesaludyanalíticainvestigativa.
Clearforest softwaredemineríadetextoparaextraerelsignificadodevariasformasdeinformacióntextual.
CortexIntelligence proveedordeanálisisdecontenidodeWeb.
Crossminder empresademineríadetextosconbúsquedamultilingüeyaproximaciónsemántica.
Pimiento unframeworkparaaplicacionesdemineríadetextosenJava.
PolyAnalyst softwaredemineríadetextos.
SPSS proveedordeTextSmart,SPSSTextAnalysisforSurveysyClementine,productosquesepuedenutilizarconotrosdeSPSS.
UNIVERSIDAD DE CUENCA
pág. 4
6. TEXTMINING CON WEKA
Primero para este ejemplo vamos a descargar un dataset que ya viene con weka. Este es
:ReutersGrain el cual se divide en dos partes, el de entrenamiento y el de prueba.
Primero iniciamos weka e ingresamos al Weka Explorer.
Segundo tenemos que abrir el archivo de prueba en este caso el de entrenamiento:
Este dataset contiene 1451 instancias de la clase “0” y 103 de la clase “1”, dando un total de
1554 instancias. Como se podrá observar en la primera pantalla de weka
UNIVERSIDAD DE CUENCA
pág. 5
A continuación seleccionamos “Classify” del explorer. Allí seleccionaremos el test set nuestro,
donde podremos elegir un clasificador, en este caso nosotros elegiremos el de árbol de
decisión (primero elegimos el filtro en este caso FILTEREDCLASSIFIER):
UNIVERSIDAD DE CUENCA
pág. 6
Es posible configurar de diferentes s. A su vez es posible utilizar distintos algoritmos, a
continuación mostraremos nuestra decisión:
Ahora si listo el modelo se podrá ejecutar, solo tenemos que dar clic en start y este empezara
con un proceso puede tardar varios minutos, dependiendo del tamaño del dataset y del
modelo construido.
UNIVERSIDAD DE CUENCA
pág. 7
Como es un árbol de decisión podremos visualizarlo de manera gráfica solo hay que dar en la
opción de vizualize tree y nos aparecerá los patrones algo así:
Y el resultado de manera textual se presentara de la siguiente manera:
La matriz de confusión indica la cantidad de instancias que fueron clasificadas de forma
errónea.
A B
Clasificada
como
544 3 A = "0"
19 38 B = "1"
De esta manera podemos deducir con que la exactitud del modelo, es de un 96.3576 %. Y es
que podemos concluir que el modelo es muy bueno para clasificar a A , lo contrario de B que
es pésimo. A tiene 544 correctas y tan solo 3 incorrectas en cambio B 38 correctas y la mitad
de esas incorrectas lo que es un error muy grande.
7. CONCLUSION
Al final podemos decir que el textmining se puede usar en prácticamente todo, para obtener
muchos beneficios tales como los que mencionamos en las aplicaciones que dimos de ejemplo,
si nosotros tenemos un dataset como el del ejemplo podemos obtener resultados minados de
este , el cual será el caso si necesitamos para marketing u otras necesidades.
Weka como ya sabemos es una herramienta muy poderosa y es muy útil, esta tiene mucha
documentación, es fácil de usar y no necesariamente se necesita ser un genio para manejarla,
solamente se necesita de la práctica.
8. BIBLIOGRAFIA
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_textos
http://www.cs.waikato.ac.nz/ml/weka/documentation.html
http://en.wikipedia.org/wiki/Text_mining
UNIVERSIDAD DE CUENCA
pág. 8
http://www.cs.waikato.ac.nz/ml/weka/documentation.html

Weitere ähnliche Inhalte

Ähnlich wie Text mining

fundamentos servicios en la nube en la actualidad
fundamentos servicios en la nube en la actualidadfundamentos servicios en la nube en la actualidad
fundamentos servicios en la nube en la actualidadRicardoForero21
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónCarlosMacarlup
 
eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...
eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...
eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...Nubiral
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Ricard de la Vega
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataJonathan Calero
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataJonathan Calero
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 

Ähnlich wie Text mining (20)

Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
Trabajo curso.docx
Trabajo curso.docxTrabajo curso.docx
Trabajo curso.docx
 
fundamentos servicios en la nube en la actualidad
fundamentos servicios en la nube en la actualidadfundamentos servicios en la nube en la actualidad
fundamentos servicios en la nube en la actualidad
 
Indice y citas
Indice y citasIndice y citas
Indice y citas
 
trabajo monografico de las tic
trabajo monografico de las tictrabajo monografico de las tic
trabajo monografico de las tic
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una Organización
 
Procesador de texto unach
Procesador de texto  unachProcesador de texto  unach
Procesador de texto unach
 
eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...
eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...
eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...
 
Proyecto
ProyectoProyecto
Proyecto
 
Tecnologia 11-7.docx
Tecnologia 11-7.docxTecnologia 11-7.docx
Tecnologia 11-7.docx
 
libreria sistema.docx
libreria sistema.docxlibreria sistema.docx
libreria sistema.docx
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Tesis
TesisTesis
Tesis
 
Tarea
TareaTarea
Tarea
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 

Kürzlich hochgeladen

CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxCONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxroberthirigoinvasque
 
activ4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfactiv4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfRosabel UA
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfRaulGomez822561
 
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCTRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCCarlosEduardoSosa2
 
La Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración AmbientalLa Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración AmbientalJonathanCovena1
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxlclcarmen
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxiemerc2024
 
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...JoseMartinMalpartida1
 
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...Ars Erótica
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxFernando Solis
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdfDemetrio Ccesa Rayme
 
Actividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxActividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxpaogar2178
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfMercedes Gonzalez
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfcarolinamartinezsev
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Katherine Concepcion Gonzalez
 
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...jlorentemartos
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...JAVIER SOLIS NOYOLA
 

Kürzlich hochgeladen (20)

Tema 11. Dinámica de la hidrosfera 2024
Tema 11.  Dinámica de la hidrosfera 2024Tema 11.  Dinámica de la hidrosfera 2024
Tema 11. Dinámica de la hidrosfera 2024
 
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxCONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
 
activ4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfactiv4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdf
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
 
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCTRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
 
La Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración AmbientalLa Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración Ambiental
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
 
Novena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan EudesNovena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan Eudes
 
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
 
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptx
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdf
 
Actividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxActividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docx
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
 
Power Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptxPower Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptx
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
 
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
 

Text mining

  • 1. TEXT-MINING REALIZADO POR: FERNANDA CHICA - XAVIER RIOFRIO
  • 2. UNIVERSIDAD DE CUENCA pág. 1 Contenido Text mining.................................................................................................................................... 2 1. INTRODUCCION..................................................................................................................... 2 2. HISTORIA ............................................................................................................................... 2 3. ANALISIS DE TEXTO ............................................................................................................... 2 4. APLICACIONES ....................................................................................................................... 2 5. SOFTWARE COMERCIAL ........................................................................................................ 3 6. TEXTMINING CON WEKA....................................................................................................... 4 7. CONCLUSION......................................................................................................................... 7 8. BIBLIOGRAFIA........................................................................................................................ 7
  • 3. UNIVERSIDAD DE CUENCA pág. 2 Text mining 1. INTRODUCCION Esta se refiere al proceso de derivar información nueva de textos. Esta es equivalente text analytics, esta hace referencia al proceso de obtenerinformación de high-quality deltexto. Informaciónde altacalidadse obtienenormalmente a través de los patronesy tendenciasque se presentan a través de mediostales como el aprendizajeestadístico de patrones. La minería de textospor lo general implicaelproceso de estructuración deltexto de entrada, derivando patronesdentro de losdatos estructurados, y, finalmente,la evaluación y lainterpretacióndela salida. Las tareasde minería de textotípico incluyenla categorizaciónde texto, la agrupación texto,concepto/extracción de entidades, la producción de taxonomíasgranulares, análisis de los sentimientos, el documento resumen ymodelosentidad relación. 2. HISTORIA En los años ochenta surgieron los primeros esfuerzos de minería de textos que necesitaban una cantidad de esfuerzo humano demasiado alta, pero los avances tecnológicos han permitido que esta área progrese de manera rápida en los últimos años. Esta es un área multidisciplinaria basada en la recuperación de información, minería de datos, aprendizaje automático, estadísticas y la lingüística computacional. Como la mayor parte de la información (más de un 80%) se encuentra actualmente almacenada como texto, se cree que la minería de textos tiene un gran valor comercial. 3. ANALISIS DE TEXTO El objetivo general es, en esencia, de convertir el texto en datos para el análisis, a través de la aplicación de procesamiento de lenguaje natural y los métodos analíticos. Esto consiste enla recuperación de información, usar un tipo de análisis léxicopara estudiardistribuciones de frecuenciade palabras, un reconocimiento de patrones, una extracción de información, técnicas de mineríade datos que incluyenenlace yanálisis de asociación, visualización y análisis predictivo. Una aplicación típicaes escanearun conjunto dedocumentos escritos enun lenguajenatural ycualquier modelodel conjunto de documentosa efectos de clasificaciónde predicciónorellenar uníndice debúsqueda debase de datos ocon la informaciónextraída. 4. APLICACIONES La tecnologíaahora se aplicaen líneas generalespara una ampliavariedad depúblico, tal cual en este caso de la minería de texto, para lo que uno se imagine se puede aplicar, a continuación nombraremos algún ejemplo:
  • 4. UNIVERSIDAD DE CUENCA pág. 3 Aplicaciones de seguridad. Muchas empresas y gobiernos utilizan la minería de textos para el seguimiento yanálisis defuentes en líneade texto sin formato, como las noticias de Internet, blogs, etc.parafines de seguridad nacional. También está involucradoen el estudio deltexto cifrado/descifrado. Biomédicos Se refierea la mineríade texto aplicadoa los textosy la literaturadel dominio dela biologíamolecularybiomedicina. Es uncampo de investigaciónbastante recienteen el borde delprocesamiento del lenguajenatural,la bioinformática, lainformática médicay la lingüísticacomputacional. Hayun creciente interés enla mineríade textoylas estrategiasde extracción deinformaciónaplicada ala literaturabiomédica ybiologíamoleculardebido a la crecientecantidad de publicacionesdisponibles electrónicamentealmacenados enbases de datos comoPubMed. Aplicaciones de software Estas están siendoinvestigadas y desarrolladaspor las principalesempresas, como IBM yMicrosoft, para automatizar aún máslosprocesos de extraccióny análisis,y por diferentesempresasque trabajan enel ámbito de labúsqueda yla indexaciónen general, comouna forma de mejorarsusresultados. Marketing Está empezandoa utilizaren la comercializaciónymás concretamente, enanálisisde gestiónde relaciones con clientes. Coussementy VandenPoelaplicanpara mejorar los modelosde análisis predictivoparala pérdida de clientes Aplicaciones académicas El tema de la minería de textos es de importancia para publicadores que tengan grandes bancos de datos que requieran de indexación. Esto es el caso en particular para disciplinas científicas en las que hay una gran cantidad de información muy específica en forma de texto escrito. 5. SOFTWARE COMERCIAL A continuación se presentara una lista de los más conocidos: SOFTWARE USO AndersonAnalytics proveedordeanálisisdetextoydecontenidorelacionadoconelcomportamientodelconsumidor. Attensity grupodesolucionesdemineríadetextosparadiversasindustrias. Clarabridge aplicacionesdemineríadetextos,categorizaciónparaclientes,serviciosdesaludyanalíticainvestigativa. Clearforest softwaredemineríadetextoparaextraerelsignificadodevariasformasdeinformacióntextual. CortexIntelligence proveedordeanálisisdecontenidodeWeb. Crossminder empresademineríadetextosconbúsquedamultilingüeyaproximaciónsemántica. Pimiento unframeworkparaaplicacionesdemineríadetextosenJava. PolyAnalyst softwaredemineríadetextos. SPSS proveedordeTextSmart,SPSSTextAnalysisforSurveysyClementine,productosquesepuedenutilizarconotrosdeSPSS.
  • 5. UNIVERSIDAD DE CUENCA pág. 4 6. TEXTMINING CON WEKA Primero para este ejemplo vamos a descargar un dataset que ya viene con weka. Este es :ReutersGrain el cual se divide en dos partes, el de entrenamiento y el de prueba. Primero iniciamos weka e ingresamos al Weka Explorer. Segundo tenemos que abrir el archivo de prueba en este caso el de entrenamiento: Este dataset contiene 1451 instancias de la clase “0” y 103 de la clase “1”, dando un total de 1554 instancias. Como se podrá observar en la primera pantalla de weka
  • 6. UNIVERSIDAD DE CUENCA pág. 5 A continuación seleccionamos “Classify” del explorer. Allí seleccionaremos el test set nuestro, donde podremos elegir un clasificador, en este caso nosotros elegiremos el de árbol de decisión (primero elegimos el filtro en este caso FILTEREDCLASSIFIER):
  • 7. UNIVERSIDAD DE CUENCA pág. 6 Es posible configurar de diferentes s. A su vez es posible utilizar distintos algoritmos, a continuación mostraremos nuestra decisión: Ahora si listo el modelo se podrá ejecutar, solo tenemos que dar clic en start y este empezara con un proceso puede tardar varios minutos, dependiendo del tamaño del dataset y del modelo construido.
  • 8. UNIVERSIDAD DE CUENCA pág. 7 Como es un árbol de decisión podremos visualizarlo de manera gráfica solo hay que dar en la opción de vizualize tree y nos aparecerá los patrones algo así: Y el resultado de manera textual se presentara de la siguiente manera: La matriz de confusión indica la cantidad de instancias que fueron clasificadas de forma errónea. A B Clasificada como 544 3 A = "0" 19 38 B = "1" De esta manera podemos deducir con que la exactitud del modelo, es de un 96.3576 %. Y es que podemos concluir que el modelo es muy bueno para clasificar a A , lo contrario de B que es pésimo. A tiene 544 correctas y tan solo 3 incorrectas en cambio B 38 correctas y la mitad de esas incorrectas lo que es un error muy grande. 7. CONCLUSION Al final podemos decir que el textmining se puede usar en prácticamente todo, para obtener muchos beneficios tales como los que mencionamos en las aplicaciones que dimos de ejemplo, si nosotros tenemos un dataset como el del ejemplo podemos obtener resultados minados de este , el cual será el caso si necesitamos para marketing u otras necesidades. Weka como ya sabemos es una herramienta muy poderosa y es muy útil, esta tiene mucha documentación, es fácil de usar y no necesariamente se necesita ser un genio para manejarla, solamente se necesita de la práctica. 8. BIBLIOGRAFIA http://es.wikipedia.org/wiki/Miner%C3%ADa_de_textos http://www.cs.waikato.ac.nz/ml/weka/documentation.html http://en.wikipedia.org/wiki/Text_mining
  • 9. UNIVERSIDAD DE CUENCA pág. 8 http://www.cs.waikato.ac.nz/ml/weka/documentation.html