SlideShare ist ein Scribd-Unternehmen logo
1 von 41
Análisis de sentido en textos Alumno: Jorge Gálvez Gajardo Profesor Guía: Rodrigo Alfaro Arancibia Profesor Correferente: Guillermo Cabrera Guerrero
Descripción del proyecto Introducción Objetivos Estado del arte Máquinas de aprendizaje Bayes ingenuo Máquinas de soporte vectorial Representación de lenguaje natural Clasificación de texto Software Caso de estudio Conclusiones y trabajo futuro Contenido Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
Descripción del proyecto
Las opiniones tienen un impacto muy relevante en nuestra vida diaria.  Gran cantidad de organizaciones e industrias están interesadas en estas opiniones Cada vez hay más fuentes desde donde se pude obtener todas estas opiniones Toda esta información no puede ser procesada por una persona o un grupo de personas Opinion Mining es una disciplina que mezcla la recuperación de información y la lingüística computacional. Descripción del proyecto: Introducción Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso “La opinión pública es el termómetro de un monarca al cual debe constantemente consultar”              									         		                   Napoleón Bonaparte 15 Diciembre de 2010
Objetivo General: Utilizar Máquinas de Aprendizaje para categorizar textos en positivo o negativo, según  sea su sentido. Objetivos Específicos: Utilizar Máquinas de Aprendizaje, eligiendo Bayes Ingenuo y Máquinas de Soporte Vectorial como técnicas  para clasificar en positivo o negativo, según sea su sentido, distintos textos extraídos de comentarios sobre películas. Desplegar resultados obtenidos y comparar técnicas utilizadas con el fin de analizar cual forma es la más eficiente para determinado tipo de texto. Habilitar una interfaz web en la cual se puedan almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido. Descripción del proyecto:Objetivos Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
Se han hecho investigaciones usando heurísticas lingüísticas o un set de palabras ya clasificadas [Hatzivassiloglou and McKeown, 1997; Turney and Littman, 2002]. [Turney's, 2002] trabajó en clasificación de reviews utilizando aprendizaje no supervisado basado en la información que era encontrada dentro de los documentos, por ejemplo palabras como "bueno" o "malo“. [Pang y Lee, 2002] utilizan conocimiento previo de cada uno de los textos, pudiendo aplicar aprendizaje supervisado. Descripción del proyecto: Estado del arte Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
Máquinas de aprendizaje
Máquinas de aprendizaje: Aprendizaje supervisado Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso Datos de prueba Modelo Precisión Algoritmo de aprendizaje Datos de entrenamiento Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
Máquinas de aprendizaje: Bayes Ingenuo Modelo simple de clasificación [Duda & Hart 1973; Langley et al. 1992] Cada ejemplo observado va a modificar la probabilidad que la hipótesis formulada sea correcta Las palabras en el documento se tratan de forma independiente del contexto Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso Clase Atrib. 1 Atrib. 2 Atrib. n ……. 15 Diciembre de 2010
Máquinas de aprendizaje: Bayes Ingenuo Problema de frecuencia cero: un término que no se encuentre en el documento nos genera una probabilidad de cero. Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso Número de ocurrencias de t en los documentos de entrenamiento de la clase c Número de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c 15 Diciembre de 2010
Máquinas de aprendizaje: Bayes Ingenuo Aplicando Laplacesmoothing = Número de términos del vocabulario de entrenamiento de las dos clases Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010 Número de ocurrencias de t en los documentos de entrenamiento de la clase c Número de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c +
Máquinas de aprendizaje: Bayes Ingenuo ,[object Object]
Muy fácil y rápido de implementar
Bien entendido formal y experimentalmente
Contras:
Pocas veces es el mejor rendimiento
Las ProbabilidadesPr(y|x) no son exactasJorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
Máquinas de aprendizaje: Máquinas de Soporte Vectorial ,[object Object]
Una SVM construye un hiperplano en un conjunto de espacio de dimensionalidad muy alta. Una buena separación entre las clases permitirá una clasificación correctaClase 2 w x + b = 1 m Clase 1 x + b = 0 x + b = -1 Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
Máquinas de aprendizaje: Máquinas de Soporte Vectorial ,[object Object]
La maximización del margen es un importante concepto en clasificación, pero no puede ser usado en problemas del mundo real.
Muchos conjuntos de datos no son linealmente separables
La Solución:
Mapear los datos a un espacio de características de dimensionalidad mayor.Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010 ¿?
Mapear los datos de espacio X en espacio F 15 Diciembre de 2010 Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso Máquinas de aprendizaje: Máquinas de Soporte Vectorial ,[object Object]
Algunas funciones kernel son: Polinómica, Gaussiana, Sigmoidal,[object Object]
Representación de lenguaje natural Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010 Booleano: determina si se encuentra o no la palabra en el documento. Frecuencia de términos (TF): asigna un peso a cada término del documento dependiendo del número de veces que se encuentre en dicho documento. ,[object Object],Total de documentos Número de documentos que contiene el término ,[object Object],[object Object]
Es habitual filtrar las palabras que no tienen sentido semántico (artículos, preposiciones, pronombres, etc.) llamadas stop words. Reducir palabras a su raíz es llamado Stemming el cual agrupa palabras escritas en distinta forma verbal y que tienen un mismo significado 15 Diciembre de 2010 Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso Representación de lenguaje natural bibliotecas bibliotecario bibliotec
Clasificación de texto
Clasificación de texto: Definición Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso Documentos sin etiqueta Modelo Precisión Algoritmo de aprendizaje Documentos etiquetados 15 Diciembre de 2010
Clasificación de texto: Usos ,[object Object]
noticias
email en Spam o no spam.
reviewde películas como positivas, negativas o neutras.
paperscomo interesantes o no interesantes.
chistes como  divertidos o fomes.Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
Clasificación de texto: Ejemplo ARGENTINE 1986/87 GRAIN/OILSEED REGISTRATIONS BUENOS AIRES, Feb 26 Argentine grain board figures show crop registrations of grains, oilseeds and their products to February 11, in thousands of tonnes, showing those for future shipments month, 1986/87 total and 1985/86 total to February 12, 1986, in brackets: ,[object Object]
 Maize Mar 48.0, total 48.0 (nil).
 Sorghum nil (nil)
 Oilseed export registrations were:
Sunflowerseed total 15.0 (7.9)

Weitere ähnliche Inhalte

Ähnlich wie Análisis de sentido en textos

Proyecto terminado miss gaby observaciones
Proyecto terminado miss gaby observacionesProyecto terminado miss gaby observaciones
Proyecto terminado miss gaby observacionesPatty Tb
 
Mt medina batistaproyecto_etwinning
Mt medina batistaproyecto_etwinningMt medina batistaproyecto_etwinning
Mt medina batistaproyecto_etwinningmayte1977
 
Guía de recursos digitales
Guía de recursos digitales Guía de recursos digitales
Guía de recursos digitales DanielaCuenca8
 
Informatica 2 tarea 1
Informatica 2 tarea 1Informatica 2 tarea 1
Informatica 2 tarea 1Ross Vazquez
 
Informatica 2 tarea 1
Informatica 2 tarea 1Informatica 2 tarea 1
Informatica 2 tarea 1AnahiXool
 
Análisis del proyecto
Análisis del proyectoAnálisis del proyecto
Análisis del proyectoSushan Bravo
 
Análisis del proyecto
Análisis del proyectoAnálisis del proyecto
Análisis del proyectoSushan Bravo
 
Recursos, herramientas y posibilidades para hacer (y dar a conocer) la invest...
Recursos, herramientas y posibilidades para hacer (y dar a conocer) la invest...Recursos, herramientas y posibilidades para hacer (y dar a conocer) la invest...
Recursos, herramientas y posibilidades para hacer (y dar a conocer) la invest...Gonzalo Abio
 
Propuestafichatecnicayguiadelalumno
PropuestafichatecnicayguiadelalumnoPropuestafichatecnicayguiadelalumno
PropuestafichatecnicayguiadelalumnoHermelinda2610
 
Informatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaInformatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaAnahiXool
 
Informatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaInformatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaRoss Vazquez
 
Métodos de Evaluación en Ambientes Digitales - Conceptos Basicos - Clase 1/4
Métodos de Evaluación en Ambientes Digitales - Conceptos Basicos - Clase 1/4Métodos de Evaluación en Ambientes Digitales - Conceptos Basicos - Clase 1/4
Métodos de Evaluación en Ambientes Digitales - Conceptos Basicos - Clase 1/4Marcelo Luis Barbosa dos Santos
 
Plantilla ana isabel jamundi
Plantilla ana isabel jamundiPlantilla ana isabel jamundi
Plantilla ana isabel jamundiwilligou
 
Conocer Las Herramientas TecnolóGicas Para La DidáCtica De La Lengua Y La Lit...
Conocer Las Herramientas TecnolóGicas Para La DidáCtica De La Lengua Y La Lit...Conocer Las Herramientas TecnolóGicas Para La DidáCtica De La Lengua Y La Lit...
Conocer Las Herramientas TecnolóGicas Para La DidáCtica De La Lengua Y La Lit...José Rovira Collado
 
Virtual Educa 2009. MF Business English
Virtual Educa 2009. MF Business English Virtual Educa 2009. MF Business English
Virtual Educa 2009. MF Business English Ana María Andrada
 
Producto integrador matemática
Producto integrador matemáticaProducto integrador matemática
Producto integrador matemáticaJackelineescobar
 

Ähnlich wie Análisis de sentido en textos (20)

Proyecto terminado miss gaby observaciones
Proyecto terminado miss gaby observacionesProyecto terminado miss gaby observaciones
Proyecto terminado miss gaby observaciones
 
Mt medina batistaproyecto_etwinning
Mt medina batistaproyecto_etwinningMt medina batistaproyecto_etwinning
Mt medina batistaproyecto_etwinning
 
Guía de recursos digitales
Guía de recursos digitales Guía de recursos digitales
Guía de recursos digitales
 
Informatica 2 tarea 1
Informatica 2 tarea 1Informatica 2 tarea 1
Informatica 2 tarea 1
 
Informatica 2 tarea 1
Informatica 2 tarea 1Informatica 2 tarea 1
Informatica 2 tarea 1
 
Ingles Técnico II Informática
Ingles Técnico II InformáticaIngles Técnico II Informática
Ingles Técnico II Informática
 
Análisis del proyecto
Análisis del proyectoAnálisis del proyecto
Análisis del proyecto
 
Análisis del proyecto
Análisis del proyectoAnálisis del proyecto
Análisis del proyecto
 
Recursos, herramientas y posibilidades para hacer (y dar a conocer) la invest...
Recursos, herramientas y posibilidades para hacer (y dar a conocer) la invest...Recursos, herramientas y posibilidades para hacer (y dar a conocer) la invest...
Recursos, herramientas y posibilidades para hacer (y dar a conocer) la invest...
 
Propuestafichatecnicayguiadelalumno
PropuestafichatecnicayguiadelalumnoPropuestafichatecnicayguiadelalumno
Propuestafichatecnicayguiadelalumno
 
Informatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaInformatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregida
 
Informatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaInformatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregida
 
Software Educativo
Software EducativoSoftware Educativo
Software Educativo
 
Proyecto de aprendizaje
Proyecto de aprendizaje Proyecto de aprendizaje
Proyecto de aprendizaje
 
Métodos de Evaluación en Ambientes Digitales - Conceptos Basicos - Clase 1/4
Métodos de Evaluación en Ambientes Digitales - Conceptos Basicos - Clase 1/4Métodos de Evaluación en Ambientes Digitales - Conceptos Basicos - Clase 1/4
Métodos de Evaluación en Ambientes Digitales - Conceptos Basicos - Clase 1/4
 
Plantilla ana isabel jamundi
Plantilla ana isabel jamundiPlantilla ana isabel jamundi
Plantilla ana isabel jamundi
 
Conocer Las Herramientas TecnolóGicas Para La DidáCtica De La Lengua Y La Lit...
Conocer Las Herramientas TecnolóGicas Para La DidáCtica De La Lengua Y La Lit...Conocer Las Herramientas TecnolóGicas Para La DidáCtica De La Lengua Y La Lit...
Conocer Las Herramientas TecnolóGicas Para La DidáCtica De La Lengua Y La Lit...
 
Buscart
BuscartBuscart
Buscart
 
Virtual Educa 2009. MF Business English
Virtual Educa 2009. MF Business English Virtual Educa 2009. MF Business English
Virtual Educa 2009. MF Business English
 
Producto integrador matemática
Producto integrador matemáticaProducto integrador matemática
Producto integrador matemática
 

Kürzlich hochgeladen

Biografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdfBiografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdfGruberACaraballo
 
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...Ars Erótica
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptAlberto Rubio
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024IES Vicent Andres Estelles
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024IES Vicent Andres Estelles
 
La Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración AmbientalLa Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración AmbientalJonathanCovena1
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...JAVIER SOLIS NOYOLA
 
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIASISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIAFabiolaGarcia751855
 
Actividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxActividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxpaogar2178
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesMarisolMartinez707897
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfcarolinamartinezsev
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docxEliaHernndez7
 
Desarrollo y Aplicación de la Administración por Valores
Desarrollo y Aplicación de la Administración por ValoresDesarrollo y Aplicación de la Administración por Valores
Desarrollo y Aplicación de la Administración por ValoresJonathanCovena1
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfRaulGomez822561
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxiemerc2024
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfMercedes Gonzalez
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONamelia poma
 

Kürzlich hochgeladen (20)

Biografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdfBiografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdf
 
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
La Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración AmbientalLa Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración Ambiental
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
 
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIASISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
 
Actividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxActividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docx
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtuales
 
Power Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptxPower Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptx
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
Usos y desusos de la inteligencia artificial en revistas científicas
Usos y desusos de la inteligencia artificial en revistas científicasUsos y desusos de la inteligencia artificial en revistas científicas
Usos y desusos de la inteligencia artificial en revistas científicas
 
Desarrollo y Aplicación de la Administración por Valores
Desarrollo y Aplicación de la Administración por ValoresDesarrollo y Aplicación de la Administración por Valores
Desarrollo y Aplicación de la Administración por Valores
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
 
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
 

Análisis de sentido en textos

  • 1. Análisis de sentido en textos Alumno: Jorge Gálvez Gajardo Profesor Guía: Rodrigo Alfaro Arancibia Profesor Correferente: Guillermo Cabrera Guerrero
  • 2. Descripción del proyecto Introducción Objetivos Estado del arte Máquinas de aprendizaje Bayes ingenuo Máquinas de soporte vectorial Representación de lenguaje natural Clasificación de texto Software Caso de estudio Conclusiones y trabajo futuro Contenido Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 4. Las opiniones tienen un impacto muy relevante en nuestra vida diaria. Gran cantidad de organizaciones e industrias están interesadas en estas opiniones Cada vez hay más fuentes desde donde se pude obtener todas estas opiniones Toda esta información no puede ser procesada por una persona o un grupo de personas Opinion Mining es una disciplina que mezcla la recuperación de información y la lingüística computacional. Descripción del proyecto: Introducción Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso “La opinión pública es el termómetro de un monarca al cual debe constantemente consultar” Napoleón Bonaparte 15 Diciembre de 2010
  • 5. Objetivo General: Utilizar Máquinas de Aprendizaje para categorizar textos en positivo o negativo, según sea su sentido. Objetivos Específicos: Utilizar Máquinas de Aprendizaje, eligiendo Bayes Ingenuo y Máquinas de Soporte Vectorial como técnicas para clasificar en positivo o negativo, según sea su sentido, distintos textos extraídos de comentarios sobre películas. Desplegar resultados obtenidos y comparar técnicas utilizadas con el fin de analizar cual forma es la más eficiente para determinado tipo de texto. Habilitar una interfaz web en la cual se puedan almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido. Descripción del proyecto:Objetivos Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 6. Se han hecho investigaciones usando heurísticas lingüísticas o un set de palabras ya clasificadas [Hatzivassiloglou and McKeown, 1997; Turney and Littman, 2002]. [Turney's, 2002] trabajó en clasificación de reviews utilizando aprendizaje no supervisado basado en la información que era encontrada dentro de los documentos, por ejemplo palabras como "bueno" o "malo“. [Pang y Lee, 2002] utilizan conocimiento previo de cada uno de los textos, pudiendo aplicar aprendizaje supervisado. Descripción del proyecto: Estado del arte Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 8. Máquinas de aprendizaje: Aprendizaje supervisado Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso Datos de prueba Modelo Precisión Algoritmo de aprendizaje Datos de entrenamiento Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 9. Máquinas de aprendizaje: Bayes Ingenuo Modelo simple de clasificación [Duda & Hart 1973; Langley et al. 1992] Cada ejemplo observado va a modificar la probabilidad que la hipótesis formulada sea correcta Las palabras en el documento se tratan de forma independiente del contexto Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso Clase Atrib. 1 Atrib. 2 Atrib. n ……. 15 Diciembre de 2010
  • 10. Máquinas de aprendizaje: Bayes Ingenuo Problema de frecuencia cero: un término que no se encuentre en el documento nos genera una probabilidad de cero. Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso Número de ocurrencias de t en los documentos de entrenamiento de la clase c Número de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c 15 Diciembre de 2010
  • 11. Máquinas de aprendizaje: Bayes Ingenuo Aplicando Laplacesmoothing = Número de términos del vocabulario de entrenamiento de las dos clases Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010 Número de ocurrencias de t en los documentos de entrenamiento de la clase c Número de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c +
  • 12.
  • 13. Muy fácil y rápido de implementar
  • 14. Bien entendido formal y experimentalmente
  • 16. Pocas veces es el mejor rendimiento
  • 17. Las ProbabilidadesPr(y|x) no son exactasJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 18.
  • 19. Una SVM construye un hiperplano en un conjunto de espacio de dimensionalidad muy alta. Una buena separación entre las clases permitirá una clasificación correctaClase 2 w x + b = 1 m Clase 1 x + b = 0 x + b = -1 Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 20.
  • 21. La maximización del margen es un importante concepto en clasificación, pero no puede ser usado en problemas del mundo real.
  • 22. Muchos conjuntos de datos no son linealmente separables
  • 24. Mapear los datos a un espacio de características de dimensionalidad mayor.Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010 ¿?
  • 25.
  • 26.
  • 27.
  • 28. Es habitual filtrar las palabras que no tienen sentido semántico (artículos, preposiciones, pronombres, etc.) llamadas stop words. Reducir palabras a su raíz es llamado Stemming el cual agrupa palabras escritas en distinta forma verbal y que tienen un mismo significado 15 Diciembre de 2010 Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso Representación de lenguaje natural bibliotecas bibliotecario bibliotec
  • 30. Clasificación de texto: Definición Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso Documentos sin etiqueta Modelo Precisión Algoritmo de aprendizaje Documentos etiquetados 15 Diciembre de 2010
  • 31.
  • 33. email en Spam o no spam.
  • 34. reviewde películas como positivas, negativas o neutras.
  • 35. paperscomo interesantes o no interesantes.
  • 36. chistes como divertidos o fomes.Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 37.
  • 38. Maize Mar 48.0, total 48.0 (nil).
  • 40. Oilseed export registrations were:
  • 42. Soybean May 20.0, total 20.0 (nil)The board also detailed export registrations for subproducts, as follows.... Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 43.
  • 44. Maize Mar 48.0, total 48.0 (nil).
  • 46. Oilseed export registrations were:
  • 48. Soybean May 20.0, total 20.0 (nil)The board also detailed export registrations for subproducts, as follows.... ? ¿Cual es la mejor representación del documento X para poder ser clasificado? Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 49.
  • 50. Maize Mar 48.0, total 48.0 (nil).
  • 52. Oilseed export registrations were:
  • 54. Soybean May 20.0, total 20.0 (nil)The board also detailed export registrations for subproducts, as follows.... Clasificación de texto: Lista de palabras f( )=y (argentine, 1986, 1987, grain, oilseed, registrations, buenos, aires, feb, 26, argentine, grain, board, figures, show, crop, registrations, of, grains, oilseeds, and, their, products, to, february, 11, in, … Refinamiento: remover stop words, stemming. Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 55.
  • 56. Maize Mar 48.0, total 48.0 (nil).
  • 60. Soybean May 20.0, total 20.0 (nil)The board also detailed export registrations for subproducts, as follows.... Si el orden de las palabras no importa, x puede ser un vector de frecuencias de palabras “Bag of words”: un vector x=(,…,fi,….) donde fi es la frecuencia de la i-esima palabra en el vocabulario Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 62. Se desarrolla una interfaz utilizando HTML y PHP para pre procesar los textos, obtener la precisión de Bayes Ingenuo y elegir los parámetros de los distintos kernels en la máquina de soporte vectorial utilizada. Los textos analizados se almacenan en una base de datos MySQL Se utiliza LibSVM [Chih-Chung Chang and Chih-Jen Lin, 2001-2010] para el procesamiento de textos mediante máquinas de soporte vectorial. Software Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010 NB Elección NB/SVM Entrego resultados Inicio BD BD Obtengo resultados Elección parámetros LibSVM
  • 63. Software:Caso de uso de alto nivel Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 64. Software:Modelo base de datos Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 66. Se examinará la eficiencia de aplicar técnicas de máquinas de aprendizaje a problemas de clasificación de sentido. Set de datos: Utilizado por [Pang y Lee, 2002] consiste en 1000 reviews positivos y 1000 reviews negativos el cual son comentarios de películas obtenidos de imdb.com Aplicando técnicas de máquinas de aprendizaje se clasificará su sentido (positivo o negativo) Caso de estudio Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 67. Caso de estudio:Set de datos Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 68. Caso de estudio:Resultado obtenido Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 69. Bayes ingenuo tiende a tener relativamente menor precisión que máquinas de soporte vectorial Bayes ingenuo es de más fácil implementación Máquinas de soporte vectorial es de mayor complejidad Temas que quedan por verificar: ¿Cómo enfrentar las preguntas dentro de un texto? ¿Cómo enfrentar las comparaciones dentro de un texto? ¿Cómo enfrentar las negaciones dentro de un texto? Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso Caso de estudio:Discusión 15 Diciembre de 2010
  • 71. Se han obtenido resultados satisfactorios de acuerdo a la utilización de las dos técnicas de aprendizaje supervisado. En clasificación de opiniones la representación del texto juega un papel importante en el análisis. Se ha desarrollado satisfactoriamente el software, el cual ajusta automáticamente los parámetros para obtener el mejor resultado y almacenar el modelo generado. En el futuro es posible utilizar aprendizaje no supervisado o semi supervisado al no contar con la gran mayoría de textos etiquetados desde Internet. En el futuro lograr descomponer y analizar las frases encontradas dentro de un texto ayudaría un análisis más detallado. Conclusiones y trabajo futuro Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso 15 Diciembre de 2010
  • 73. Referencias 15 Diciembre de 2010 Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso
  • 74. VasileiosHatzivassiloglou and Kathleen R. McKeown. "Predicting the Semantic Orientation of Adjectives". In Proceedings of the 35th Annual Meeting of the ACL and the 8th Conference of the European Chapter of the ACL, pages 174–181, Madrid, Spain, July 1997. Association for Computational Linguistics Turney, P.D., and Littman, M.L. (2002), Unsupervised Learning of Semantic Orientation from a Hundred-Billion-Word Corpus, National Research Council, Institute for Information Technology, Technical Report ERB-1094 Turney, P.D. (2002), Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL'02), Philadelphia, Pennsylvania, 417-424 15 Diciembre de 2010 Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso Referencias
  • 75. Thumbs up? SentimentClassificationusing Machine LearningTechniques  BoPang, Lillian Lee, and ShivakumarVaithyanathan.  Proceedings of theConferenceonEmpiricalMethods in Natural LanguageProcessing (EMNLP), pp. 79--86, 2002 Duda, R. O. and Hart, P. E. (1973).  Pattern Classification and Scene Analysis.  Wiley. Pat Langley, Wayne Iba, Kevin Thompson. An Analysis of Bayesian Classifiers. In Proceedings of AAAI'1992. pp.223~228    VAPNIK…, V., The Nature of Statistical Learning Theory. 1995. NY Springer. Gerard M. Salton, A. Wong, and C. S. Yang. (1975). "A Vector Space Model for Automatic Indexing." In: Communications of the ACM Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm 15 Diciembre de 2010 Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso Referencias