SlideShare ist ein Scribd-Unternehmen logo
1 von 20
Evaluación de diferentes estrategias de muestreo para tratar
el problema de la construcción del diccionario para un
clasificador Naïves Bayes de tuits.
Francisco Berrizbeitia
Noviembre 2014
Queremos encontrar una manera automática de
clasificar Tuits
Machine Learning: Clasificadores automáticos
Agenda
• Bag Of Words
• El problema de la selección de atributos o generación del
diccionario
• Preprocesamiento:
– Eliminación de ruido
– Eliminación de terminaciones
• Descripción de los datos
• Descripción de método propuesto
• Resultados
• Observaciones
• Conclusiones
Bag of Words
El tratamiento de tuits en un contexto de
clasificación se realiza utilizando la técnica de
«Bag Of Words»
Bag of words
Selección de atributos
Uno de los problemas al trabajar con esta técnica es el que el
número de dimensiones puede llegar a ser demasiado
grande.
Quisiéramos construir un diccionario con el menor número de
palabras posibles que nos permita tener una cobertura de al
menos 2 palabras para cada tuit
Construcción del diccionario
Para atacar este problema primeros se eliminar las palabras
muy comunes que no aportaran ningún valor discriminatorio
(Stopwords).
Obama administration would back sanctions against Venezuela: official - Reuters
http:t.cor1diiCGDhn
obama administration back sanctions venezuela official
Construcción del diccionario
Un segundo paso consiste el eliminar las terminaciones
(Stemming) tratando de encontrar las raíces de las palabras.
Obama administration would back sanctions against Venezuela: official - Reuters
http:t.cor1diiCGDhn
obama administration back sanctions venezuela official
obama administr back sanction venezuela offici
Existen varia técnicas para hacer esto, nosotros utilizamos el
algoritmo de Porter
Planteamiento del problema
Queremos responder las siguientes preguntas:
• ¿Cuántos tuits necesito para construir un diccionario que
me garantice una buena cobertura?
• ¿La calidad del diccionario en términos de cobertura
variará si el conjunto de tuits para crear el diccionario se
toma utilizando MAS o Estratificando por temas?
Método Utilizado
Para obtener el número
de tuits que requerimos
para el diccionario,
diseñamos e
implementamos el
siguiente algoritmo.
Método Utilizado
Una vez obtenido el número de tuits utilizando el algoritmo
anterior , generamos un diccionario utilizando MAS y uno
realizando muestreo estratificado por temas.
Para medir la calidad del diccionario se obtuvieron varias
muestras de 100 mensajes (Utilizando MAS) y se cuantifico la
cobertura sobre la muestra.
Descripción de los datos
• Se recuperaron 6793 tuits, en idioma ingles, creados entre
el 18 y el 20 de Noviembre sobre los siguientes temas
• Obama: 1000
• ukraine: 681
• ISIS: 547
• New York: 1080
• Siria: 119
• FARC: 102
• Venezuela: 450
• London: 862
• gunman: 627
• ferguson: 754
• amnesty: 571
Descripción de los datos
• Sobre este conjunto de datos se realizo un MAS de 3000
elementos para asegurar la aleatoriedad de la población
• A los mensajes de esta nueva población se le aplicaron los
procesos de reducción de ruido y stemming.
• Todos los experimentos se hicieron sobre los mensajes sin
Stop Words y Stemmed
Resultados
Se corrió el algoritmo cuatro veces variando los parámetros
de ganancia de información y el umbral de parada.
5 tuits seguidos aportaron menos de 2
palabras nuevas al diccionario
Resultados
Se genero un diccionario realizando un MAS de 234 tuits
sobre la población y se cuantifico la cobertura en 5 muestras
independientes de la misma población.
Resultados
Se genero otro diccionario realizando un muestreo
estratificado por temas de 234 tuits sobre la población y se
cuantifico la cobertura en 5 muestras independientes de la
misma población.
La cantidad de tuits a tomar por estrato se calculo de la siguiente manera:
1. Se calculo un peso para cada estrato dentro de la población dividiendo el número de tuits en el tema entre el total poblacional
2. La cantidad de tuits por estrato es el tamaño de la muetra por el peso del estrato.
Resultados
Ambos diccionarios de comportan de manera muy similar
Resultados
La tasa de cobertura es ligeramente mejor para el diccionario
generado a través de un MAS
Conclusiones
• Al parecer es posible construir un diccionario con una
cobertura superior al 95% con unos 240 tuits generando
un diccionario de cerca de 1100 entradas.
• Estratificar por temas no aporta ninguna ganancia en la
construcción del diccionario.
Gracias
Francisco Berrizbeitia
Noviembre 2014

Weitere ähnliche Inhalte

Ähnlich wie Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

Aplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANAplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESAN
Yabed Contreras Zambrano
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
mercenaries128
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
mercenaries128
 
Busqueda de la informacion en internet susy
Busqueda de la informacion en internet susyBusqueda de la informacion en internet susy
Busqueda de la informacion en internet susy
susana030198
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
Tania Gabriela
 
Unidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la informaciónUnidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la información
Eduardo Mendez
 

Ähnlich wie Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits (20)

Aplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANAplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESAN
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internet
 
Busqueda de informacion en internet
Busqueda de informacion en internet Busqueda de informacion en internet
Busqueda de informacion en internet
 
Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internet
 
1.busquedad de informacion en internet
1.busquedad  de informacion en internet1.busquedad  de informacion en internet
1.busquedad de informacion en internet
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Busqueda de la informacion en internet
Busqueda de la informacion en internet Busqueda de la informacion en internet
Busqueda de la informacion en internet
 
Busqueda de la informacion en internet susy
Busqueda de la informacion en internet susyBusqueda de la informacion en internet susy
Busqueda de la informacion en internet susy
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
1. Búsqueda de información en internet
1.  Búsqueda de información en internet1.  Búsqueda de información en internet
1. Búsqueda de información en internet
 
Unidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la informaciónUnidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la información
 
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
 
Cómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitalesCómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitales
 
Búsqueda de la información en Internet. Capítulo 1.
 Búsqueda de la información en Internet. Capítulo 1. Búsqueda de la información en Internet. Capítulo 1.
Búsqueda de la información en Internet. Capítulo 1.
 
Búsqueda de información en internet
Búsqueda de información en internetBúsqueda de información en internet
Búsqueda de información en internet
 

Mehr von Francisco Berrizbeitia

Trabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimediaTrabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimedia
Francisco Berrizbeitia
 
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Francisco Berrizbeitia
 
Formación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en manoFormación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en mano
Francisco Berrizbeitia
 
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisualTrabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
Francisco Berrizbeitia
 
Emprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exitoEmprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exito
Francisco Berrizbeitia
 

Mehr von Francisco Berrizbeitia (20)

News construction from microblogging posts using open data
News construction from microblogging posts using open data News construction from microblogging posts using open data
News construction from microblogging posts using open data
 
News construction from microblogging post using open data
News construction from microblogging post using open dataNews construction from microblogging post using open data
News construction from microblogging post using open data
 
Autosimilaridad en vinculaciones
Autosimilaridad en vinculacionesAutosimilaridad en vinculaciones
Autosimilaridad en vinculaciones
 
Vinculaciones autosimilares
Vinculaciones autosimilaresVinculaciones autosimilares
Vinculaciones autosimilares
 
Trabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimediaTrabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimedia
 
Introducción al el mercadeo en Internet
Introducción al el mercadeo en InternetIntroducción al el mercadeo en Internet
Introducción al el mercadeo en Internet
 
¿ Cómo empezar con mi sitio web?
¿ Cómo empezar con mi sitio web?¿ Cómo empezar con mi sitio web?
¿ Cómo empezar con mi sitio web?
 
2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuela2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuela
 
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...
 
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
 
Formación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en manoFormación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en mano
 
Listado de cursos manual rse
Listado de cursos manual rseListado de cursos manual rse
Listado de cursos manual rse
 
Text mining
Text miningText mining
Text mining
 
AID Aprendizaje - Nosotros
AID Aprendizaje - NosotrosAID Aprendizaje - Nosotros
AID Aprendizaje - Nosotros
 
Keylight ae user guide
Keylight ae user guideKeylight ae user guide
Keylight ae user guide
 
Personalizacion de blogspot
Personalizacion de blogspotPersonalizacion de blogspot
Personalizacion de blogspot
 
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisualTrabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
 
Clase 3 estrategias de difusion
Clase 3   estrategias de difusionClase 3   estrategias de difusion
Clase 3 estrategias de difusion
 
Emprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exitoEmprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exito
 
Clase02
Clase02Clase02
Clase02
 

Kürzlich hochgeladen

Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdfAlthusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
frank0071
 
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
llacza2004
 
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdfGribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
frank0071
 
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdfHobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
frank0071
 
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, eppIAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
CatalinaSezCrdenas
 

Kürzlich hochgeladen (20)

Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdfAlthusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
 
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
 
Fresas y sistemas de pulido en odontología
Fresas y sistemas de pulido en odontologíaFresas y sistemas de pulido en odontología
Fresas y sistemas de pulido en odontología
 
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
 
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
 
Pelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibrasPelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibras
 
La Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vidaLa Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vida
 
2. Hormonas y Ciclo estral de los animales
2. Hormonas y Ciclo estral de los animales2. Hormonas y Ciclo estral de los animales
2. Hormonas y Ciclo estral de los animales
 
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdfGribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando Python
 
Perfiles NEUROPSI Atención y Memoria 6 a 85 Años (AyM).pdf
Perfiles NEUROPSI Atención y Memoria 6 a 85 Años (AyM).pdfPerfiles NEUROPSI Atención y Memoria 6 a 85 Años (AyM).pdf
Perfiles NEUROPSI Atención y Memoria 6 a 85 Años (AyM).pdf
 
Glaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdfGlaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdf
 
CASO CLÍNICO INFECCIONES Y TUMORES.pptx
CASO CLÍNICO INFECCIONES Y TUMORES.pptxCASO CLÍNICO INFECCIONES Y TUMORES.pptx
CASO CLÍNICO INFECCIONES Y TUMORES.pptx
 
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdfHobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
 
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, eppIAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
 
Moda colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendasModa colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendas
 
el amor en los tiempos del colera (resumen).pptx
el amor en los tiempos del colera (resumen).pptxel amor en los tiempos del colera (resumen).pptx
el amor en los tiempos del colera (resumen).pptx
 
Mapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdfMapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdf
 
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptxMapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
 
La señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malosLa señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malos
 

Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

  • 1. Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción del diccionario para un clasificador Naïves Bayes de tuits. Francisco Berrizbeitia Noviembre 2014
  • 2. Queremos encontrar una manera automática de clasificar Tuits Machine Learning: Clasificadores automáticos
  • 3. Agenda • Bag Of Words • El problema de la selección de atributos o generación del diccionario • Preprocesamiento: – Eliminación de ruido – Eliminación de terminaciones • Descripción de los datos • Descripción de método propuesto • Resultados • Observaciones • Conclusiones
  • 4. Bag of Words El tratamiento de tuits en un contexto de clasificación se realiza utilizando la técnica de «Bag Of Words»
  • 6. Selección de atributos Uno de los problemas al trabajar con esta técnica es el que el número de dimensiones puede llegar a ser demasiado grande. Quisiéramos construir un diccionario con el menor número de palabras posibles que nos permita tener una cobertura de al menos 2 palabras para cada tuit
  • 7. Construcción del diccionario Para atacar este problema primeros se eliminar las palabras muy comunes que no aportaran ningún valor discriminatorio (Stopwords). Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn obama administration back sanctions venezuela official
  • 8. Construcción del diccionario Un segundo paso consiste el eliminar las terminaciones (Stemming) tratando de encontrar las raíces de las palabras. Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn obama administration back sanctions venezuela official obama administr back sanction venezuela offici Existen varia técnicas para hacer esto, nosotros utilizamos el algoritmo de Porter
  • 9. Planteamiento del problema Queremos responder las siguientes preguntas: • ¿Cuántos tuits necesito para construir un diccionario que me garantice una buena cobertura? • ¿La calidad del diccionario en términos de cobertura variará si el conjunto de tuits para crear el diccionario se toma utilizando MAS o Estratificando por temas?
  • 10. Método Utilizado Para obtener el número de tuits que requerimos para el diccionario, diseñamos e implementamos el siguiente algoritmo.
  • 11. Método Utilizado Una vez obtenido el número de tuits utilizando el algoritmo anterior , generamos un diccionario utilizando MAS y uno realizando muestreo estratificado por temas. Para medir la calidad del diccionario se obtuvieron varias muestras de 100 mensajes (Utilizando MAS) y se cuantifico la cobertura sobre la muestra.
  • 12. Descripción de los datos • Se recuperaron 6793 tuits, en idioma ingles, creados entre el 18 y el 20 de Noviembre sobre los siguientes temas • Obama: 1000 • ukraine: 681 • ISIS: 547 • New York: 1080 • Siria: 119 • FARC: 102 • Venezuela: 450 • London: 862 • gunman: 627 • ferguson: 754 • amnesty: 571
  • 13. Descripción de los datos • Sobre este conjunto de datos se realizo un MAS de 3000 elementos para asegurar la aleatoriedad de la población • A los mensajes de esta nueva población se le aplicaron los procesos de reducción de ruido y stemming. • Todos los experimentos se hicieron sobre los mensajes sin Stop Words y Stemmed
  • 14. Resultados Se corrió el algoritmo cuatro veces variando los parámetros de ganancia de información y el umbral de parada. 5 tuits seguidos aportaron menos de 2 palabras nuevas al diccionario
  • 15. Resultados Se genero un diccionario realizando un MAS de 234 tuits sobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población.
  • 16. Resultados Se genero otro diccionario realizando un muestreo estratificado por temas de 234 tuits sobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población. La cantidad de tuits a tomar por estrato se calculo de la siguiente manera: 1. Se calculo un peso para cada estrato dentro de la población dividiendo el número de tuits en el tema entre el total poblacional 2. La cantidad de tuits por estrato es el tamaño de la muetra por el peso del estrato.
  • 17. Resultados Ambos diccionarios de comportan de manera muy similar
  • 18. Resultados La tasa de cobertura es ligeramente mejor para el diccionario generado a través de un MAS
  • 19. Conclusiones • Al parecer es posible construir un diccionario con una cobertura superior al 95% con unos 240 tuits generando un diccionario de cerca de 1100 entradas. • Estratificar por temas no aporta ninguna ganancia en la construcción del diccionario.