Matriz de integración de tecnologías- Paola Carvajal.docx
Desarrollo de una herramienta de planificación social media
1. Pablo Aragón Asenjo
Director: Íñigo García Morte
Ponente: Fernando Tricas García
Julio de 2010
DESARROLLO DE UNA HERRAMIENTA
DE PLANIFICACIÓN SOCIAL MEDIA
EN LA BLOGOSFERA ESPAÑOLA
9. 1. Adquirir el conocimiento necesario en las tecnologías Amazon
EC2, Hadoop, Nutch, Lucene y Solr
2. Implementar un sistema de rastreo de la blogosfera española,
extracción de entidades de posts e indexación de las mismas
3. Desarrollar un sistema de agrupamiento de posts en
conversaciones
INTRODUCCIÓN
BLOGOSFERA
ARQUITECTURA
RESULTADOS
CONTEXTO
OBJETIVOS
Contexto: Objetivos
16. Amazon EC2 es el servicio de
computación en nube
perteneciente a Amazon
Servidores y discos duros
configurables
Plataforma escalable de
almacenamiento, transferencia
y computación bajo demanda
INTRODUCCIÓN
BLOGOSFERA
ARQUITECTURA
RESULTADOS
DISEÑO DISTRIBUIDO
RASTREO
EXTRACCIÓN
INDEXACIÓN
AGRUPAMIENTO
Diseño distribuido: Amazon EC2
21. Diseño distribuido: Argumentos a favor de Hadoop
DISEÑO DISTRIBUIDO
RASTREO
EXTRACCIÓN
INDEXACIÓN
AGRUPAMIENTO
• Alta tolerancia a fallos
• Gestión de memoria
• Coste económico
• Comparación con otras tecnologías
INTRODUCCIÓN
BLOGOSFERA
ARQUITECTURA
RESULTADOS
22. Diseño distribuido: Módulos del sistema
DISEÑO DISTRIBUIDO
RASTREO
EXTRACCIÓN
INDEXACIÓN
AGRUPAMIENTO
INTRODUCCIÓN
BLOGOSFERA
ARQUITECTURA
RESULTADOS
24. Filtros positivos y negativos de URLS
Identificador del motor
Retardo entre consultas sucesivas
Volumen y concurrencia de los threads
Módulo de rastreo: Parámetros de configuración
DISEÑO DISTRIBUIDO
RASTREO
EXTRACCIÓN
INDEXACIÓN
AGRUPAMIENTO
INTRODUCCIÓN
BLOGOSFERA
ARQUITECTURA
RESULTADOS
25. 1. Distinción entre URLS de blogs y posts
2. Relevancia social del blog
3. Frecuencia de publicación
4. Idioma
Módulo de rastreo: Factores de rastreo
DISEÑO DISTRIBUIDO
RASTREO
EXTRACCIÓN
INDEXACIÓN
AGRUPAMIENTO
INTRODUCCIÓN
BLOGOSFERA
ARQUITECTURA
RESULTADOS
26. Detector de frecuencias de publicación
Identificación de la frecuencia de blogs
Mecanismo de expiración de posts
Detección de idiomas basado en n-gramas
Inclusión de metainformación en CrawldB
Lenguaje
Número de consultas
Herramientas de gestión de CrawlDb
Módulo de rastreo: Implementaciones sobre Nutch
DISEÑO DISTRIBUIDO
RASTREO
EXTRACCIÓN
INDEXACIÓN
AGRUPAMIENTO
INTRODUCCIÓN
BLOGOSFERA
ARQUITECTURA
RESULTADOS
28. Módulo de extracción
DISEÑO DISTRIBUIDO
RASTREO
EXTRACCIÓN
INDEXACIÓN
AGRUPAMIENTO
INTRODUCCIÓN
BLOGOSFERA
ARQUITECTURA
RESULTADOS
Extracción de las entidades de un post
XPath
Densidad de texto en el HTML
29. Módulo de indexación
DISEÑO DISTRIBUIDO
RASTREO
EXTRACCIÓN
INDEXACIÓN
AGRUPAMIENTO
Búsqueda a texto completo
Ordenación de resultados
Lematización de tokens
Filtrado de palabras frecuentes
Interfaz web de administración
Replicación de índices
INTRODUCCIÓN
BLOGOSFERA
ARQUITECTURA
RESULTADOS
30. El módulo de agrupamiento realiza:
1. Tokenización de entidades
2. Generación de una matrices de tokens y distancias
3. Algoritmo de clusterización
Los resultados corresponden con las conversaciones que
forman los posts
Módulo de agrupamiento
DISEÑO DISTRIBUIDO
RASTREO
EXTRACCIÓN
INDEXACIÓN
AGRUPAMIENTO
INTRODUCCIÓN
BLOGOSFERA
ARQUITECTURA
RESULTADOS