Jornada "1 año de Aragón Open Data" celebrada el 6 de febrero de 2014. Presentación de Gonzalo Ruiz, Director de Proyecto en Instituto Universitario de Investigación de Biocomputación y Física de Sistemas Complejos. Presentando "Aragón Open Social Data"
2. Qué es el BIFI
• Instituto de Biocomputación y Física de
Sistemas Complejos de la Universidad de
Zaragoza
• Multidisciplinariedad
– Bioquímica
– Física
– Computación
6 de febrero de 2014
Open Social Data - Escucha Activa
2
3. Análisis de redes complejas
• Grafo con una serie de características
especiales (estructura en comunidades,
jerarquía, etc.)
• Las redes sociales (Facebook, Twitter, …)
• Se pueden utilizar para extraer información
sobre la sociedad
• Experimentos dilema del prisionero, análisis
del movimiento del 15m, Kampal, etc.
6 de febrero de 2014
Open Social Data - Escucha Activa
3
4. Escucha activa en Aragón
• ¿De qué se habla en Aragón?
• ¿Qué es importante para los aragoneses?
• ¿Qué puede resultar interesante para los
aragoneses?
• ¿En qué se diferencian los aragoneses del resto
de España?
• …
6 de febrero de 2014
Open Social Data - Escucha Activa
4
5. Redes sociales a capturar
• Microblogging
– Twitter
• Vídeo
– Youtube
• Imagen
– Instagram
• Eventos
– Facebook, otras webs de eventos
• Se irán añadiendo RSS, blogs, otras redes
sociales…
6 de febrero de 2014
Open Social Data - Escucha Activa
5
6. Qué datos se capturan
• Siempre datos públicos
• Cualquier usuario puede encontrar por sus
propios medios
• Se puede eliminar contenido
• Se puede solicitar que un usuario deje de ser
escuchado
6 de febrero de 2014
Open Social Data - Escucha Activa
6
7. Criterios de captura
• Geoposición
– Dentro de Aragón
– Zonas colindantes
– Municipios
• Palabras/usuarios clave
– Temas de interés
– Usuarios relevantes para Aragón
– Se realimentan y actualizan con los datos
geoposicionados
6 de febrero de 2014
Open Social Data - Escucha Activa
7
9. Criterios de captura III
6 de febrero de 2014
Open Social Data - Escucha Activa
9
10. 6 de febrero de 2014
Open Social Data - Escucha Activa
10
11. Cómo se captura
• Normalmente el usuario ve la información a
través de un navegador
• Necesitamos grandes volúmenes de
información
• Filtrado por diferentes criterios
• Herramientas que las redes sociales y otras
webs proveen
• Límites
6 de febrero de 2014
Open Social Data - Escucha Activa
11
12. Cómo se captura II
• Robots llamados arañas, web crawlers,
scrappers…
• Simulan las visitas que muchos
usuarios harían
• Cada uno se ocupa de una tarea
– Una red social
– Cierta información
• Centralizan la información
– Filtran y “uniformizan”
6 de febrero de 2014
Open Social Data - Escucha Activa
12
13. Cómo se filtra la información
• Se solicitan sólo los campos que nos interesan, se
eliminan el resto
• 2 tipos: streaming o periódicas
• Las arañas no saben qué contenido es bueno o
malo
– Se captura mucho ruido, especialmente al buscar por
palabra clave
– No se deben de usar palabras demasiado cortas o sin
significado (preposiciones, artículos…)
– Hay que tener cuidado con otros idiomas. Ej: CAI, USJ
6 de febrero de 2014
Open Social Data - Escucha Activa
13
14. Cómo se almacena
• Todos los datos son guardados en una gran
base de datos distribuida
• La cantidad de información capturada es
importante
• En torno a 10 GB al mes, que se reducen a un
1 GB al filtrar
• Unas 250.000 entradas al mes entre vídeos,
fotos, mensajes, etc.
6 de febrero de 2014
Open Social Data - Escucha Activa
14
15. Cómo se accede a la
información
• ¿Qué es una API?
Internet
6 de febrero de 2014
Open Social Data - Escucha Activa
15
16. Cómo usar nuestra API
• Peticiones HTTP como las que hace cualquier
navegador
• El usuario sólo tiene que indicar qué datos
desea obtener y cómo los quiere filtrar
– Dirección (/trendings o /data)
– Parámetros (?source=twitter)
• Librerías en distintos lenguajes que hacen muy
sencillo su uso
6 de febrero de 2014
Open Social Data - Escucha Activa
16
17. Qué información podemos
obtener
• Temas relevantes
• Contenido
– Fuentes:
• Twitter, Facebook, Youtube, Instagram, spain.info
– Tipos:
•
•
•
•
Texto
Eventos
Vídeo
Fotos
6 de febrero de 2014
Open Social Data - Escucha Activa
17
18. Cómo podemos filtrarla
• Por geoposición
– Centro y radio
– Bounding box
– Municipio y distancia
• Por período
– Fecha de publicación
– Fecha del evento
• Por palabras clave
• Por tipo de conversación
6 de febrero de 2014
Open Social Data - Escucha Activa
18
19. Qué formato tienen los
resultados
• Actualmente en formato JSON, próximamente
en XML, CSV, …
• Los resultados aparecen paginados
• Ordenados cronológicamente
• Se pueden extraer los datos en crudo
6 de febrero de 2014
Open Social Data - Escucha Activa
19
21. Qué puedo hacer con estos
datos
6 de febrero de 2014
Open Social Data - Escucha Activa
21
22. Cómo va a evolucionar
• Se van a añadir nuevas fuentes de datos
(Google+, Vimeo, Flickr, Pinterest, Wikipedia,
Foursquare, Linked-in…)
• Mayor volumen de datos, mayor precisión, y
mayor calidad
• Nuevos formatos de salida
• Estadísticas
• … (Abiertos a sugerencias de los ciudadanos)
6 de febrero de 2014
Open Social Data - Escucha Activa
22