Presentación sobre la sesión "Análisis de Redes Sociales (Social Network Analysis) y Text Mining", dentro del Programa Ejecutivo de Big Data y Business Intelligence celebrado en Madrid en Febrero de 2016, en nuestra sede de la Universidad de Deusto.
Estrategia de prompts, primeras ideas para su construcción
Análisis de Redes Sociales (Social Network Analysis) y Text Mining
1. PROGRAMA DE BIG DATA Y
BUSINESS INTELLIGENCE
Análisis de Redes Sociales (SNA) y Text Mining
Alex Rayón Jerez
alex.rayon@deusto.es
@alrayon
Febrero, 2016. Madrid.
4. 4
Text mining
Introducción
●Estudios recientes indican que, de media, el 80%
de la información de una empresa está
almacenada en forma de documentos
o Sin duda, este campo de estudio es muy amplio, por lo
que técnicas como la categorización de texto, el
procesamiento de lenguaje natural, la extracción y
recuperación de la información o el aprendizaje
automática, entre otras, apoyan el text mining (o
minería de texto)
5. 5
● En ocasiones se confunde el text mining con la
recuperación de la información (Information
Retrieval, IR) [Hearst, 1999]
o Esta última, no obstante, consiste en la reacuperación
automática de documentos relevantes mediante
indexaciones de textos, clasificación, categorización, etc.
o Generalmente se utilizan palabras clave para encontrar
una página relevante
o En cambio, el text mining se refiere a una examinar uan
colección de documentos y descubrir información no
contenida en ningún documento individual [Nasukawa,
2001]
Text mining
Introducción (II)
6. 6
● Hay una enorme cantidad de información en
texto
o Aparte de los libros, periódicos y enciclopedias en
Internet, se generan enormes cantidades de información
textual
Text mining
¿Por qué?
Fuente: http://sandrolopezrivera.blogspot.com.es/2011_02_01_archive.html
7. 7
Text mining
Pasos
1) Obtención y
agrupación Texto
2) Pre
procesamiento
3) Generación de
atributos
4) Selección de
atributos
5) Minería de
datos
6) Interpretación
y evaluación
8. 8
Text mining
Pasos: 1) Obtención y agrupación del texto
●Los textos se encuentran en documentos
dispersos como páginas web, informes,
actualizaciones de status, etc.
●El primer paso, así, consiste en la obtención de
estos datos y su agrupamiento para comenzar a
trabajar
9. 9
Text mining
Pasos: 2) Pre-procesamiento
●Eliminar el ruido
o Texto deliberadamente equivocado (SPAM)
o Textos ambiguos
o Texto erróneo
o Palabras que no tienen poder discriminatorio (STOP
WORDS)
o Ruido en el formato (tags, links)
o Multiplicidad de idiomas
o Sinónimos, palabras con varios significados
o Frases típicas
11. 11
Text mining
Pasos: 2) Pre-procesamiento (III)
●Convertir el documento en un vector de
palabras: tokenization
Fuente: http://escritura.proyectolatin.org/topicos-avanzados-de-bases-de-datos/cap3-sistemas-de-recuperacion-de-informacion-sri/
12. 12
Text mining
Pasos: 2) Pre-procesamiento (IV)
● Con WEKA:
o Se puede importar los datos en CSV
o Hay que eliminar los caracteres: , ; : “ ‘ % ()
o Aplicar primero el filtro NominalToString
o Aplicar el filtro StringToWordDetector
13. 13
Text mining
Pasos: 3) Generación de atributos
●Representación del texto
o Bag of Words
Fuente: http://www.docstoc.com/docs/25215223/Bag-of-Words-Classification
14. 14
Text mining
Pasos: 3) Generación de atributos (II)
●Representación del texto
o Bag of Words
Fuente: http://en.wikipedia.org/wiki/Bag-of-words_model
15. 15
Text mining
Pasos: 4) Selección de atributos
●¿Qué palabras tienen la mejor capacidad
discriminatoria?
●Se puede usar un clasificador
o Latent Semantic Analysis
§ Es una teoría y un método para extraer y representar
el significado de las palabras dentro de un contexto
utilizando técnicas estadísticas sobre un cuerpo de
texto grande
16. 16
Text mining
Pasos: 4) Selección de atributos (II)
● En WEKA
o Ir a “Select attributes”
o Seleccionar “Latent Semantic Analysis”
o Start
o Guardar el nuevo dataset
17. 17
Text mining
Pasos: 5) Minería de datos
●Se puede usar cualquiera de las técnicas vistas
en el apartado de descubrimiento de
conocimiento
o Clasificación
o Descubrimiento estructuras
o Reglas de asociación
18. 18
Text mining
Pasos: 6)Interpretación y evaluación
● Interpretar
o Descubrimiento estructuras
●Evaluar los resultados
o Clasificación
o Reglas de asociación
●Sacar conclusiones o iterar sobre los pasos
anteriores
23. 23
Análisis Redes Sociales
¿Qué es?
●NO es solo Análisis de Social Media
o Puede ser parte
●Sociología + Matemáticas
o Actores que interactúan
o Teoría de Grafos
●Estudio numérico y representación gráfica
25. 25
Análisis Redes Sociales
¿Qué se estudia?
●Redes egocéntricas
o Actor principal con sus relaciones, hasta el grado n
(“amigos de amigos de amigos”)
●Redes completas
o Número de nodos determinado por una característica
concreta: son los que son (UE)
●Grandes redes
o Redes con muchos nodos en las que en general el
investigador corta el límite
26. 26
Análisis Redes Sociales
Elementos
● Actores
o Los nodos de la red no tienen por qué ser
necesariamente personas, pueden ser países, o incluso
actividades
o Depende de lo que se esté investigando
●Vínculos
o Los vínculos que unen a los actores se definen por sus
propiedades o características de la relación
28. 28
Análisis Redes Sociales
Características
●Basado en relaciones y vínculos entre actores
●Recogida sistemática de datos empíricos del tipo
de relación estudiada entre cada par de actores
o Representado por gráficos
●Se apoya en el uso de las matemáticas,
principalmente la teoría matemática de grafos
y/o en modelos informáticos
29. 29
Análisis Redes Sociales
Teoría de Grafos
●Surge en el siglo XVIII con Euler (1707-1803)
o El problema de los puentes de Konigsberg
●Resolución de problemas que pueden ser
modelados mediante un grafo y resueltos
mediante algoritmos específicamente
desarrollados para un grafo
Fuente: http://pequenoldn.librodenotas.com/matiaventuras/1130/7-puentes-para-un-solo-paseo
30. 30
Análisis Redes Sociales
Teoría de Grafos (II)
● La historia del metro de Londres tiene mucha relación
con la Teoría de Grafos
o Más concretamente, con la Inmersión de Grafos
(Graph Drawing)
o Permite explicar de forma sencilla la representación
(inmersión) de un grafo
● Para un mismo conjunto de vértices y una misma lista
de conexiones entre ellos, puede haber trazados con o
sin cruces entre las líneas.
● Depende del dibujo que se haga del grafo, de la
inmersión que se elija, se pueden destacar, y por lo
tanto aprovechar, una característica u otra del grafo
31. 31
Análisis Redes Sociales
Teoría de Grafos (III)
● Los primeros mapas del metro de Londres
eran geográficos
o Dibujar sobre un plano de la ciudad los
recorridos de las distintas líneas
● Harry Beck, ingeniero electrónico
empleado en el metro de Londres, se
percató en 1931 de que al usuario no le
interesaba conocer el recorrido del metro
bajo tierra
o Simplemente le interesaba conocer la
posición relativa de las líneas y
estaciones para realizar los trasbordos
que necesitase
Fuente: http://lizlangstaff.blogspot.com.es/2011/10/harry-
beck.html
31
32. 32
Análisis Redes Sociales
Teoría de Grafos (IV)
● Más que un diseño geográfico, resultaría más útil un
diseño topológico
o Menos curvas y direcciones en las líneas
o De broma, hizo su primer diseño basado en los
utilizados en circuitos eléctricos
● En 1936, entre otros cambios, eliminó curvas y sólo
permitió ángulos de 45º y 90º
● En 1940, se incorporaron ángulos de 60º también, idea
que se desechó por enturbiar la claridad del plano
33. 33
Análisis Redes Sociales
Teoría de Grafos (V)
Fuente: http://www.planlondres.com/transports-londoniens/plan-du-metro-de-londres-40.html
34. 34
Análisis Redes Sociales
Teoría de Grafos (VI)
●¿Por qué?
o Proporciona vocabulario preciso
o Herramientas cuantitativas
●Grafo
o “Un grafo (G) es un conjunto de vértices o nodos (N) y
líneas (L) que unen pares de nodos.”
o Nodos: actores
§ Pueden poseer atributos (sexo, grupo étnico, etc.)
o Líneas: vínculos
§ Puede haber diferentes tipos/características
(amistad, influencia)
35. 35
Análisis Redes Sociales
Teoría de Grafos (VII)
Fuente: http://blog.visual.ly/movie-galaxies-uses-social-graph-organization-to-visualize-movie-interconnectedness/
36. 36
Análisis Redes Sociales
Teoría de Grafos (VIII)
●Mediciones: Nodos
o Adyacencia / Incidencia
§ Dos nodos son adyacentes si están relacionados
§ Una línea y un nodo son incidentes entre sí si el nodo
es uno de los que definen la línea
o Grado
§ El grado de un nodo, designado d(n) es el número de
líneas que son incidentes con él (nodos adyacentes)
37. 37
Análisis Redes Sociales
Teoría de Grafos (IX)
●Mediciones: Nodos (cont.)
o Centralidad
§ La centralidad de un nodo ayuda a dilucidar su
“importancia” en la red, aunque no la representa por
completo
§ El grado es una medida de centralidad
§ Distancia media geodésica al resto de nodos:
cercanía
§ Intermediación: medida de las veces que un nodo se
interpone entre la distancia geodésica de otros
38. 38
Análisis Redes Sociales
Teoría de Grafos (X)
●Mediciones: Nodos (cont.)
o Centralidad
Fuente: http://historiapolitica.com/redhistoria/2013/02/8n-en-twitter/
43. 43
Análisis Redes Sociales
Teoría de Grafos (XV)
●Mediciones: Nodos (cont.)
o Caminos
§ Un camino es una ruta que une dos nodos pasando
por otros.
§ Hay diferentes tipos de caminos
● walk
● trail: walk en el que todas las líneas son distintas
● path: trail que no repite nodos
● semipath: en un grafo dirigido, path que ignora el sentido de las
uniones
44. 44
Análisis Redes Sociales
Teoría de Grafos (XVI)
●Mediciones: Nodos (cont.)
o Caminos
Fuente: http://jariasf.wordpress.com/2012/03/19/camino-mas-corto-algoritmo-de-dijkstra/
45. 45
Análisis Redes Sociales
Teoría de Grafos (XVII)
● GPS Data on Beijing Cabs Reveals
the Cause of Traffic Jams
o Investigadores de la Microsoft Research
Asia han dividido la ciudad en regiones
(figura contigua), analizando cómo los
taxis se mueven a través de ellas
o Si se puede tomar un camino directo
entrea A y B, y un taxista toma un
camino alternativa... ¿qué pasa?
o Algoritmo aplicable a ciudades con
mucha densidad de taxis (Mexico City,
Bangkok, Tokyo, New York, Buenos Aires
y Moscow)
46. 46
Análisis Redes Sociales
Teoría de Grafos (XVIII)
●Mediciones: Nodos (cont.)
o Conexión
§ Débilmente conectados: semicamino
§ Unilateralmente conectados
● Path de a a b pero no a la inversa
§ Fuertemente conectados: unilateralmente
conectados en ambos sentidos
§ Recursivamente conectados: orden de nodos idéntico
pero inverso
47. 47
Análisis Redes Sociales
Teoría de Grafos (XIX)
●Mediciones: Nodos (cont.)
o Distancia geodésica
§ Longitud del path más corto entre dos nodos
§ Si no son alcanzables entre sí, infinita o indefinida
Fuente: http://wiki.uniandes.edu.co/RedesJuegosAltruismo/tiki-index.php?page=JULIAN_FELIPE_CA%C3%91ON_CARVAJAL
48. 48
Análisis Redes Sociales
Teoría de Grafos (XX)
●Mediciones: Grafo
o Densidad
§ Proporción entre líneas existentes y líneas posibles
§ Líneas posibles
● Grafo no orientado: g (g-1) / 2
● Grafo orientado: g (g-1)
o Subgrafo
§ Un grafo G2 es subgrafo de G1 si G1 contiene G2
50. 50
Análisis Redes Sociales
Teoría de Grafos (XXII)
●Mediciones: Grafo
o Diámetro
§ Distancia geodésica más alta entre dos nodos
o Punto de corte
§ Nodo que, al eliminarlo rompe el grafo
51. 51
Análisis Redes Sociales
Teoría de Grafos (XXIII)
●Representación de los datos
o Matriz de adyacencia
o Lista de aristas
o Lista de adyacencia
54. 54
Análisis Redes Sociales
Teoría de Grafos (XXVI)
● Lista de adyacencia
o Más útiles para redes poco densas
o grandes
o Lista:
§ 1:
§ 2: 3 4
§ 3: 2 4
§ 4: 5
§ 5: 1 2
58. Copyright (c) 2016 University of Deusto
This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative
Commons “Attribution-ShareAlike” License. To view a copy of this license, visit
http://creativecommons.org/licenses/by-sa/3.0/
Alex Rayón Jerez
Febrero 2016
59. PROGRAMA DE BIG DATA Y
BUSINESS INTELLIGENCE
Análisis de Redes Sociales (SNA) y Text Mining
Alex Rayón Jerez
alex.rayon@deusto.es
@alrayon
Febrero, 2016. Madrid.