This is the final report for a Social Network Analysis class, within the context of the Excellence Program in Computer Engineering, University of Pisa, Italy
P-Systems for approximating NP-Complete optimization problems
Social Network Analysis Project
1. Docenti: Prof. Fosca Giannotti, Dott. Michele Berlingerio
Percorso di Eccellenza - Laurea Magistrale in Ingegneria Informatica
Alessandro Biondi, Francesco Corucci - 2011
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
2. Scopi
Scopo del seguente lavoro:
Raccolta dati e costruzione di alcune reti sociali riguardanti
uno o più ambiti d’interesse
Analisi ed interpretazione sociale dei parametri più
significativi caratterizzanti le reti ottenute
Estrazione di informazioni non immediate dalle reti
ottenute
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
3. Come
Utilizzando un crawler che esplora l’archivio degli
articoli pubblicati sul sito del NY Times
Input del crawler: due liste di parole (eventualmente
uguali) riguardanti gli ambiti da analizzare
Output del crawler: co-occorrenze negli articoli tra le
due liste di parole
Es:
Source Target Co-occorrenze
Italy France 1200
Italy Germany 853
France Germany 650
… … …
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
4. Fonti
Per ricavare le liste di termini da dare in ingresso al
crawler, abbiamo utilizzato tre fonti di informazioni
(combinate in vari modi):
TIME 100: lista delle 100 persone più influenti dell’anno
secondo il TIME
Google Zeitgeist: lista delle parole più cercate su Google in
un anno
Top Wikipedia: lista delle pagine più visitate su Wikipedia
in un anno
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
5. I tre ambiti inquadrati
1. Google Zeitgeist 2010 + TIME100 2010
2. TIME 100 2008-2011
3. Google Zeitgeist 2010 + Top Wikipedia 2010
In tutte e tre le analisi, abbiamo posto lista source =
lista target
Ovviamente abbiamo fatto cercare al crawler articoli
temporalmente coerenti con i dati di input
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
6. Definizioni preliminari
Characteristic path length: distanza media tra coppie di
nodi della rete
Diameter: massima distanza tra due nodi della rete
Clustering coefficient: quanti dei nodi connessi ad un
certo nodo sono a loro volta connessi tra loro (media)
Betweennes centrality: numero (normalizzato) di
shortest path che passano per un certo nodo
Indica l’influenza di un nodo sulle interazioni tra gli altri nodi
(strategicità per quanto riguarda il fluire dell’informazione)
Closeness centrality: distanza media di un nodo da tutti
gli altri
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
8. TIME 100 (2008-2010)
Scopo: analizzare le relazioni esistenti tra i
personaggi più influenti degli ultimi 4 anni
Numero di termini in input: 485
Tempo di crawling: ~ 48h
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
9. Parametri globali
Active network: interazioni con peso > 2
Tipo di rete ottenuta: indiretta, 373 nodi, 5350 archi
Parametri globali:
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Parametro Valore
Connected components 4
Clustering coefficient 0.582
Diameter 5
Characteristic path length 2.282
10. Degree distribution (power law)
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
11. Betweennes centrality
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Top betweennes
1. Barack Obama
2. Bill Clinton
3. George W. Bush
4. John McCain
5. Tiger Woods
6. Sarah Palin
7. Oprah Winfrey
8. Michelle Obama
9. Hillary Clinton
10. Sting
11. Nicolas Sarkozy
12. Mark Zuckenberg
13. Lady Gaga
12. Closeness centrality e degree
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Top closeness
1. Barack Obama
2. George W. Bush
3. Bill Clinton
4. John McCain
5. Sarah Palin
6. Hillary Clinton
7. Oprah Winfrey
8. Michelle Obama
9. Sting
10. Tina Fey
11. Jon Stewart
12. Jey Leno
13. Lady Gaga
Top degree
1. Barack Obama
2. George W. Bush
3. Bill Clinton
4. John McCain
5. Sarah Palin
6. Hillary Clinton
7. Oprah Winfrey
8. Michelle Obama
9. Jon Stewart
10. Tina Fey
11. Jay Leno
12. Sting
13. Lady Gaga
Si osserva che i
nodi che
primeggiano per
betweennes hanno
anche closeness e
degree elevati
13. Closeness, betweennes, degree
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Personaggi Professione
Barack Obama, George W. Bush, Bill
Clinton, John McCain, Sarah Palin, Hillary
Clinton, Michelle Obama
Politici statunitensi
Oprah Winfrey Conduttrice televisiva e opinionista
statunitense
Sting Musicista britannico
Tina Fey, Jon Stewart, Jay Leno Attori, conduttori, comici statunitensi
Lady Gaga Pop star americana
Chi sono i personaggi che primeggiano per closeness,
betweennes, e degree?
14. Clustering coefficient
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Passando al coefficiente di clustering la situazione
sembra invertirsi:
Nodi con alto degree, closeness e betweennes, mostrano un
coefficiente di clustering basso
Nodi con basso degree, closeness e betweennes hanno
coefficiente di clustering elevato
Highest clustering
Connie Hedegaard, Ken Lewis,
Wendy Kopp, Peter Gabriel,
Theodore Olson, Heidi Murkoff,
Ron Bloom, Gaddafi, Sheila
Bair, Rob Bell, Linda Avey,
Richard Cizik, Apolo Ohno,
…
Lowest clustering
Barack Obama
George W. Bush
Bill Clinton
John McCain
…
15. Clustering coefficient
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Chi sono i personaggi con clustering più elevato?
Persona Professione
Connie Hedegaard, Ken Lewis Politica danese
Ken Lewis
Ex CEO, presidente, chairmen di Bank
of America
Wendy Kopp CEO e fondatrice di Teach For All
Peter Gabriel Musicista britannico
Theodore Olson U.S. Solicitor General sotto G. W. Bush
Heidi Murkoff Scrittrice statunitense
Ron Bloom Senior official sotto Obama
Gaddafi Dittatore
17. Scrittori e mondo politico
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Scrittrice
americana
Scrittore
americano
Impegno
sociale in
Afghanistan
Ex
Ammiraglio
USA
Mondo
Politico
Scrittore
americano
- Saggista
18. Sports
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Tennista
statunitense
Tennista
belga
Pugile
filippino
Cestista
statunitense
Sciatrice
statunitense
22. Economia Francese
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Direttore
Fondo Monetario
Internazionale
Banchiere
francese,
Ex presidente
Banca Centrale
Europea
Economista
Politico
Francese
23. Economia USA
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Imprenditore
statunitense
Esperta di
bancarotta
statunitense
Economista
statunitense
Economista
statunitenseEconomista
statunitense
Economista
banchiere
statunitense
24. Cosa lega…
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Ex tennista
statunitense
Scrittore e saggista
statunitense
Comica
Conduttrice TV
Famoso per
aver scritto un
romanzo
autobiografico
A fine carriera
ha scritto un
libro
autobiografico
Ha scritto ben
3 libri
autobiografici
25. Rete n°2:
TIME 100
+
GOOGLE ZEITGEIST 2010
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
26. TIME 100 + GOOGLE ZEITGEIST 2010
Scopo: analizzare le relazioni esistenti tra i
personaggi più influenti di un certo anno ed i termini
più cercati su Google nello stesso anno
Numero di termini in input: 224
Tempo di crawling: ~ 10h
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
27. Parametri globali
Active network scelta: interazioni con peso > 0
Tipo di rete ottenuta: indiretta,153 nodi, 1691 archi
Parametri globali:
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Parametro Valore
Connected components 1
Clustering coefficient 0.620
Diameter 4
Characteristic path length 2.048
29. Betweennes centrality
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Top betweennes
1. Facebook
2. Twitter
3. Haiti
4. World cup
5. Barack Obama
6. Bill Clinton
7. Earthquake
8. Olympics
9. Ipad
10. Oil spill
11. Sarah Palin
12. Lady Gaga
13. James Cameron
30. Closeness centrality and degree
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Anche in questa rete, nodi con alta betweennes
hanno anche alta closeness centrality ed alto grado
(omettiamo perciò le tabelle)
Si nota anche qui come nodi con alti valori di
closeness, betweennes, e degree abbiano un
basso coefficiente di clustering (e viceversa)
35. Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Senior Official
nell’amministra-
zione Obama
Avvocato francese e
direttore amministrativo del
fondo monetario
internazionale
Economista e
politico
francese, ex
direttore
amministrativo
del fondo
monetario
internazionale
Presidente degli
Stati Uniti
Partito
democratico
USA
Presidente degli
Emirati Arabi
Politica internazionale
36. Calcio
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Allenatore
Videogame sul
calcio
Calciatore
Calciatore
Calciatore
Squadra di
calcio
37. Scrittrici americane
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Romanziera
americana
Romanziera
americana
Autrice TV e
romanziera
americana
Scrittrice
americana
38. Cantanti americani
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Attrice e
cantante
americana
Cantante
rap
americana
Cantante
rap
americana
Attore e
cantante
americano
Rapper
americano
39. Ancora cantanti
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Cantante
scozzese
Cantante pop
americana
Cantante pop
colombiana
Attrice e
cantante
americana
Cantante soul
americana
Cantante pop
americana
Cantante pop
americana
Conduttore
americano di
talent show
musicali
40. Conclusioni su questa rete
L’aver mischiato persone e cose in questo crawling
non ha dato risultati particolarmente interessanti a
livello di communities
Le communities più rilevanti coinvolgono infatti
quasi esclusivamente persone
Tuttavia le «cose» compaiono in posizioni
importanti per quanto riguarda i parametri di
centralità
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
41. Rete n°3:
Google Zeitgeist + Top Wikipedia
(2010-11)
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
42. Google Zeitgeist + Top Wikipedia
Scopo: analizzare le relazioni esistenti tra i termini
più ricercati in un dato anno su Wiki e su Google
Numero di termini in input: 615
Tempo di crawling: ~ 72h
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
43. Parametri globali
Active network: interazioni con peso > 10
Tipo di rete ottenuta: indiretta, 416 nodi, 10’022 archi
Parametri globali:
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Parametro Valore
Connected components 4
Clustering coefficient 0.806
Diameter 4
Characteristic path length 1.965
46. Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Attori e films Nodo
Daniel Radcliffe
Jim Carrey
Robert De Niro
Christian Bale
Emma Watson
Natalie Portman
The Chronicles of Narnia
Tron Legacy
Toy Story 3
Little Fockers
Anne Athaway
Gulliver's Travels
Mark Wahlberg
Harry Potter
…
47. Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Tecnologia e intrattenimento
48. Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Pallacanestro
49. Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Telefilms, teenagers
50. Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Ancora telefilms…
51. Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica
Musica…
53. Conclusioni
Abbiamo inquadrato degli ambiti di interesse,
cercato fonti e raccolto dati mediante crawling
Abbiamo acquisito dimestichezza con la
manipolazione di grosse moli di dati
Abbiamo preso confidenza con lo strumento Cytoscape
Abbiamo estrapolato e interpretato delle informazioni
dalle reti ricavate
Abbiamo evidenziato il comportamento sociale di tutte le
reti costruite mediante l’analisi dei parametri
caratteristici dei grafi
Social Network Analysis - Percorso di Eccellenza,
Laurea Magistrale in Ing. Informatica