R. Bellotti, Reti complesse per l'analisi di dati economici e biomedici
1. RETI COMPLESSE
PER L’ANALISI DI DATI ECONOMICI E BIOMEDICI
Roberto Bellotti
Dipartimento Interateneo di Fisica “M. Merlin”
Università degli Studi di Bari Aldo Moro & Politecnico di Bari
Istituto Nazionale di Fisica Nucleare
14 Novembre 2016
2. Indice
Cosa sono i Big Data?
Numeri ed Esempi
Le 3 V
Definizioni
Popolazione vs Dispositivi
Chi produce e raccoglie i Big Data?
Cosa sono le Reti Complesse
Casi di Studio
Applicazioni ai Dati Economici
Neuroscienze Computazionali
Global Pulse e Sviluppo Sostenibile
Big Data: serve il ferro!
Conclusioni
2
3. 1 bit = 0/1 Una lettera = 1 byte.
Un libro = una foto di buona qualità = circa 1 Megabyte.
1 Gibabyte = 1.000 libri
1 Terabyte = 1.000.000 di libri
Facebook:
500 Terabyte di dati al giorno, fanno parte di questi Terabyte circa 3 miliardi di “like”
e 300 milioni di foto.
Stima dei dati posseduti da FB: 100.000 Terabyte.
Google e Amazon oltre un milione di Terabyte.
3
Numeri ed Esempi
4. Walmart registra più di 1 milione di
“operazioni” all’ora!
4
Generatori di Big Data
Un Boeing 737 genera, in un
viaggio attraverso gli Stati Uniti
circa 240 Terabytes di dati.
Il 90% dei dati registrati oggigiorno sono stati “generati” negli
ultimi due anni.
5. Cosa sono i Big Data?
Le tre V:
Volume
Varietà
Velocità
Glossario Gartner:
“Big data is high-Volume, high-Velocity and/or high-Variety information assets
that demand cost-effective, innovative forms of information processing that
enable enhanced insight, decision making, and process automation”.
Big Data:
Introdotto nel 2013 nell’Oxford English Dictionary
Introdotto nel 2014 Merriam-Webster’s Collegiate
5
6. Definizioni
Big Data is the result of collecting information at its most granular level — it’s
what you get when you instrument a system and keep all of the data that
your instrumentation is able to gather.
Big data, which started as a technological innovation in distributed
computing, is now a cultural movement by which we continue to discover
how humanity interacts with the world — and each other — at large-scale.
Big data is when your business wants to use data to solve a problem, answer
a question, produce a product, etc
Historically, most decisions — political, military, business, and personal —
have been made by brains [that] have unpredictable logic and operate on
subjective experiential evidence. “Big data” represents a cultural shift in
which more and more decisions are made by algorithms with transparent
logic, operating on documented immutable evidence. I think “big” refers
more to the pervasive nature of this change than to any particular amount of
data.
[datascience.berkeley.edu/what-is-big-data/]6
7. Popolazione vs Dispositivi
7
Il McKinsey Global
Institute estimates
stima una crescita
del volume dei dati
prodotti pari al 40%
per anno e con un
fattore
moltiplicativo di 44
nel periodo 2009-
2020.
Quanti dispositivi
“connessi” possiede
ognuno di voi?
8.
9. Terremoto e Colera ad Haiti nel 2010
Dopo il terremoto del gennaio 2010, ricercatori della Columbia University hanno
ricostruito il flusso di due milioni di rifugiati attraverso il “movimento” delle SIM dei
telefoni cellulari. La tecnica si è rivelato precisa ed utile per mitigare i rischi sanitari
(ottobre 2010, colera).
9
[L. Bengtsson et al.(2011) Improved Response to Disasters and Outbreaks by Tracking Population Movements
with Mobile Phone Network Data: A Post-Earthquake Geospatial Study in Haiti. PLoS Med 8(8)
I ricercatori hanno analizzato i dati di circa 2 milioni di SIM ad Haiti, da 42 giorni prima
del terremoto sino a 158 giorni dopo.
Durante l’epidemia di Colera sono state tracciate 140.000 SIM durante i primi 8 giorni
subito dopo lo scoppio dell’epidemia in modo da tracciare i flussi e i movimenti della
popolazione.
La precisione è funzione della diffusione delle antenne di ricezione ( 1–100 km2)
10. 10
RETI COMPLESSE PER L’ECONOMIA
Dati, Progetti e Relazioni: il caso PON 2007 – 2013
11. Reti Complesse
Molti sistemi fisici, biologici e sociali sono strutturati come Reti Complesse e le loro
proprietà sono in moliti casi abbastanza ben comprese.
Le Reti Complesse sono un insieme di nodi, collegati da links
Ad esempio, lo Stato A è collegato allo Stato B se A importa prodotti da B
A
B
12. Esempi
12
• Reti dei trasporti
• Sistema climatico
• Reti di distribuzione
dell’energia
• Cervello
• Sistema economico
• Reti sociali
• …
13. Reti Complesse
13
Cosa possiamo imparare dalla analisi delle Reti Complesse?
Le dieci stazioni più
“attraversate” della
metropolitana londinese,
seguendo i “minimi
percorsi”.
Utilizzate per conoscere le persone più
influenti nelle reti sociali.
Studio del profilo degli elettori e previsioni
dei risultati delle elezioni politiche
Studio del profilo dei consumatori e del
modo in cui le informazioni sui nuovi
prodotti ed eventi si diffondono.
14. 14
Italian Program for the Convergence objective regions (less developed
regions in Southern Italy)
(Program: National Operative Program (PON) for Project in research &
development)
Goal: Evaluate the impact of public funding at regional level
Total cost of the PON Projects 2500 Million of Euros
About 300 Different R&D Projects 769 distinct partners
• Available information: Calls and funding measures, projects, proponents and
participants, funding, geographical information, etc.
• Data format: open data (xls, XLM, CSV)
• Source: : http://www.dati.puglia.it, http://opencoesione.gov.it
The Italian Public Funding Program (2007-2013)
8%#
12%#
12%#
16%#
12%#
7%#
21%#
12%#
Smart#Ci/ es#
Cultural#Heritage#&#Ac/ vi/ es#
Transporta/ on#&#Logis/ c#
Environment##
Energy#
Nutri/ on#
Healthcare#
N.C.#
28%#
7%#
2%#13%#12%#
19%#
13%#
6%#
Large#Enterprise#
noFPublic#Research#Ins/ tute#
N.C.#
Small#Enterprise#
Public#Research#Ins/ tute#
University#
Micro#Enterprise#
Medium#Enterprise#
(a)# (b)#
16. 16
2007-2013 Italian Public Funding Program:
from dataset to data models.
769 Nodes Enterprises, Universities,
research institutions.
4868 Links Participation in the same
project.
Projects 10104 entries with 52
attributes describing project
information about program
references, activities, textual
description of project scope and
objectives, detail about partners
and so on.
Locations 11390 entries with
8 attributes describing details
about geographical localization of
project partners.
Budgets 5670 entries with 13
attributes describing details
about amount and state of
project funding.
17. 17
We found 15 main Communities
• provides a deep understanding of how the fund
allocation criteria are able to influence the
economic development of a Region;
• discovering the existence of groups within a
certain network of relationships;
• highlighting such groups can be very important
for the analysis of a productive system;
• The PON R&D network shows strongly
heterogeneous communities, with hugely
populated groups and very small ones.
• when communities grow in size, they tend to
include important nodes. For example, the
largest community includes the National
Research Council (CNR, next slide)
The community structure of the
(giant component of the) PON R&D
network. 15 communities are
highlighted, found with the Newman-
Girvan algorithm.
Result #1: community detection
18. 18
Result #2: it is a network with Hubs
Scale free network
• Inhomogeneous degree
distribution, with many nodes
having more connections than
the average (hubs)
• Resistance to “random failures”,
indeed the removal of a random
node would not systematically
affect the main hubs
• Policymakers are interested in
generating a solid network of
relationships between
productive actors on the
territory
19. Result #3: who are the hubs?
19
Centrality of nodes
identifies the most important nodes
within a network
• Dominant role of public research
• Universities and research centers
play the role of the “glue” i.e. they
are responsible of the
connectedness of the network
• Ex-post indicator. The fifteen largest values of each vertex centrality
for the (giant component of the) PON R&D
network. The highest positions are occupied by
public research institutions.
Strong indication that the network of funded
project gravitates around large poles involving
research centers
20. 20
• Low tendency to form “groups of interest" or “lobbies” among important actors.
• Hubs are strongly connected to smaller and less connected enterprises/institutions.
• It is an interesting result, since most social networks show assortative behavior.
• Anti-assortative networks are more sensitive to the removal of high-degree nodes,
which is an indication for the policymaker of the importance that public research
has in the productive system.
Result #4: the network is anti-assortative
Public
Research
Institute
Large
Enterprise
Small-Medium
Enterprise
21. 21
Analisi di immagini cerebrali per la caratterizzazione
precoce di malattie neurodegenerative
Questi studi hanno messo in
evidenza alterazioni delle
proprietà topologiche locali e
globali della rete cerebrale
nei pazienti affetti da
Alzheimer.
In che misura le Reti Complesse riescono rivelare e descrivere alterazioni
strutturali in immagini MRI?
Le alterazioni trovate possono essere indicatori di una malattia
neurodegenerativa come l’Alzheimer?
Possono coinvolgere regioni anatomiche tipicamente connesse alla malattia
di Alzheimer?
22. 22
Nel 2015 UN ha definito e congelato i 17
Sustainable Development Goals (SDG) da
traguardare entro il 2030.
Il monitoraggio e l’analisi dei dati prodotti dagli
Stati membri per l’implementazione degli SDG
così come lo sviluppo di nuove tecnologie
connesse a tali obiettivi costituisce
un’eccezionale terreno di “sperimentazione”
dei Big Data e delle Reti Complesse.
unglobalpulse.org
[www.unglobalpulse.org/blog/big-data-development-action-global-pulse-project-series]
Global Pulse è un Laboratorio delle Nazioni Unite dedicato ai Big Data finalizzato
a generare una comprensione ed un miglioramento del benessere umano.
La visione sottesa è che i Big Data devono essere sfruttati come Bene Pubblico
24. 24
Costo Complessivo del
Progetto: 13.7 milioni di euro
Durata del Progetto: ottobre
2011 – dicembre 2015
ReCaS: 4 Data Center nelle sedi di:
Bari, Catania, Cosenza e Napoli
9 luglio 2015
Il Data Center ReCaS @ Bari
25. Il vento da ILVA verso il quartiere Tamburi (ARPA Puglia)
CONVENZIONE (2014 - 2017)
Area Portuale
ENI
CEMENTIR
Obiettivo primario: Identificazione con 72
ore di anticipo dei wind days (giorni con
condizione meteo favorevoli ad accumulo di
inquinanti - area di Taranto) ai sensi del
D.G.R. 1774 del Luglio 2012.
Con 64 processori la simulazione delle
condizioni fisiche necessarie all’identificazione
del wind day con 72 ore di anticipo richiede 4
ore di elaborazione. Si memorizzano circa 9
Terabyte all’anno.
Sfruttare la potenza di calcolo e di storage per
l’implementazione di complessi modelli di
fisica dell’atmosfera in modalità di calcolo
parallelo.
Gli output sono grandi volumi di dati
georeferenziati (serie spazio - temporali)
complessa analisi finalizzata all’individuazione
del miglior setup dei modelli in una determinata
area.
.
26. 26
Conclusioni
I Big Data non sono il futuro ma il presente (o forse il passato).
Prodotti & Servizi sono ormai “erogati” in stretta connessione con i “dati” che ne
permettono la successiva analisi: nessun contesto applicativo ne è escluso.
Le Reti Complesse emergono come “tecnologia privilegiata” per la studio dei Big
Data, per loro natura altamente interconnessi e correlati.
Molte sono le opportunità offerte dai Big Data, anche rispetto ai SDGs.
Il Segretario Generale delle Nazioni Unite ha costituito nell’agosto 2014 un
Independent Expert Advisory Group per fornire raccomandazioni concrete sulla
“data revolution” rispetto allo Sviluppo Sostenibile.
L’ecosistema nazionale - Imprese, Università, Enti Pubblici di Ricerca, Distretti, PA -
esprimono le competenze e l’organizzazione necessarie per partecipare con successo
alla “data revolution”?
Grazie per l’attenzione
roberto.bellotti@uniba.it
3386564596