1. ARIANET s.r.l. - via Gilino, 9 – 20128 Milano, ITALY - ph. +39-02-27007255 - fax +39-02-25708084 - www.aria-net.it
Bando Ricerche in Collaborazione (BRiC)
Piano Attività di Ricerca 2016-2018
RESPONSABILE SCIENTIFICO
Viegi Giovanni
CNR - Istituto di Biomedicina e Immunologia Molecolare “Alberto Monroy”
2. Obbiettivo generale
Utilizzo di Big Data per stimare gli effetti sanitari
dell’inquinamento atmosferico ed acustico e delle variabili
meteo-climatiche sulla salute della popolazione italiana.
Il progetto si articola in obbiettivi specifici dedicati a domini
spaziali diversi:
• intero territorio nazionale;
• principali aree metropolitane italiane (Torino, Milano,
Bologna, Roma, Bari e Palermo);
• micro-scala urbana (Roma).
3. ARIANET partecipa alle attività del progetto
nell’ambito di due Convenzioni per Attività di
Collaborazione Scientifica stipulate con:
• il Consiglio Nazionale delle Ricerche, Istituto
di Biomedicina ed Immunologia Molecolare
“Alberto Monroy” (CNR-IBIM);
• il Dipartimento di Epidemiologia SSR
Lazio/ASL Roma 1 (DIP-EPI).
4. Simulazioni modellistiche su base nazionale
Scala 5x5 km2, periodo 2013-2015
Main goal
Numerical modeling simulations of meteorological parameters and
airborne pollutants for the years 2013, 2014 and 2015 over Italy
at 5 km spatial resolution.
The results of the numerical modeling simulations will be used to
produce high resolution (1 km) daily maps using machine learning
techniques (e.g. Random Forest, …) based on observed levels and
spatial data.
Numerical modelling
• Meteorological simulations (WRF AWR V3.8.1 Prognostic model) using
Data Assimilation techniques
• Air quality simulation (FARM Chemical Transport Model)
6. Applicazione di metodi di Data fusion e Machine
Learning
• Data fusion: Optimal Interpolation method (OI), ris. 5 km;
– utilizzo di metodi di Cross Validazione per individuare le lunghezze di
correlazione orizzontali e verticali ottimali per i diversi inquinanti;
• Machine learning: Random Forest (RF), ris. 1 km:
– utilizzo di differenti predittori: concentrazioni calcolate, giorno giuliano,
giorno della settimana, mese, codice regione, intersezione mare/lago, zona
climatica, popolazione residente, elevazione, presenza impianto industriale,
uso suolo, lunghezza archi stradali, …;
– stima dei parametri ottimali del modello mediante analisi out of bag (10-fold
cross-validation, the learning set is 90%, while the testing set is 10%.)
7. IL MODELLO: «RANDOM FOREST»
Un modello di «machine learning»
costituito da molteplici alberi di
regressione
Sia le osservazioni che i predittori
sono campionati ad ogni iterazione
Minimizza l’overfitting e la varianza,
ed è robusto alla presenza di variabili
correlate
Gestisce non-linearità ed interazioni
tra variabili
Stafoggia et al., Modelli di “machine learning” per la stima di esposizioni ambientali spazio-temporali
8. 𝑁𝑂2 = 𝑅𝐹(𝑋1
, 𝑋2
)
IL MODELLO RF (1X1 km2)
X1
ijk
i = 1, …, 4 (predittore)
j = 1, …, 307635 (indice spaziale)
k = 1, …, 365 (indice temporale)
Include i predittori spazio-temporali:
• NO2 da FARM (a 5 km)
• Giorno giuliano, giorno della settimana, mese
X2
ij
i = 1, …, 58 (predittore)
j = 1, …, 307635 (indice spaziale)
Include i predittori spaziali:
• Classificazione amministrativa
• Popolazione, elevazione, zone
climatiche
• Uso del suolo
• Strade
• Distanza da altre infrastrutture
Il modello viene addestrato (training) sulle 533 x 365 misure della rete delle stazioni
di monitoraggio.
9. Cross-Validazione del modello RF
Esempio: NO2 2015
Suddividiamo le stazioni di
monitoraggio in 10 gruppi
a caso.
Addestriamo il modello RF
su 9 gruppi e testiamo sul
decimo gruppo.
Ripetiamo 10 volte (10-fold
CV) e confrontiamo le
misure di NO2 delle stazioni
con i valori predetti.
R2 = 0.59
RMSE = 8.69
Slope = 0.94
Intercept = 1.54
10. Validazione del modello RF 2015
con dati 2014
Usiamo il modello
addestrato con i dati 2015
per predire le
concentrazioni medie
giornaliere del 2014.
Confrontiamo le misure
(medie annue) di NO2 delle
stazioni con i valori
predetti.
R2 = 0.87
RMSE = 4.79
Slope = 0.96
Intercept = 2.67
13. RF
JJA avg
Le misure di O3 rilevate dalla rete
regionale di ARPA Basilicata non
erano presenti nel dataset BRACE e
non sono state quindi utilizzate per
la calibrazione LURF
Si prestano pertanto ad essere
utilizzate per la cross-validazione del
metodo
Stazione
UTM x
(km)
UTM y
(km)
z
(m s.l.m.)
Tipo
Ferrandina 1135.592 4508.761 63 Rurale
Matera - La Martella 1137.985 4531.422 245 SubUrb.
Pisticci 1140.651 4501.855 55 Rurale
Potenza - Contrada
Rossellino 1076.311 4519.524 705 SubUrb.
Potenza - San Luca Branca 1081.323 4521.996 720 SubUrb.
San Nicola di Melfi 1064.978 4568.016 187 Rurale
LAVELLO - CAMPI DA
TENNIS 1070.628 4566.096 319 Urbana.
Melfi 1058.722 4558.252 561 SubUrb.
Viggiano 1086.885 4485.535 604 Rurale
Grumento 3 1085.997 4482.608 735 SubUrb.
Viggiano - Masseria De
Blasiis 1083.630 4486.430 603 Rurale
Viggiano - Costa Molina Sud
1 1091.148 4486.057 690 Rurale
Basilicata
16. Simulazioni modellistiche sulle principali aree
metropolitane italiane
Scala 1x1 km2, periodo 2013-2015
Main goal
Numerical modeling simulations of meteorological parameters and
airborne pollutants for the years 2013, 2014 and 2015 over 6
urban areas at 1 km spatial resolution.
The results of the numerical modeling simulations will be used to
produce high resolution (200 m) daily maps using machine learning
techniques (e.g. Random Forest, …) based on observed levels and
spatial data.
Numerical modelling
• Meteorological simulations (WRF AWR V3.8.1 Prognostic model) using
Urban parameterizations
• Air quality simulation (FARM Chemical Transport Model)