+971581248768>> SAFE AND ORIGINAL ABORTION PILLS FOR SALE IN DUBAI AND ABUDHA...
Â
Information Fusion Methods for Location Data Analysis
1. Information fusion methods for
location data analysis
Candidate: Alket Cecaj Supervisor: Prof. Marco Mamei
Doctorate School in Industrial Innovation Engineering
2. Thesis outline
⢠Introduction
⢠Data Fusion for Event Detection and Event Description Using Agg. CDR
⢠Re-identification of Anonymized CDR Records Using Information Fusion
⢠Privacy issues
⢠Conclusions
3. Data Fusion and Location data
⢠Data Fusion
⢠Location Data types:
- CDR (Call Description Records) aggregated or individual.
- Geo-tagged social network data or LBS as Foursquare
- Location data as Open data. Example: census data.
4. Data fusion for event detection by using aggregated
CDR and geo-tagged social network data
Detecting and describing events happening in urban
areas by analysing spatio â temporal data
⢠Detecting and describing events happening in urban areas by
analysing spatio â temporal data
⢠Prevoious works: Laura Ferrari, Marco Mamei, Massimo Colonna (2012) : â People get together on special
events: Discovering happenings in the city via cell network analysis â Pervasive Computing and Communications
Workshops (PERCOM Workshops), 2012 IEEE International Conference on.
⢠Publication: Cecaj Alket, Marco Mamei (2016) : âData Fusion for City Life Event Detectionâ In: Journal of
Ambient Intelligence and Humanized Computing, pp 1â 15.
11. By combining the results from
the two datasets
⢠Improvement of precision â recall
performance of the method
⢠The improvement is limited in the
long run by the main dataset.
⢠The same improvement can be
observed also by joining the results
of the other datasets.
Improving event detection results by data fusion
12. By using the CDR data the
events can be detected but
not described:
⢠By joining the results the data
can complement and enrich
each other.
⢠In this case the social dataset
can be used to describe
semantically the events
Data fusion for Event description
13. Re-identification of CDR data by using social
network geo-tagged data
Information fusion for anonymized CDR data de-
anonymization.
Montjoye, Y. et al. (2013). âUnique in the crowd. The privacy bounds of
human mobilityâ. In: Scientific Reports 3, pp. 161 â180
Cecaj, Alket, Marco Mamei, and Franco Zambonelli (2015). âRe-identification and Information
Fusion Between Anonymized CDR and Social Network Dataâ. Journal of Ambient Intelligence
and Humanized Computing, pp. 1â14.
17. ⢠Given that CDR user Ci has Ni events (points) in common with FTi, how likely is that the two
users are the same?
⢠Question is both novel (no other works addressing it in this domain) and fundamental
⢠Conditional probability
⢠Even the percentage is low in a data set of millions of users there is a consistent
number of them that can be identified.
Re-identification : probabilistic approach
18. Conclusions
⢠Information fusion as a an enabling process for novel applications
- Future work oriented towards the âstructured data fusionâ idea
⢠Privacy
- anonimty VS re-identification and remaining utility of data
- variations of existing privacy preserving techniques (Differential privacy.)
19. Publications
⢠Nicola Bicocchi, Alket Cecaj, Damiano Fontana, Marco Mamei, Andrea Sassi, Franco Zambonelli: â Collective Awareness
for Human ICT Collaboration in Smart Citiesâ. IEEE WETICE International conference on state-of-the art research in
enabling technologies for collaboration 17-20 2013.
⢠Alket Cecaj, Marco Mamei, Nicola Bicocchi : â Re-identification of Anonymized CDR datasets Using Social Network Data
â. IEEE Percom International conference on Pervasive Computing and Communications. Budapest, Hungary 24-28, 2014.
⢠Cecaj Alket, Marco Mamei (2016) : âData Fusion for City Life Event Detectionâ In: Journal of Ambient Intelligence and
Humanized Computing, pp 1â 15.
⢠Nicola Bicocchi, Alket Cecaj, Damiano Fontana, Marco Mamei, Andrea Sassi, Franco Zambonelli.(2014) â Social
Collective Awareness in Socio-Technical Urban Superorganisms â. Social Collective Intelligence Combining the Powers
Of Humans and Machines to Build a Smarter Society,Part III, Applications and Case studies, page 227.
⢠Cecaj, Alket, Marco Mamei, and Franco Zambonelli (2015). âRe-identification and Information Fusion Between
Anonymized CDR and Social Network Dataâ. In: Journal of Ambient Intelligence and Humanized Computing, pp. 1â14.
Hinweis der Redaktion
Lo scopo dell mio lavoro di tesi è quello di :
1- sviluppare delle tecniche di data fusion per dati geo-referenziati.
Questo lavoro, se da una parte ha permesso di sviluppare applicazioni per arricchire i data set stessi dal altra ha fatto emergere
problematiche di privacy che derivano dal processo di data fusion.
2- Questo lavoro,da un lato ha permesso di
2.1- sviluppare diverse applicazioni per arricchire i data set stessi e
2.2- dallâaltro ha evidenziato alcuni problemi di privacy che derivano dal processo di data fusion.
La tesi si articola secondo i seguenti punti :
Dopo una prima parte introduttiva si presenta uno studio di rilevamento automatico di grandi eventi in aree urbane
usando dati aggregati di telefonia mobile e dati social geo-referenziati.
Dai dati aggregati si passa ai dati CDR anonimizzati che mostrano tracce di mobilità individuali. In particolare in questo lavoro si mostra come il processo di data fusion con questi dati può impattare la privacy.
Alla fine, insieme alle conclusioni si presentano diversi punti ancora aperti sia per quanto riguarda il campo di data fusion che quello sulla privacy preserving.
Data fusion è il processo di combinazione e integrazione di piÚ data set. Il processo analizza diversi dati set cosi che ciascun di questi possa interagire, informare e completare gli altri data set.
Invece per quanto riguarda i tipi di dati geo-referenziati questi sono CDR o Call Description Records che possono essere di due formati :
Livelli di attivitĂ (chiamate ,SMS o connessione dati) in una certa zona in maniera aggregata
Dati che mostrano tracce di mobilitĂ individuali
Unâaltra fonte di location data sono anche i dati social geo-referenziati e gli open data ad esempio dati di censimento.
1- Presento subito il primo caso di applicazione data fusion che è un sistema di event detection che usa dati CDR aggregati.
Molto spesso i city manager o le autoritĂ locali devono capire (anche con una certa urgenza se in caso di emergenza) quello che succede in una determinata area della cittĂ , oppure semplicemente capire le dinamiche di una zona urbana dal punto di vista del traffico, inquinamento del aria, movimenti di persone ecc.. ) e attuare miglioramenti in questo senso.
2- Questo studio segue questa direzione ed ha come obiettivo quello di creare un applicazione che possa rilevare in maniera automatica gli eventi
nelle zone urbane a partire dallâanalisi di dati CDR aggregati e dai dati social geo-referenziati.
3- Altri lavori fatti in questo ambito sono : Ferrari Mamei Colonna (2012) presentato alla Percom2012
4- Questo lavoro è stato publicato in Journal of Ambient Intelligence and Humanized Computing
1- (I dati CDR) i dati CDR (o Call Description Records) aggregati mostrano livelli di attivitĂ in termini di chiamate e sms in uscita o in entrata in una certa zona.
2- (dati forniti ) durante un Big-Data challenge organizzato da TIM Telecom Italia nel 2014 e riguardano due cittĂ che sono Milano e Trento.
3- (Il grafico mostra ) i livelli di attivitĂ di una cella della griglia vicina a uno stadio dove tipicamente nel weekend ci sono attivitĂ sportive in un arco temporale di due mesi.
Per il nostro approccio di analisi e rilevazione degli eventi abbiamo aggregato i dati dal punto di vista spaziale e temporale.
Lâaggregazione spaziale ci aiuta in due punti
1- il primo e quello secondo cui se lâarea dove si svolge un evento risulta frantumata in piĂš celle allora con lâaggregazione riusciamo
a identificare lâarea del evento con 1 o massimo due celle
2- il secondo punto invece ha a che fare con aspetti computazionali e cioè con il fatto che con meno celle possiamo rilevare gli eventi in meno tempo
Lâaggregazione temporale invece ci aiuta ad approssimare la distribuzione di densitĂ di probabilitĂ dei livelli di attivitĂ di una cella che è bimodale come in a) con una distribuzione normale come in d) aggregando i dati su base oraria e distinguendo tra giorni lavorativi e week-end.
La distribuzione normale dei dati, permette di poter usare in maniera efficace, uno strumento di rappresentazione dei livelli di attività di cella nel tempo che è il boxplot. Modellando i dati in questo modo posso usare un metodo di rilevazione degli outliers (quindi degli eventi) che è il boxplot rule.
Con questo metodo identifico gli outlier come valori superiori a upper bound UB dove UB = Q75 + k * IQR
dove IQR = Q75 â Q25.
Prendendo come riferimento un certo livello di attivitĂ o soglia valuto di volta in volta il numero di eventi che trovo per quella soglia.
Il coefficiente k mi da la possibilitĂ di poter considerare come eventi oppure no i picchi che trovo con riferimento a diversi livelli
di attivitĂ di cella.
Anche altre versioni di questo metodo vengono testati utilizzando al posto di IQR il Q50 oppure il Q75 quindi si parlerĂ di questi metodi
Come IQR, M, e Q75
1- Confronto i risultati del metodo di event â detection con un inseme di dati di groundtruth
2-Questi sono un insieme di eventi successi nellâarea nel periodo di riferimento del dataset stesso come partite di calcio, fiere, proteste e altri eventi che coinvolgono numeri consistenti di persone.
1- Quindi valutiamo i risultati di recall e precision del sistema confrontandoli con i dati di groundtruth.
2- In questo caso la recall mi da il rapporto tra eventi riconosciuti come tali e gli eventi che ci sono effettivamente stati nel area.
3- la precision è una misura che esprime la qualità della recall. Cioè, eventi del groung truth diviso la quantità di quello che il mio metodo di event detection (analizzando i miei dati) riconosce come eventi.
Il grafico a destra mostra i risultati di precision e recall usando il metodo della mediana per i vari valori di k.
In particolare ciascuna delle curve nel grafico a destra sono state ottenute con un singolo valore di k variando però il livello di soglia di riferimento e passando da un valore 1000 a un valore di circa 2500 anche il numero degli eventi che trovo varia. Per ogni livello di soglia di riferimento ottengo
Un certo valore di precision e recall che riporto nel grafico. Passando dal grafico in alto a quello in basso il numero degli eventi che trovo diminuisce
perchĂŠ ignoro gli eventi di magnitudo inferiore e mi concentro sugli eventi piĂš grandi. Questo fa si che la recall diminuisce mentre aumenta la precision,
In particolare per k bassi 0.5 (come nel primo grafico in alto) si ha una recall piĂš alta ma una precisone bassa mentre per k alti migliora la precision
ma la recall parte da un valore iniziale piĂš bassa.
Tanti altri esperimenti su entrambe le cittĂ e con diversi tipi di cella
Per integrare i risultati di event-detection ottenuti con i dati CDR e con i dati social consideriamo lâunione insiemistica degli eventi rilevati in ogni uno dei due data set. Quindi andiamo a valutare precison e recall con i risultati cosi integrati. La curva rossa mostra i valori di precision e recall finali. In particolare a paritĂ di recall si nota un miglioramento della precision anche se tale miglioramento è limitato dagli eventi ottenuti con il dataset principale che è quello dei CDR.
Un altro vantaggio del data fusion deriva dal fatto che i due data set sono complementari ai fini del event description. Quindi arricchiscono il risultato finale in quanto il data set social è in grado di descrivere gli eventi rilevati con i dati CDR . Semplicemente analizzando i topic e le parole chiave che compaiono nel testo di aggiornamento di status degli utenti social una volta che i risultati si integrano.
Quindi una conclusione su questa prima parte della tesi è quello sulle opportunità che i metodi di data fusion offrono di poter arricchire
e complementare i dati di un data set e anche i risultati dellâ analisi.
I dati usati nellâesempio precedente sono forniti in un formatto aggregato quindi privi di riferimenti su dati individuali. In altri casi invece i CDR contengono dati anonimizzati dove lâid utente è un hash code univoco.
Anche se i dati in questo caso sono anonimizzati (lâanonimizazzione non basta anche se viene considerata molto spesso sicura )câè sempre la possibilitĂ che vengano de-anonimizzati utilizzando per la re-identificazione altri dati come ad esempio i dati social geo-referenziati.
Questo è possibile in quanto le tracce di mobilità di ciascun individuo (cosi come quelle digitali) sono uniche. Partendo da questo concetto di unicità delle tracce di mobilità il seguente studio mostra come è possibile utilizzare tecniche di data fusion per re-identificare utenti CDR anonimizzati.
1- due tipi di data set : due CDR e due data set social geo-referenziati.
Il primo grafico in alto a sinistra mostra la distribuzione degli eventi (Call - SMS - Internet) per utente del primo data set CDR. Di fianco a questo grafico si mostra graficamente una misura di mobilitĂ di questi utenti che si chiama ÂŤRadius of GyrationÂť che esprime la lunghezza media dei percorsi degli utenti CDR.
Il grafico sotto esprime le stesse misure ma per gli utenti social quindi eventi per utente e ÂŤRadius of GyrationÂť
In particolare lâanalisi di unicitĂ dei percorsi di mobilitĂ ci aiuta a capire due tipi di informazioni :
1- il numero medio di punti o eventi necessari per identificare come unico un individuo
2- la percentuale degli utenti CDR che ha un percorso unico e quindi può essere associato a unâunica traccia di mobilitĂ .
Contestualizzarlo con un esempio concreto
Una prima conclusione si può avere guardando i dati del grafico a sinistra che mostra il numero di punti
Le conclusioni sono due in particolare :
1- Il data fusion e un processo che rende possibili diverse applicazioni tuttavia nel campo ancora manca un idea di data fusion strutturato
2- La seconda conclusione è sulla privacy in particolare quella dei dati CDR individuali che sebbene anonimizzati possono
Le pubblicazioni che abbiamo fatto su questi temi.