SlideShare ist ein Scribd-Unternehmen logo
1 von 15
Downloaden Sie, um offline zu lesen
ADVANCED ANALYTICS
1
16/05/2016
Stefano Roselli s.roselli@cineca.it
computer center
Top 500
Il Cineca è un Consorzio
Interuniversitario senza scopo di lucro
al servizio del sistema accademico
nazionale istituito nel 1969.
La missione è “promuovere l’utilizzo
dei più avanzati sistemi di
elaborazione dell’informazione a
favore della ricerca scientifica e
tecnologica, pubblica e privata”, e al
trasferimento tecnologico alle imprese
e alla Pubblica Amministrazione.
Fanno parte del Consorzio:
 MIUR
 70 università
 4 Enti di Ricerca
Circa 1.000 dipendenti con sedi
a Bologna, Milano e Roma
CINECA
216/05/2016
Il Laboratorio Big Data & Analytics
16/05/2016
PIATTAFORME SOFTWARE:
 IBM Big Insights
 Hortonworks Data Platform
ARCHITETTURE:
 Data Streaming Analysis
 Large Scale Machine Learning
TECNOLOGIE:
 Hadoop (HDFS, MapReduce), YARN
 Spark SQL, Hive e HBase
 Storm, Spark Streaming
 Kafka & MQTT
 Spark R e Distributed R
 Librerie: Spark MLLIB, H2O
INFRASTRUTTURA:
HPC IBM NeXtScale server appositamente
progettata per i casi di calcolo “data-intensive”:
 70 nodi IBM NeXtScale con interconnessione a 56 GB/sec
 Intel Ivy Bridge 20 core per nodo, 1480 core in totale
 128 GB RAM per nodo
 40 TB SSD locale al nodo, 16 PB di storage in linea
Il Laboratorio di Big Data & Analytics è una iniziativa di CINECA, nel campo della High Performance
Analytics per promuovere la sua diffusione e aiutare i decisori aziendali e i professionisti ICT a
comprendere le strategie, le potenzialità e le tecnologie dei Big Data e delle tecniche di Data Mining.
3
Advanced Analytics
16/05/2016 4
Analytics sono applicazioni informatiche che usano metodi matematici e statistici su sistemi
computazionali altamente scalabili per estrarre valore dai dati, come trovare schemi
ricorrenti (patterns), raggruppamenti (clusters) e relazioni nei dati (rules) per predire futuri
comportamenti o scenari, fornendo anche raccomandazioni.
1. L’analisi predittiva cerca di prevedere le performance e/o il comportamento degli utenti,
dell’organizzazione o degli impianti in scenari futuri. (Data Mining)
2. L’analisi prescrittiva si spinge oltre la previsione di risultati futuri, fornendo
raccomandazioni in maniera automatica su quale soluzione scegliere tra un ventaglio di
possibilità. (Cognitive Computing)
 Quali sono i profili dei miei clienti? –> Analisi dei cluster
 Qual è la probabilità che un certo cliente mi abbandoni? -> Analisi predittiva (Machine
Learning)
 Quale sarà il comportamento di acquisto dei nostri clienti su una nuova linea di prodotti?
-> Analisi prescrittiva (Cognitive Computing)
16/05/2016 5
Machine Learning
Supervised learning
Il sistema apprende da un insieme
esperienza che contiene esempi
del comportamento che si
desidera nel sistema
Unsupervised learning
Non si hanno casi da cui il
sistema può apprendere
Algoritmi Predittivi
Categorical Target Variable:
• Decision Tree
• Random Forest
• Neural Networks
• Support Vector Machines
• K-Neraest Neighbor
• Logistic Regression
Continuos Target Variable:
• Linear Regression
• Generalized Linear Model
• Poisson Regression
Algoritmi Descrittivi
• Clustering (K-Means)
• Hidden Markov Chains
• Principal Component Analysis (PCA)
• Self-Organizing Maps (SOM)
• Modelli Causali
16/05/2016 6
Algoritmo Predittivo – come funziona
VARIABILE TARGET
Evento normale: 0
Evento da predire: 1Dati storici degli eventi:
variabili (colonne) x casi (righe)
Apprendimento
del Modello
Test del
Modello
Training Data (80%)
Test Data (20%)
Indici di valutazione:
 Accuratezza: classificati correttamente (0 e 1)
 Sensibilità: classificati correttamente come 1
 Specificità: classificati correttamente come 0
Analisi Predittiva dei Guasti
Variabili per ogni evento osservato
 Type, Timestamp, Severity, 18 variabili (battery
voltage, input voltage, input current, Output
voltage, output frequency, percentage of load …).
Tecniche di Machine Learning utilizzate
 Binary classification
• Decision Tree (c5.0)
7
Obiettivi
1) Prevedere per un Gruppo di Continuità (UPS) se
si verificherà un evento grave (livello 3) entro 2
minuti.
Type Timestamp Severity D2BatteryStatus D2BatteryVoltage … D2ResidualCharge D2ResidualTime D4BatteryStatus D4BatteryVoltage … D4ResidualCharge D4ResidualTime classificazione
126 10/06/2015 15:13 3 2 226,7 88 65 2 244,8 100 0 1
63 10/06/2015 15:15 3 2 244,8 100 999 2 248,44 94,2 68,8 1
126 10/06/2015 15:18 3 2 244,8 98,5 48 2 244,8 100 999 1
63 10/06/2015 15:24 3 2 244,8 100 87 2 244,8 100 0 1
… … … … … … … … … … … …
126 26/09/2015 22:34 3 2 244,8 100 999 2 244,8 100 999 1
0 27/09/2015 21:12 -1 2 244,8 100 999 2 244,8 100 999 0
126 27/09/2015 21:16 3 2 244,8 100 999 2 244,8 100 999 1
0 28/09/2015 04:45 -1 2 244,8 100 999 2 244,8 100 999 0
126 28/09/2015 04:49 3 2 244,8 100 999 2 244,8 100 999 1
… …
16/05/2016
8
Risultati
Reali
Previsti 0 1
0 52 33
1 18 83
Previsione di eventi gravi considerando le
variabili 2 minuti dal verificarsi di un evento.
Accuratezza 135/186 = 72,58%
Sensibilità 83/116 = 71,55%
Specificità 52/70 = 74,29%
Accuratezza= Percentuale di osservazioni
correttamente classificate
Sensibilità= Percentuale di osservazioni di classe 1
(evento grave) correttamente classificate
Specificità= Percentuale di osservazioni di classe 0
(nessun evento grave) correttamente classificate
Matrice di confusione
16/05/2016
Analisi Predittiva dei Guasti
916/05/2016
Analisi Predittiva dei Guasti
Analisi Predittiva Abbandoni Studenti
10
Obiettivi
Individuare quanti e quali fra gli studenti attivi sono candidati ad abbandonare il corso di studi.
16/05/2016
Laurea
48,9%
Rinuncia Implicita
19,1%
Attiva
17,0%
Inattiva
2,7%
Trasferita
1,1%
Rinuncia Esplicita
11,1%
Altri casi (decesso, decadenza)
0,1%
Stato
Carriera
Training set random 70% Laureati + Rinunce + Trasferiti
Test set random 30% Laureati + Rinunce + Trasferiti
Applicazione modello alla popolazione Attivi + Inattivi
Analisi Predittiva Abbandoni Studenti
Variabili per ogni evento osservato
 ID carriera e studente
 Sesso, età, provincia di residenza
 Educational background (istituto e tipo scuola, titolo, voto e lode
diploma)
 Anno di Iscrizione, distanza dall’immatricolazione, distanza dal
diploma
 Tipo di laurea, Classe di laurea, Codice corso Ministeriale e tipo di
corso
 Flag su Test di Ingresso, Carriera Part-time, Erasmus, Stage,
Contributi in regola, Lavoratore, Borsa, Esenzione, Passaggio di
corso, …..
 Sede dell’Università
 Esami Accumulati (con e senza voto), Esami Velocità, Voto medio
degli esami
 CFU dovuti, CFU ingresso, CFU Accumulati, CFU Perc, CFU
velocità, GAP CFU (attesi – acquisiti)
 Anni fuoricorso, numero di anni di ritardo rispetto al piano di
studiTecniche di Machine Learning utilizzate
 Switching Neural Network
1116/05/2016
Fonti dati
 Flusso dati all’Anagrafica Nazionale Studenti (Schede ANS).
 Popolazione costituita da 13 generazioni di carriere dal
2001/02 al 2013/14 (con eventi registrati fino al 2014/15).
 Numerosità di dati elaborati (a seguito della pulizia dei dati):
• Carriere: 212.926
• Studenti: 177.463
• Esami: 3.402.596
• Iscrizioni AA: 682.332
Variabile obiettivo
 Stato: Laurea o abbandono (rinuncia esplicita, implicita,
trasferimento in uscita) e poi applicato alle carriere attive
(comprese quelle inattive)
RULES
COVERING
CONDITION RELEVANCES
 28 regole comprendenti da 1 a 10 condizioni
Analisi Predittiva Abbandoni Studenti
13
Accuratezza 47182/50742 = 92,98%
Sensibilità 19254/20081 = 95,88%
Specificità 27928/30661 = 91,09%
Accuratezza= Percentuale di osservazioni
correttamente classificate
Sensibilità= Percentuale di osservazioni di classe 1
(abbandoni) correttamente classificate
Specificità= Percentuale di osservazioni di classe 0
(laurea) correttamente classificate
Matrice di confusione
16/05/2016
Analisi Predittiva Abbandoni Studenti
Previsione per gli studenti in corso
Per le 43.914 carriere ancora attive, l’analisi
del nostro modello prevede:
- 25mila previsti laureati (57% del totale)
- 18mila abbandoni siano essi trasferimenti,
abbandoni impliciti o espliciti.
Analisi Predittiva Abbandoni Studenti
16/05/2016 14
Grazie per l’attenzione
16/05/2016 15
Stefano Roselli s.roselli@cineca.it

Weitere ähnliche Inhalte

Was ist angesagt?

Business Intelligence, Analytics e Big Data: una guida per capire e orientarsi
Business Intelligence, Analytics e Big Data: una guida per capire e orientarsiBusiness Intelligence, Analytics e Big Data: una guida per capire e orientarsi
Business Intelligence, Analytics e Big Data: una guida per capire e orientarsi
SMAU
 
Data mining, business intelligence e dintorni
Data mining, business intelligence e dintorniData mining, business intelligence e dintorni
Data mining, business intelligence e dintorni
Maurizio Girometti
 

Was ist angesagt? (20)

Le tecnologie dei Big Data
Le tecnologie dei Big DataLe tecnologie dei Big Data
Le tecnologie dei Big Data
 
Introduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiIntroduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei dati
 
Big Data - Breve panoramica
Big Data - Breve panoramicaBig Data - Breve panoramica
Big Data - Breve panoramica
 
Data Governance at work
Data Governance at workData Governance at work
Data Governance at work
 
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)
 
Big Data, Open Data e AppsforItaly: i dati come conversazione importano alle ...
Big Data, Open Data e AppsforItaly: i dati come conversazione importano alle ...Big Data, Open Data e AppsforItaly: i dati come conversazione importano alle ...
Big Data, Open Data e AppsforItaly: i dati come conversazione importano alle ...
 
Business Intelligence, Analytics e Big Data: una guida per capire e orientarsi
Business Intelligence, Analytics e Big Data: una guida per capire e orientarsiBusiness Intelligence, Analytics e Big Data: una guida per capire e orientarsi
Business Intelligence, Analytics e Big Data: una guida per capire e orientarsi
 
Gestione dei big data: Web 3.0, motori semantici, soft computing
Gestione dei big data: Web 3.0, motori semantici, soft computing Gestione dei big data: Web 3.0, motori semantici, soft computing
Gestione dei big data: Web 3.0, motori semantici, soft computing
 
Data Science nel manufacturing: l'esperienza di Tenaris
Data Science nel manufacturing: l'esperienza di TenarisData Science nel manufacturing: l'esperienza di Tenaris
Data Science nel manufacturing: l'esperienza di Tenaris
 
Reinventing experience: dai dati alla progettazione
Reinventing experience: dai dati alla progettazioneReinventing experience: dai dati alla progettazione
Reinventing experience: dai dati alla progettazione
 
Introduzione ai Big Data e alla scienza dei dati - Machine Learning
Introduzione ai Big Data e alla scienza dei dati - Machine LearningIntroduzione ai Big Data e alla scienza dei dati - Machine Learning
Introduzione ai Big Data e alla scienza dei dati - Machine Learning
 
Big data e pubblica amministrazione
Big data e pubblica amministrazioneBig data e pubblica amministrazione
Big data e pubblica amministrazione
 
Big data
Big dataBig data
Big data
 
Tableau at Tenaris - Tableau 10 Roadshow, Roma 2016
Tableau at Tenaris - Tableau 10 Roadshow, Roma 2016Tableau at Tenaris - Tableau 10 Roadshow, Roma 2016
Tableau at Tenaris - Tableau 10 Roadshow, Roma 2016
 
Data mining, business intelligence e dintorni
Data mining, business intelligence e dintorniData mining, business intelligence e dintorni
Data mining, business intelligence e dintorni
 
Big Data & Data Mining
Big Data  & Data MiningBig Data  & Data Mining
Big Data & Data Mining
 
Introduzione ai Big Data e alla scienza dei dati - Exploratory Data Analysis
Introduzione ai Big Data e alla scienza dei dati - Exploratory Data AnalysisIntroduzione ai Big Data e alla scienza dei dati - Exploratory Data Analysis
Introduzione ai Big Data e alla scienza dei dati - Exploratory Data Analysis
 
Big data analytics vaccari oct2013
Big data analytics vaccari oct2013Big data analytics vaccari oct2013
Big data analytics vaccari oct2013
 
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
 
_ABIlab-BigData-Finale
_ABIlab-BigData-Finale_ABIlab-BigData-Finale
_ABIlab-BigData-Finale
 

Andere mochten auch

Nova Weng - %22Early Breast Cancer Awareness & Prevention in China%22 (2016)
Nova Weng - %22Early Breast Cancer Awareness & Prevention in China%22 (2016)Nova Weng - %22Early Breast Cancer Awareness & Prevention in China%22 (2016)
Nova Weng - %22Early Breast Cancer Awareness & Prevention in China%22 (2016)
Nova Weng
 

Andere mochten auch (20)

BitConeView: Visualization of Flows in the Bitcoin Transaction Graph
BitConeView: Visualization of Flows in the Bitcoin Transaction GraphBitConeView: Visualization of Flows in the Bitcoin Transaction Graph
BitConeView: Visualization of Flows in the Bitcoin Transaction Graph
 
Social Media per fare analisi della concorrenza
Social Media per fare analisi della concorrenzaSocial Media per fare analisi della concorrenza
Social Media per fare analisi della concorrenza
 
Big Data, Psychografics and Social Media Advertising - Alessandro Sisti
Big Data, Psychografics and Social Media Advertising - Alessandro SistiBig Data, Psychografics and Social Media Advertising - Alessandro Sisti
Big Data, Psychografics and Social Media Advertising - Alessandro Sisti
 
Holographic Data Visualization - M. Valoriani & A. Musone
Holographic Data Visualization - M. Valoriani & A. MusoneHolographic Data Visualization - M. Valoriani & A. Musone
Holographic Data Visualization - M. Valoriani & A. Musone
 
Social Big Data
Social Big DataSocial Big Data
Social Big Data
 
Data culture
Data cultureData culture
Data culture
 
Language Translation re-invented with Big Data
Language Translation re-invented with Big DataLanguage Translation re-invented with Big Data
Language Translation re-invented with Big Data
 
BigData: una nuova fonte per la ricerca storica
BigData: una nuova fonte per la ricerca storicaBigData: una nuova fonte per la ricerca storica
BigData: una nuova fonte per la ricerca storica
 
4th industrial revolution – impact of data on the real world
4th industrial revolution – impact of data on the real world4th industrial revolution – impact of data on the real world
4th industrial revolution – impact of data on the real world
 
Big Data and Data Science @ BNL - D. Morgagni & L. Dell'Anna
Big Data and Data Science @ BNL - D. Morgagni & L. Dell'AnnaBig Data and Data Science @ BNL - D. Morgagni & L. Dell'Anna
Big Data and Data Science @ BNL - D. Morgagni & L. Dell'Anna
 
Managing incidental findings in genomic investigations: ethical issues - Carl...
Managing incidental findings in genomic investigations: ethical issues - Carl...Managing incidental findings in genomic investigations: ethical issues - Carl...
Managing incidental findings in genomic investigations: ethical issues - Carl...
 
Data driven innovation in chirurgia: il caso EVARplanning - Paolo Spada
Data driven innovation in chirurgia: il caso EVARplanning - Paolo SpadaData driven innovation in chirurgia: il caso EVARplanning - Paolo Spada
Data driven innovation in chirurgia: il caso EVARplanning - Paolo Spada
 
IoT & fresh food
IoT & fresh foodIoT & fresh food
IoT & fresh food
 
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
 
Equidad de genero 1
Equidad de genero 1Equidad de genero 1
Equidad de genero 1
 
Practica.n9
Practica.n9Practica.n9
Practica.n9
 
Presentacion dmed m castelo
Presentacion dmed   m casteloPresentacion dmed   m castelo
Presentacion dmed m castelo
 
Nova Weng - %22Early Breast Cancer Awareness & Prevention in China%22 (2016)
Nova Weng - %22Early Breast Cancer Awareness & Prevention in China%22 (2016)Nova Weng - %22Early Breast Cancer Awareness & Prevention in China%22 (2016)
Nova Weng - %22Early Breast Cancer Awareness & Prevention in China%22 (2016)
 
Facebook
FacebookFacebook
Facebook
 
flowcharts
flowchartsflowcharts
flowcharts
 

Ähnlich wie Applicazioni di Advanced Analytics

Sistema informativo sulle professioni-CUP
Sistema informativo sulle professioni-CUPSistema informativo sulle professioni-CUP
Sistema informativo sulle professioni-CUP
Aldo Scarnera
 
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...
Flavio Bontà
 
Esame di prototipazione e produzione web
Esame di prototipazione e produzione webEsame di prototipazione e produzione web
Esame di prototipazione e produzione web
chiarart6
 

Ähnlich wie Applicazioni di Advanced Analytics (20)

Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2
 
AzureML - Creating and Using Machine Learning Solutions (Italian)
AzureML - Creating and Using Machine Learning Solutions (Italian)AzureML - Creating and Using Machine Learning Solutions (Italian)
AzureML - Creating and Using Machine Learning Solutions (Italian)
 
Sistema informativo sulle professioni-CUP
Sistema informativo sulle professioni-CUPSistema informativo sulle professioni-CUP
Sistema informativo sulle professioni-CUP
 
DS4Biz - Data Science for Business
DS4Biz - Data Science for BusinessDS4Biz - Data Science for Business
DS4Biz - Data Science for Business
 
Big Data e la forza degli eventi - Intervento di Dominoni
Big Data e la forza degli eventi - Intervento di DominoniBig Data e la forza degli eventi - Intervento di Dominoni
Big Data e la forza degli eventi - Intervento di Dominoni
 
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...
 
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power biBig data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
 
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
Smau Torino 2016 - Marco Bozzetti, AIPSI
Smau Torino 2016 - Marco Bozzetti, AIPSISmau Torino 2016 - Marco Bozzetti, AIPSI
Smau Torino 2016 - Marco Bozzetti, AIPSI
 
Decision Support System (DSS) per la Supply Chain
Decision Support System (DSS) per la Supply ChainDecision Support System (DSS) per la Supply Chain
Decision Support System (DSS) per la Supply Chain
 
METODOLOGIE E TECNOLOGIE ABILITANTI PER IL SUPPORTO ALLA LOGISTICA
METODOLOGIE E TECNOLOGIE ABILITANTI PER IL SUPPORTO ALLA LOGISTICAMETODOLOGIE E TECNOLOGIE ABILITANTI PER IL SUPPORTO ALLA LOGISTICA
METODOLOGIE E TECNOLOGIE ABILITANTI PER IL SUPPORTO ALLA LOGISTICA
 
4a Data Mining e motori computazionali
4a Data Mining e motori computazionali4a Data Mining e motori computazionali
4a Data Mining e motori computazionali
 
Esame di prototipazione e produzione web
Esame di prototipazione e produzione webEsame di prototipazione e produzione web
Esame di prototipazione e produzione web
 
Rapporto annuale 2016
Rapporto annuale 2016Rapporto annuale 2016
Rapporto annuale 2016
 
Smau Milano 2016 - AICA
Smau Milano 2016  - AICASmau Milano 2016  - AICA
Smau Milano 2016 - AICA
 
Il progetto Cluster AI-TEXTILES - Stato d’avanzamento IV semestre
Il progetto Cluster AI-TEXTILES - Stato d’avanzamento IV semestreIl progetto Cluster AI-TEXTILES - Stato d’avanzamento IV semestre
Il progetto Cluster AI-TEXTILES - Stato d’avanzamento IV semestre
 
Dml Web Analytics Buyer Guide
Dml Web Analytics Buyer GuideDml Web Analytics Buyer Guide
Dml Web Analytics Buyer Guide
 
Presentazione CdL in Informatica @UNIMOL - 2014
Presentazione CdL in Informatica @UNIMOL - 2014Presentazione CdL in Informatica @UNIMOL - 2014
Presentazione CdL in Informatica @UNIMOL - 2014
 
Il caso CNR: la soluzione di Gestione Concorsi con Alfresco
Il caso CNR: la soluzione di Gestione Concorsi con AlfrescoIl caso CNR: la soluzione di Gestione Concorsi con Alfresco
Il caso CNR: la soluzione di Gestione Concorsi con Alfresco
 

Mehr von Data Driven Innovation

Mehr von Data Driven Innovation (20)

Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
 
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
 
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
 
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
 
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
 
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
 
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
 
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
 
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
 
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
 
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
 
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
 
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
 
Big Data Confederation: toward the local urban data market place (Renzo Taffa...
Big Data Confederation: toward the local urban data market place (Renzo Taffa...Big Data Confederation: toward the local urban data market place (Renzo Taffa...
Big Data Confederation: toward the local urban data market place (Renzo Taffa...
 
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
 
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
 
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
 
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
 
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
 
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
 

Applicazioni di Advanced Analytics

  • 2. computer center Top 500 Il Cineca è un Consorzio Interuniversitario senza scopo di lucro al servizio del sistema accademico nazionale istituito nel 1969. La missione è “promuovere l’utilizzo dei più avanzati sistemi di elaborazione dell’informazione a favore della ricerca scientifica e tecnologica, pubblica e privata”, e al trasferimento tecnologico alle imprese e alla Pubblica Amministrazione. Fanno parte del Consorzio:  MIUR  70 università  4 Enti di Ricerca Circa 1.000 dipendenti con sedi a Bologna, Milano e Roma CINECA 216/05/2016
  • 3. Il Laboratorio Big Data & Analytics 16/05/2016 PIATTAFORME SOFTWARE:  IBM Big Insights  Hortonworks Data Platform ARCHITETTURE:  Data Streaming Analysis  Large Scale Machine Learning TECNOLOGIE:  Hadoop (HDFS, MapReduce), YARN  Spark SQL, Hive e HBase  Storm, Spark Streaming  Kafka & MQTT  Spark R e Distributed R  Librerie: Spark MLLIB, H2O INFRASTRUTTURA: HPC IBM NeXtScale server appositamente progettata per i casi di calcolo “data-intensive”:  70 nodi IBM NeXtScale con interconnessione a 56 GB/sec  Intel Ivy Bridge 20 core per nodo, 1480 core in totale  128 GB RAM per nodo  40 TB SSD locale al nodo, 16 PB di storage in linea Il Laboratorio di Big Data & Analytics è una iniziativa di CINECA, nel campo della High Performance Analytics per promuovere la sua diffusione e aiutare i decisori aziendali e i professionisti ICT a comprendere le strategie, le potenzialità e le tecnologie dei Big Data e delle tecniche di Data Mining. 3
  • 4. Advanced Analytics 16/05/2016 4 Analytics sono applicazioni informatiche che usano metodi matematici e statistici su sistemi computazionali altamente scalabili per estrarre valore dai dati, come trovare schemi ricorrenti (patterns), raggruppamenti (clusters) e relazioni nei dati (rules) per predire futuri comportamenti o scenari, fornendo anche raccomandazioni. 1. L’analisi predittiva cerca di prevedere le performance e/o il comportamento degli utenti, dell’organizzazione o degli impianti in scenari futuri. (Data Mining) 2. L’analisi prescrittiva si spinge oltre la previsione di risultati futuri, fornendo raccomandazioni in maniera automatica su quale soluzione scegliere tra un ventaglio di possibilità. (Cognitive Computing)  Quali sono i profili dei miei clienti? –> Analisi dei cluster  Qual è la probabilità che un certo cliente mi abbandoni? -> Analisi predittiva (Machine Learning)  Quale sarà il comportamento di acquisto dei nostri clienti su una nuova linea di prodotti? -> Analisi prescrittiva (Cognitive Computing)
  • 5. 16/05/2016 5 Machine Learning Supervised learning Il sistema apprende da un insieme esperienza che contiene esempi del comportamento che si desidera nel sistema Unsupervised learning Non si hanno casi da cui il sistema può apprendere Algoritmi Predittivi Categorical Target Variable: • Decision Tree • Random Forest • Neural Networks • Support Vector Machines • K-Neraest Neighbor • Logistic Regression Continuos Target Variable: • Linear Regression • Generalized Linear Model • Poisson Regression Algoritmi Descrittivi • Clustering (K-Means) • Hidden Markov Chains • Principal Component Analysis (PCA) • Self-Organizing Maps (SOM) • Modelli Causali
  • 6. 16/05/2016 6 Algoritmo Predittivo – come funziona VARIABILE TARGET Evento normale: 0 Evento da predire: 1Dati storici degli eventi: variabili (colonne) x casi (righe) Apprendimento del Modello Test del Modello Training Data (80%) Test Data (20%) Indici di valutazione:  Accuratezza: classificati correttamente (0 e 1)  Sensibilità: classificati correttamente come 1  Specificità: classificati correttamente come 0
  • 7. Analisi Predittiva dei Guasti Variabili per ogni evento osservato  Type, Timestamp, Severity, 18 variabili (battery voltage, input voltage, input current, Output voltage, output frequency, percentage of load …). Tecniche di Machine Learning utilizzate  Binary classification • Decision Tree (c5.0) 7 Obiettivi 1) Prevedere per un Gruppo di Continuità (UPS) se si verificherà un evento grave (livello 3) entro 2 minuti. Type Timestamp Severity D2BatteryStatus D2BatteryVoltage … D2ResidualCharge D2ResidualTime D4BatteryStatus D4BatteryVoltage … D4ResidualCharge D4ResidualTime classificazione 126 10/06/2015 15:13 3 2 226,7 88 65 2 244,8 100 0 1 63 10/06/2015 15:15 3 2 244,8 100 999 2 248,44 94,2 68,8 1 126 10/06/2015 15:18 3 2 244,8 98,5 48 2 244,8 100 999 1 63 10/06/2015 15:24 3 2 244,8 100 87 2 244,8 100 0 1 … … … … … … … … … … … … 126 26/09/2015 22:34 3 2 244,8 100 999 2 244,8 100 999 1 0 27/09/2015 21:12 -1 2 244,8 100 999 2 244,8 100 999 0 126 27/09/2015 21:16 3 2 244,8 100 999 2 244,8 100 999 1 0 28/09/2015 04:45 -1 2 244,8 100 999 2 244,8 100 999 0 126 28/09/2015 04:49 3 2 244,8 100 999 2 244,8 100 999 1 … … 16/05/2016
  • 8. 8 Risultati Reali Previsti 0 1 0 52 33 1 18 83 Previsione di eventi gravi considerando le variabili 2 minuti dal verificarsi di un evento. Accuratezza 135/186 = 72,58% Sensibilità 83/116 = 71,55% Specificità 52/70 = 74,29% Accuratezza= Percentuale di osservazioni correttamente classificate Sensibilità= Percentuale di osservazioni di classe 1 (evento grave) correttamente classificate Specificità= Percentuale di osservazioni di classe 0 (nessun evento grave) correttamente classificate Matrice di confusione 16/05/2016 Analisi Predittiva dei Guasti
  • 10. Analisi Predittiva Abbandoni Studenti 10 Obiettivi Individuare quanti e quali fra gli studenti attivi sono candidati ad abbandonare il corso di studi. 16/05/2016 Laurea 48,9% Rinuncia Implicita 19,1% Attiva 17,0% Inattiva 2,7% Trasferita 1,1% Rinuncia Esplicita 11,1% Altri casi (decesso, decadenza) 0,1% Stato Carriera Training set random 70% Laureati + Rinunce + Trasferiti Test set random 30% Laureati + Rinunce + Trasferiti Applicazione modello alla popolazione Attivi + Inattivi
  • 11. Analisi Predittiva Abbandoni Studenti Variabili per ogni evento osservato  ID carriera e studente  Sesso, età, provincia di residenza  Educational background (istituto e tipo scuola, titolo, voto e lode diploma)  Anno di Iscrizione, distanza dall’immatricolazione, distanza dal diploma  Tipo di laurea, Classe di laurea, Codice corso Ministeriale e tipo di corso  Flag su Test di Ingresso, Carriera Part-time, Erasmus, Stage, Contributi in regola, Lavoratore, Borsa, Esenzione, Passaggio di corso, …..  Sede dell’Università  Esami Accumulati (con e senza voto), Esami Velocità, Voto medio degli esami  CFU dovuti, CFU ingresso, CFU Accumulati, CFU Perc, CFU velocità, GAP CFU (attesi – acquisiti)  Anni fuoricorso, numero di anni di ritardo rispetto al piano di studiTecniche di Machine Learning utilizzate  Switching Neural Network 1116/05/2016 Fonti dati  Flusso dati all’Anagrafica Nazionale Studenti (Schede ANS).  Popolazione costituita da 13 generazioni di carriere dal 2001/02 al 2013/14 (con eventi registrati fino al 2014/15).  Numerosità di dati elaborati (a seguito della pulizia dei dati): • Carriere: 212.926 • Studenti: 177.463 • Esami: 3.402.596 • Iscrizioni AA: 682.332 Variabile obiettivo  Stato: Laurea o abbandono (rinuncia esplicita, implicita, trasferimento in uscita) e poi applicato alle carriere attive (comprese quelle inattive)
  • 12. RULES COVERING CONDITION RELEVANCES  28 regole comprendenti da 1 a 10 condizioni Analisi Predittiva Abbandoni Studenti
  • 13. 13 Accuratezza 47182/50742 = 92,98% Sensibilità 19254/20081 = 95,88% Specificità 27928/30661 = 91,09% Accuratezza= Percentuale di osservazioni correttamente classificate Sensibilità= Percentuale di osservazioni di classe 1 (abbandoni) correttamente classificate Specificità= Percentuale di osservazioni di classe 0 (laurea) correttamente classificate Matrice di confusione 16/05/2016 Analisi Predittiva Abbandoni Studenti
  • 14. Previsione per gli studenti in corso Per le 43.914 carriere ancora attive, l’analisi del nostro modello prevede: - 25mila previsti laureati (57% del totale) - 18mila abbandoni siano essi trasferimenti, abbandoni impliciti o espliciti. Analisi Predittiva Abbandoni Studenti 16/05/2016 14
  • 15. Grazie per l’attenzione 16/05/2016 15 Stefano Roselli s.roselli@cineca.it