Stefano Roselli - Gli Advanced Analytics sono tra i tipi di applicazioni che in futuro avranno maggiore crescita. L’analisi predittiva, cardine delle Advanced Analytics, sta trovando molti campi di applicazione, sia in ambito scientifico che industriale. Nel settore industriale, le aziende hanno iniziato ad utilizzare l’analisi predittiva in varie aree quali ad esempio il marketing (es. Customer Profiling, Customer Churn), l’assistenza post vendita (es. Fault Detection), ecc.. L’intervento, oltre a dare un inquadramento delle Advanced Analytics, presenterà alcuni esempi di applicazione.
2. computer center
Top 500
Il Cineca è un Consorzio
Interuniversitario senza scopo di lucro
al servizio del sistema accademico
nazionale istituito nel 1969.
La missione è “promuovere l’utilizzo
dei più avanzati sistemi di
elaborazione dell’informazione a
favore della ricerca scientifica e
tecnologica, pubblica e privata”, e al
trasferimento tecnologico alle imprese
e alla Pubblica Amministrazione.
Fanno parte del Consorzio:
MIUR
70 università
4 Enti di Ricerca
Circa 1.000 dipendenti con sedi
a Bologna, Milano e Roma
CINECA
216/05/2016
3. Il Laboratorio Big Data & Analytics
16/05/2016
PIATTAFORME SOFTWARE:
IBM Big Insights
Hortonworks Data Platform
ARCHITETTURE:
Data Streaming Analysis
Large Scale Machine Learning
TECNOLOGIE:
Hadoop (HDFS, MapReduce), YARN
Spark SQL, Hive e HBase
Storm, Spark Streaming
Kafka & MQTT
Spark R e Distributed R
Librerie: Spark MLLIB, H2O
INFRASTRUTTURA:
HPC IBM NeXtScale server appositamente
progettata per i casi di calcolo “data-intensive”:
70 nodi IBM NeXtScale con interconnessione a 56 GB/sec
Intel Ivy Bridge 20 core per nodo, 1480 core in totale
128 GB RAM per nodo
40 TB SSD locale al nodo, 16 PB di storage in linea
Il Laboratorio di Big Data & Analytics è una iniziativa di CINECA, nel campo della High Performance
Analytics per promuovere la sua diffusione e aiutare i decisori aziendali e i professionisti ICT a
comprendere le strategie, le potenzialità e le tecnologie dei Big Data e delle tecniche di Data Mining.
3
4. Advanced Analytics
16/05/2016 4
Analytics sono applicazioni informatiche che usano metodi matematici e statistici su sistemi
computazionali altamente scalabili per estrarre valore dai dati, come trovare schemi
ricorrenti (patterns), raggruppamenti (clusters) e relazioni nei dati (rules) per predire futuri
comportamenti o scenari, fornendo anche raccomandazioni.
1. L’analisi predittiva cerca di prevedere le performance e/o il comportamento degli utenti,
dell’organizzazione o degli impianti in scenari futuri. (Data Mining)
2. L’analisi prescrittiva si spinge oltre la previsione di risultati futuri, fornendo
raccomandazioni in maniera automatica su quale soluzione scegliere tra un ventaglio di
possibilità. (Cognitive Computing)
Quali sono i profili dei miei clienti? –> Analisi dei cluster
Qual è la probabilità che un certo cliente mi abbandoni? -> Analisi predittiva (Machine
Learning)
Quale sarà il comportamento di acquisto dei nostri clienti su una nuova linea di prodotti?
-> Analisi prescrittiva (Cognitive Computing)
5. 16/05/2016 5
Machine Learning
Supervised learning
Il sistema apprende da un insieme
esperienza che contiene esempi
del comportamento che si
desidera nel sistema
Unsupervised learning
Non si hanno casi da cui il
sistema può apprendere
Algoritmi Predittivi
Categorical Target Variable:
• Decision Tree
• Random Forest
• Neural Networks
• Support Vector Machines
• K-Neraest Neighbor
• Logistic Regression
Continuos Target Variable:
• Linear Regression
• Generalized Linear Model
• Poisson Regression
Algoritmi Descrittivi
• Clustering (K-Means)
• Hidden Markov Chains
• Principal Component Analysis (PCA)
• Self-Organizing Maps (SOM)
• Modelli Causali
6. 16/05/2016 6
Algoritmo Predittivo – come funziona
VARIABILE TARGET
Evento normale: 0
Evento da predire: 1Dati storici degli eventi:
variabili (colonne) x casi (righe)
Apprendimento
del Modello
Test del
Modello
Training Data (80%)
Test Data (20%)
Indici di valutazione:
Accuratezza: classificati correttamente (0 e 1)
Sensibilità: classificati correttamente come 1
Specificità: classificati correttamente come 0
10. Analisi Predittiva Abbandoni Studenti
10
Obiettivi
Individuare quanti e quali fra gli studenti attivi sono candidati ad abbandonare il corso di studi.
16/05/2016
Laurea
48,9%
Rinuncia Implicita
19,1%
Attiva
17,0%
Inattiva
2,7%
Trasferita
1,1%
Rinuncia Esplicita
11,1%
Altri casi (decesso, decadenza)
0,1%
Stato
Carriera
Training set random 70% Laureati + Rinunce + Trasferiti
Test set random 30% Laureati + Rinunce + Trasferiti
Applicazione modello alla popolazione Attivi + Inattivi
11. Analisi Predittiva Abbandoni Studenti
Variabili per ogni evento osservato
ID carriera e studente
Sesso, età, provincia di residenza
Educational background (istituto e tipo scuola, titolo, voto e lode
diploma)
Anno di Iscrizione, distanza dall’immatricolazione, distanza dal
diploma
Tipo di laurea, Classe di laurea, Codice corso Ministeriale e tipo di
corso
Flag su Test di Ingresso, Carriera Part-time, Erasmus, Stage,
Contributi in regola, Lavoratore, Borsa, Esenzione, Passaggio di
corso, …..
Sede dell’Università
Esami Accumulati (con e senza voto), Esami Velocità, Voto medio
degli esami
CFU dovuti, CFU ingresso, CFU Accumulati, CFU Perc, CFU
velocità, GAP CFU (attesi – acquisiti)
Anni fuoricorso, numero di anni di ritardo rispetto al piano di
studiTecniche di Machine Learning utilizzate
Switching Neural Network
1116/05/2016
Fonti dati
Flusso dati all’Anagrafica Nazionale Studenti (Schede ANS).
Popolazione costituita da 13 generazioni di carriere dal
2001/02 al 2013/14 (con eventi registrati fino al 2014/15).
Numerosità di dati elaborati (a seguito della pulizia dei dati):
• Carriere: 212.926
• Studenti: 177.463
• Esami: 3.402.596
• Iscrizioni AA: 682.332
Variabile obiettivo
Stato: Laurea o abbandono (rinuncia esplicita, implicita,
trasferimento in uscita) e poi applicato alle carriere attive
(comprese quelle inattive)
13. 13
Accuratezza 47182/50742 = 92,98%
Sensibilità 19254/20081 = 95,88%
Specificità 27928/30661 = 91,09%
Accuratezza= Percentuale di osservazioni
correttamente classificate
Sensibilità= Percentuale di osservazioni di classe 1
(abbandoni) correttamente classificate
Specificità= Percentuale di osservazioni di classe 0
(laurea) correttamente classificate
Matrice di confusione
16/05/2016
Analisi Predittiva Abbandoni Studenti
14. Previsione per gli studenti in corso
Per le 43.914 carriere ancora attive, l’analisi
del nostro modello prevede:
- 25mila previsti laureati (57% del totale)
- 18mila abbandoni siano essi trasferimenti,
abbandoni impliciti o espliciti.
Analisi Predittiva Abbandoni Studenti
16/05/2016 14