SlideShare ist ein Scribd-Unternehmen logo
1 von 38
Downloaden Sie, um offline zu lesen
LE TECNOLOGIE DEI 
BIG DATA 
Ordine degli Ingegneri della Provincia di Bergamo, 7 giugno 2014 
! 
Ing. Vincenzo Manzoni, PhD 
me@vincenzomanzoni.com
WORKFLOW 
Acquisizione Elaborazione Output 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
2 
Dati grezzi 
(raw) 
Processing 
Dataset 
Modelli statistici 
(Analisi) 
Machine Learning 
(Previsione) 
Data driven 
products 
Report, visualizzazioni, 
post su blog
WORKFLOW 
Acquisizione Elaborazione Output 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
3 
Dati grezzi 
(raw) 
Processing 
Dataset 
Modelli statistici 
(Analisi) 
Machine Learning 
(Previsione) 
Data driven 
products 
Report, visualizzazioni, 
post su blog
MACHINE LEARNING 
DEFINIZIONE 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
4 
• In italiano, apprendimento automatico 
• Area dell’Intelligenza Artificiale (AI, Artificial Intelligence) che studia gli 
algoritmi che permettono alle macchine di apprendere. 
• Gli algoritmi si basano su osservazioni - dati - per fare la sintesi della 
conoscenza. 
• Usi: 
• Sistemi di raccomandazione 
• Anomaly/fraud detection 
• Customer churn 
• Market segmentation
MACHINE LEARNING 
PROCESSO DI ADDESTRAMENTO 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
5 
Creazione degli insieme di 
addestramento e di test 
Dataset 
Insieme di 
addestramento 
Insieme di test 
Creazione del modello 
Validazione del modello 
Modello validato 
Modello
MACHINE LEARNING 
PRINCIPALI TIPOLOGIE DI ALGORITMI 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
6 
• Apprendimento supervisionato 
• Apprendimento non supervisionato
MACHINE LEARNING 
APPRENDIMENTO SUPERVISIONATO 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
7
APPRENDIMENTO SUPERVISIONATO 
CLASSE DISCRETA 
A priori ho informazioni sulla classe (grigia o arancione) a cui appartengono le 
osservazioni. 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
8 
x1 
x2 
? 
A quale classe appartiene un 
nuovo punto, mai osservato, di cui 
non conosco a priori la classe? 
Problema di classificazione
APPRENDIMENTO SUPERVISIONATO 
CLASSE DISCRETA 
Con un primo separatore, la nuova istanza viene attribuita alla classe arancione. 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
9 
x1 
x2
APPRENDIMENTO SUPERVISIONATO 
CLASSE DISCRETA 
Con un secondo separatore, la nuova istanza viene attribuita alla classe grigia. 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
10 
x1 
x2 
Esiste un separatore ottimo?
APPRENDIMENTO SUPERVISIONATO 
CLASSE DISCRETA 
Gli algoritmi di apprendimento supervisionato permettono, dato un insieme di 
addestramento (training) di determinare il separatore ottimo secondo una 
certa funzione di costo. 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
11 
x1 
x2 
Separatore ottimo secondo 
una certa funzione di costo
K-NEAREST NEIGHBORS 
• Il riconoscimento avviene sulla base degli oggetti vicini a quello considerato. 
• Il parametro k indica quanti vicini considerare. 
• Può essere usato per stimare classi discrete 
(classificazione) o variabili 
continue (regressione) 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
12 
x1 
x2 
k=1 
k=5 
k=2
ALBERI DI DECISIONE 
• E’ un algoritmo di classificazione 
trasparente. Una volta addestrato, è 
rappresentabile con una serie di se, 
allora, altrimenti. 
• Una versione evoluta è il Random 
Forest prevede l’utilizzo di più alberi. 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
13
MACHINE LEARNING 
APPRENDIMENTO NON SUPERVISIONATO 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
14
APPRENDIMENTO NON SUPERVISIONATO 
A priori, non ho informazioni sulla classe a cui appartengono le mie osservazioni. 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
15 
x1 
x2
APPRENDIMENTO NON SUPERVISIONATO 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
16 
Anche in questo caso, si possono raggruppare i punti secondo criteri diversi. 
x1 
x2 
x1 
x2 
Esiste un raggruppamento ottimo?
DEMO 1 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
17 
Anche in questo caso, si possono raggruppare i punti secondo criteri diversi. 
x1 
x2 
x1 
x2 
Esiste un raggruppamento ottimo?
DEMO 1 
• Siete l’analista dati di un provider di telefonia. Il vostro obiettivo è di capire se nei 
prossimi 6 mesi un cliente lascerà sulla base del suo profilo d’uso. 
• Il profilo d’uso di un utente è descritto da 4 variabili: 
1. Uso voce (minuti / mese) 
2. Uso dati (MB / mese) 
3. Chiamate al servizio clienti 
4. Ritardo nei pagamenti (mesi) 
Id Uso 
voce Uso 
da+ Chiamate 
al 
servizio 
clien+ 
Ritardo 
pagamen+ Lascia? 
1 3.20 22.85 0 1 VERO 
2 36.42 67.40 2 1 FALSO 
3 5.44 148.13 1 0 FALSO 
… 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
DEMO 1 
Mesi di ritardo nei pagamenti 
Ritardo (mesi) Non chiude Chiude 
0 100 0 
1 89 11 
2 73 24 
3 77 23 
Considerando solo mesi di ritardo, 
il nostro sistema correttamente 
solo il 24% delle istanze. 
Proviamo a aggiungere una 
variabile… 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
DEMO 1 
Chiamate al servizio clienti Mesi di ritardo nei pagamenti 
Si può arrivare al 50% di 
accuratezza, ma i clienti coinvolti 
sono pochi. 
Proviamo con un nuovo approccio! 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
DEMO 1 
http://orange.biolab.si 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
HADOOP 
• Framework che supporta applicazioni distribuite 
con alto accesso ai dati. 
• Sviluppato attivamente da Yahoo, è stato ispirato 
dalla MapReduce di Google e dal Google File 
System. 
• È composto da: 
• HDFS: un filesystem distribuito 
• Hadoop Common: un insieme di librerie 
per l’accesso a HDFS. 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
LE TECNOLOGIE DEI BIG DATA 
PROCESSO DI ADDESTRAMENTO 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
23
HADOOP 
ARCHITETTURA 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
HIVE 
• Tecnologia per interrogare i Big Data come se 
fossero tabelle SQL. 
• HiveQL 
• Produce in modo trasparente software Map 
Reduce. 
• Inizialmente sviluppato da Facebook. 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
HIVEQL 
• Linguaggio dichiarativo 
• Si specifica cosa si vuole, non come ottenerle (come SQL). 
• Simile, ma non del tutto identico a SQL. 
• Esempi: 
• SELECT 
COUNT(*) 
FROM 
nyse_stocks 
• SELECT 
AVG(stock_price_close) 
FROM 
nyse_stocks 
WHERE 
stock_symbols=‘IBM’ 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
PIG 
• Piattaforma per creare programmi Map 
Reduce. 
• Astrae la scrittura di programmi Map 
Reduce in un linguaggio di più alto livello (Pig 
Latin). 
• Inizialmente sviluppato da Yahoo. 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
PIG 
• Linguaggio procedurale. 
• Si specificano i vari passi per ottenere un risultato (come C, 
Python, R, Java, …) 
• Esempio: 
a 
= 
LOAD 
'nyse_stocks' 
using 
org.apache.hcatalog.pig.HCatLoader(); 
b 
= 
filter 
a 
by 
stock_symbol 
== 
'IBM'; 
c 
= 
group 
b 
all; 
d 
= 
foreach 
c 
generate 
AVG(b.stock_price_close); 
dump 
d; 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
Hive Pig 
HIVE VS PIG 
Linguaggio di interrogazione HiveQL Pig Latin 
Introdotto da Facebook Yahoo 
Tipologia di linguaggio Dichiarativo Procedurale 
Simile a SQL C, Java, Python, R 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
DEMO 2 
• Esempio d’uso di Hive da pannello di controllo web 
• Confronto delle prestazioni con una interrogazione MySQL 
• Esempio d’uso di Hive da console 
• Esempio d’uso di Pig 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
DEMO 2 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
CONFRONTO PRESTAZIONI 
HADOOP VS MYSQL 
Prestazioni (minore è meglio) 
40 
30 
20 
10 
0 
MySQL Hadoop 
Hadoop inizia ad essere conveniente 
per dataset > di 100-150 GB. 
0 50 100 150 200 
Dimensione del dataset (GB)
IL CLOUD COMPUTING 
• Insieme di tecnologie offerta da un provider che permettono di 
memorizzare e elaborare dati grazie a risorse hardware e software 
distribuite e virtualizzate. 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
IL CLOUD COMPUTING 
CONFRONTO TRA PROVIDERS 
Provider Servizi offerti URL 
Dropbox Storage dropbox.com 
Amazon Web Services 
(AWS) 
Storage, calcolo, Hadoop… 
e molto altro aws.amazon.com 
Microsoft Azure Storage, calcolo, Hadoop azure.microsoft.com 
Google Cloud Storage, calcolo, Hadoop, 
Machine Learning cloud.google.com 
BigML Machine Learning bigml.com 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
AMAZON WEB SERVICES 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
ML AS A SERVICE 
• Servizio che rende trasparente all’utente il processo di scelta del miglior 
algoritmo di apprendimento supervisionato 
• L’utente carica nel servizio il proprio dataset di addestramento (spesso, 
anche quello di test). 
• Il sistema addestra un modello e notifica l’utente al termine 
dell’operazione. 
• A questo punto l’utente 
può chiedere al modello 
di classificare nuove 
istanze. 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
LIBRI DI RIFERIMENTO 
Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 
37
LE TECNOLOGIE DEI 
BIG DATA 
Ordine degli Ingegneri della Provincia di Bergamo, 7 giugno 2014 
! 
Ing. Vincenzo Manzoni, PhD 
me@vincenzomanzoni.com 
Slide disponibili qui: http://www.vincenzomanzoni.com/corsi/

Weitere ähnliche Inhalte

Was ist angesagt?

Business Intelligence, Analytics e Big Data: una guida per capire e orientarsi
Business Intelligence, Analytics e Big Data: una guida per capire e orientarsiBusiness Intelligence, Analytics e Big Data: una guida per capire e orientarsi
Business Intelligence, Analytics e Big Data: una guida per capire e orientarsi
SMAU
 
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso  M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
Istituto nazionale di statistica
 
Data mining, business intelligence e dintorni
Data mining, business intelligence e dintorniData mining, business intelligence e dintorni
Data mining, business intelligence e dintorni
Maurizio Girometti
 

Was ist angesagt? (20)

Introduzione ai Big Data e alla scienza dei dati - Machine Learning
Introduzione ai Big Data e alla scienza dei dati - Machine LearningIntroduzione ai Big Data e alla scienza dei dati - Machine Learning
Introduzione ai Big Data e alla scienza dei dati - Machine Learning
 
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)
 
Big Data - Breve panoramica
Big Data - Breve panoramicaBig Data - Breve panoramica
Big Data - Breve panoramica
 
Business Intelligence, Analytics e Big Data: una guida per capire e orientarsi
Business Intelligence, Analytics e Big Data: una guida per capire e orientarsiBusiness Intelligence, Analytics e Big Data: una guida per capire e orientarsi
Business Intelligence, Analytics e Big Data: una guida per capire e orientarsi
 
La visualizzazione dei Big Data: opportunità e sfide - di Stefano De Francisci
La visualizzazione dei Big Data: opportunità e sfide - di Stefano De FrancisciLa visualizzazione dei Big Data: opportunità e sfide - di Stefano De Francisci
La visualizzazione dei Big Data: opportunità e sfide - di Stefano De Francisci
 
Big data
Big dataBig data
Big data
 
La salute e i big data
La salute e i big dataLa salute e i big data
La salute e i big data
 
Appunti di big data
Appunti di big dataAppunti di big data
Appunti di big data
 
Offering - Big data: le fondamenta per i nuovi business
Offering - Big data: le fondamenta per i nuovi businessOffering - Big data: le fondamenta per i nuovi business
Offering - Big data: le fondamenta per i nuovi business
 
Big data e business intelligence
Big data e business intelligenceBig data e business intelligence
Big data e business intelligence
 
Big data e pubblica amministrazione
Big data e pubblica amministrazioneBig data e pubblica amministrazione
Big data e pubblica amministrazione
 
Big data e Business Intelligence | presentazione open day @Fondazione Kennedy...
Big data e Business Intelligence | presentazione open day @Fondazione Kennedy...Big data e Business Intelligence | presentazione open day @Fondazione Kennedy...
Big data e Business Intelligence | presentazione open day @Fondazione Kennedy...
 
Big data e analisi predittiva
Big data e analisi predittivaBig data e analisi predittiva
Big data e analisi predittiva
 
Big Data & Data Mining
Big Data  & Data MiningBig Data  & Data Mining
Big Data & Data Mining
 
Data Science nel manufacturing: l'esperienza di Tenaris
Data Science nel manufacturing: l'esperienza di TenarisData Science nel manufacturing: l'esperienza di Tenaris
Data Science nel manufacturing: l'esperienza di Tenaris
 
Big Data
Big DataBig Data
Big Data
 
Reinventing experience: dai dati alla progettazione
Reinventing experience: dai dati alla progettazioneReinventing experience: dai dati alla progettazione
Reinventing experience: dai dati alla progettazione
 
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso  M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
 
Big data-simonetta
Big data-simonettaBig data-simonetta
Big data-simonetta
 
Data mining, business intelligence e dintorni
Data mining, business intelligence e dintorniData mining, business intelligence e dintorni
Data mining, business intelligence e dintorni
 

Andere mochten auch

Machine Learning
Machine LearningMachine Learning
Machine Learning
butest
 
Reti Neurali
Reti NeuraliReti Neurali
Reti Neurali
Agabiti25
 
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010
makirs
 

Andere mochten auch (20)

Introduzione ai Big Data e alla scienza dei dati - Sistemi di raccomandazione
Introduzione ai Big Data e alla scienza dei dati - Sistemi di raccomandazioneIntroduzione ai Big Data e alla scienza dei dati - Sistemi di raccomandazione
Introduzione ai Big Data e alla scienza dei dati - Sistemi di raccomandazione
 
Introduzione ai Big Data e alla scienza dei dati - Big Data
Introduzione ai Big Data e alla scienza dei dati - Big DataIntroduzione ai Big Data e alla scienza dei dati - Big Data
Introduzione ai Big Data e alla scienza dei dati - Big Data
 
[SLIDE] Tecniche basate su machine learning per la determinazione del profilo...
[SLIDE] Tecniche basate su machine learning per la determinazione del profilo...[SLIDE] Tecniche basate su machine learning per la determinazione del profilo...
[SLIDE] Tecniche basate su machine learning per la determinazione del profilo...
 
Sistemi E Metodologie Di Mappatura
Sistemi E Metodologie Di MappaturaSistemi E Metodologie Di Mappatura
Sistemi E Metodologie Di Mappatura
 
Sistemi di raccomandazione
Sistemi di raccomandazioneSistemi di raccomandazione
Sistemi di raccomandazione
 
TweetMonitor: approcci Machine Learning e lessicali per la Sentiment Analysis...
TweetMonitor: approcci Machine Learning e lessicali per la Sentiment Analysis...TweetMonitor: approcci Machine Learning e lessicali per la Sentiment Analysis...
TweetMonitor: approcci Machine Learning e lessicali per la Sentiment Analysis...
 
Smau Firenze 2015 - Startupitalia!
Smau Firenze 2015 - Startupitalia!Smau Firenze 2015 - Startupitalia!
Smau Firenze 2015 - Startupitalia!
 
RETI NEURALI ARTIFICIALI E RETI NEURALI BAYESIANE
RETI NEURALI ARTIFICIALI E RETI NEURALI BAYESIANERETI NEURALI ARTIFICIALI E RETI NEURALI BAYESIANE
RETI NEURALI ARTIFICIALI E RETI NEURALI BAYESIANE
 
"APPLICAZIONI DI MACHINE LEARNING NEL DIGITAL OUT OF HOME
"APPLICAZIONI DI MACHINE LEARNING NEL DIGITAL OUT OF HOME"APPLICAZIONI DI MACHINE LEARNING NEL DIGITAL OUT OF HOME
"APPLICAZIONI DI MACHINE LEARNING NEL DIGITAL OUT OF HOME
 
MASTER "re-design Medicine" THE BOOKLET
MASTER "re-design Medicine" THE BOOKLETMASTER "re-design Medicine" THE BOOKLET
MASTER "re-design Medicine" THE BOOKLET
 
Machine Learning
Machine LearningMachine Learning
Machine Learning
 
Game of Thrones Infographic
Game of Thrones InfographicGame of Thrones Infographic
Game of Thrones Infographic
 
Tecniche basate su machine learning per la determinazione del profilo di un a...
Tecniche basate su machine learning per la determinazione del profilo di un a...Tecniche basate su machine learning per la determinazione del profilo di un a...
Tecniche basate su machine learning per la determinazione del profilo di un a...
 
Le competenze che contano Ci sono un sacco di posti di lavoro che gli italia...
Le competenze che contano Ci sono un sacco di posti di lavoro  che gli italia...Le competenze che contano Ci sono un sacco di posti di lavoro  che gli italia...
Le competenze che contano Ci sono un sacco di posti di lavoro che gli italia...
 
Presentazione bigdata Madee
Presentazione bigdata MadeePresentazione bigdata Madee
Presentazione bigdata Madee
 
Big Data processing: un sistema scalabile per la Sentiment Analysis
Big Data processing: un sistema scalabile per la Sentiment AnalysisBig Data processing: un sistema scalabile per la Sentiment Analysis
Big Data processing: un sistema scalabile per la Sentiment Analysis
 
Reti Neurali
Reti NeuraliReti Neurali
Reti Neurali
 
Corso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti NeuraliCorso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti Neurali
 
Corso analisi e comunicazione dei dati 2014
Corso analisi e comunicazione dei dati 2014Corso analisi e comunicazione dei dati 2014
Corso analisi e comunicazione dei dati 2014
 
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010
Presentazione Manuel Kirschner, Phd symposium UniBZ, 12/2010
 

Ähnlich wie Le tecnologie dei Big Data

Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca BioinformaticaGiacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
eventi-ITBbari
 
Energy Business Intelligence: caso di studio al Politecnico di Torino
Energy Business Intelligence: caso di studio al Politecnico di TorinoEnergy Business Intelligence: caso di studio al Politecnico di Torino
Energy Business Intelligence: caso di studio al Politecnico di Torino
matteo paracchino
 
OpenGeoData Italia - Luigi Scarpa "I professionisti riusano i dati open"
OpenGeoData Italia - Luigi Scarpa "I professionisti riusano i dati open"OpenGeoData Italia - Luigi Scarpa "I professionisti riusano i dati open"
OpenGeoData Italia - Luigi Scarpa "I professionisti riusano i dati open"
OpenGeoDataItalia
 
Analytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggiAnalytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggi
Filippo Ragazzo
 

Ähnlich wie Le tecnologie dei Big Data (20)

DS4Biz - Data Science for Business
DS4Biz - Data Science for BusinessDS4Biz - Data Science for Business
DS4Biz - Data Science for Business
 
Montefiori Erica Hera Elective Master
Montefiori Erica Hera Elective MasterMontefiori Erica Hera Elective Master
Montefiori Erica Hera Elective Master
 
Big data & opendata
Big data & opendataBig data & opendata
Big data & opendata
 
Presentazione - Utilizzo di tecnologie Big Data per adddestramento di metamod...
Presentazione - Utilizzo di tecnologie Big Data per adddestramento di metamod...Presentazione - Utilizzo di tecnologie Big Data per adddestramento di metamod...
Presentazione - Utilizzo di tecnologie Big Data per adddestramento di metamod...
 
CV completo
CV completoCV completo
CV completo
 
Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca BioinformaticaGiacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
 
Energy Business Intelligence: caso di studio al Politecnico di Torino
Energy Business Intelligence: caso di studio al Politecnico di TorinoEnergy Business Intelligence: caso di studio al Politecnico di Torino
Energy Business Intelligence: caso di studio al Politecnico di Torino
 
Data & analytics framework malerba
Data & analytics framework   malerbaData & analytics framework   malerba
Data & analytics framework malerba
 
Big Data e la forza degli eventi - Intervento di Lieto
Big Data e la forza degli eventi - Intervento di LietoBig Data e la forza degli eventi - Intervento di Lieto
Big Data e la forza degli eventi - Intervento di Lieto
 
OfficeAutomat_01_11_14
OfficeAutomat_01_11_14OfficeAutomat_01_11_14
OfficeAutomat_01_11_14
 
OpenGeoData Italia - Luigi Scarpa "I professionisti riusano i dati open"
OpenGeoData Italia - Luigi Scarpa "I professionisti riusano i dati open"OpenGeoData Italia - Luigi Scarpa "I professionisti riusano i dati open"
OpenGeoData Italia - Luigi Scarpa "I professionisti riusano i dati open"
 
jValidator The first Data Quality Firewall open source!
jValidator The first Data Quality Firewall open source!jValidator The first Data Quality Firewall open source!
jValidator The first Data Quality Firewall open source!
 
InsulaR: una comunità cagliaritana di utenti di R
InsulaR: una comunità cagliaritana di utenti di RInsulaR: una comunità cagliaritana di utenti di R
InsulaR: una comunità cagliaritana di utenti di R
 
InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)
InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)
InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)
 
Industria 4.0: Introduzione - Dottor Bruno Belluccia
Industria 4.0: Introduzione - Dottor Bruno BellucciaIndustria 4.0: Introduzione - Dottor Bruno Belluccia
Industria 4.0: Introduzione - Dottor Bruno Belluccia
 
Analytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggiAnalytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggi
 
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
 
Il mondo dei Big Data
Il mondo dei Big DataIl mondo dei Big Data
Il mondo dei Big Data
 
Workshop di co-progettazione: open data, wi-fi, inclusione digitale
Workshop di co-progettazione: open data, wi-fi, inclusione digitaleWorkshop di co-progettazione: open data, wi-fi, inclusione digitale
Workshop di co-progettazione: open data, wi-fi, inclusione digitale
 
Big data analytics vaccari oct2013
Big data analytics vaccari oct2013Big data analytics vaccari oct2013
Big data analytics vaccari oct2013
 

Le tecnologie dei Big Data

  • 1. LE TECNOLOGIE DEI BIG DATA Ordine degli Ingegneri della Provincia di Bergamo, 7 giugno 2014 ! Ing. Vincenzo Manzoni, PhD me@vincenzomanzoni.com
  • 2. WORKFLOW Acquisizione Elaborazione Output Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 2 Dati grezzi (raw) Processing Dataset Modelli statistici (Analisi) Machine Learning (Previsione) Data driven products Report, visualizzazioni, post su blog
  • 3. WORKFLOW Acquisizione Elaborazione Output Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 3 Dati grezzi (raw) Processing Dataset Modelli statistici (Analisi) Machine Learning (Previsione) Data driven products Report, visualizzazioni, post su blog
  • 4. MACHINE LEARNING DEFINIZIONE Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 4 • In italiano, apprendimento automatico • Area dell’Intelligenza Artificiale (AI, Artificial Intelligence) che studia gli algoritmi che permettono alle macchine di apprendere. • Gli algoritmi si basano su osservazioni - dati - per fare la sintesi della conoscenza. • Usi: • Sistemi di raccomandazione • Anomaly/fraud detection • Customer churn • Market segmentation
  • 5. MACHINE LEARNING PROCESSO DI ADDESTRAMENTO Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 5 Creazione degli insieme di addestramento e di test Dataset Insieme di addestramento Insieme di test Creazione del modello Validazione del modello Modello validato Modello
  • 6. MACHINE LEARNING PRINCIPALI TIPOLOGIE DI ALGORITMI Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 6 • Apprendimento supervisionato • Apprendimento non supervisionato
  • 7. MACHINE LEARNING APPRENDIMENTO SUPERVISIONATO Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 7
  • 8. APPRENDIMENTO SUPERVISIONATO CLASSE DISCRETA A priori ho informazioni sulla classe (grigia o arancione) a cui appartengono le osservazioni. Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 8 x1 x2 ? A quale classe appartiene un nuovo punto, mai osservato, di cui non conosco a priori la classe? Problema di classificazione
  • 9. APPRENDIMENTO SUPERVISIONATO CLASSE DISCRETA Con un primo separatore, la nuova istanza viene attribuita alla classe arancione. Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 9 x1 x2
  • 10. APPRENDIMENTO SUPERVISIONATO CLASSE DISCRETA Con un secondo separatore, la nuova istanza viene attribuita alla classe grigia. Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 10 x1 x2 Esiste un separatore ottimo?
  • 11. APPRENDIMENTO SUPERVISIONATO CLASSE DISCRETA Gli algoritmi di apprendimento supervisionato permettono, dato un insieme di addestramento (training) di determinare il separatore ottimo secondo una certa funzione di costo. Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 11 x1 x2 Separatore ottimo secondo una certa funzione di costo
  • 12. K-NEAREST NEIGHBORS • Il riconoscimento avviene sulla base degli oggetti vicini a quello considerato. • Il parametro k indica quanti vicini considerare. • Può essere usato per stimare classi discrete (classificazione) o variabili continue (regressione) Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 12 x1 x2 k=1 k=5 k=2
  • 13. ALBERI DI DECISIONE • E’ un algoritmo di classificazione trasparente. Una volta addestrato, è rappresentabile con una serie di se, allora, altrimenti. • Una versione evoluta è il Random Forest prevede l’utilizzo di più alberi. Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 13
  • 14. MACHINE LEARNING APPRENDIMENTO NON SUPERVISIONATO Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 14
  • 15. APPRENDIMENTO NON SUPERVISIONATO A priori, non ho informazioni sulla classe a cui appartengono le mie osservazioni. Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 15 x1 x2
  • 16. APPRENDIMENTO NON SUPERVISIONATO Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 16 Anche in questo caso, si possono raggruppare i punti secondo criteri diversi. x1 x2 x1 x2 Esiste un raggruppamento ottimo?
  • 17. DEMO 1 Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 17 Anche in questo caso, si possono raggruppare i punti secondo criteri diversi. x1 x2 x1 x2 Esiste un raggruppamento ottimo?
  • 18. DEMO 1 • Siete l’analista dati di un provider di telefonia. Il vostro obiettivo è di capire se nei prossimi 6 mesi un cliente lascerà sulla base del suo profilo d’uso. • Il profilo d’uso di un utente è descritto da 4 variabili: 1. Uso voce (minuti / mese) 2. Uso dati (MB / mese) 3. Chiamate al servizio clienti 4. Ritardo nei pagamenti (mesi) Id Uso voce Uso da+ Chiamate al servizio clien+ Ritardo pagamen+ Lascia? 1 3.20 22.85 0 1 VERO 2 36.42 67.40 2 1 FALSO 3 5.44 148.13 1 0 FALSO … Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 19. DEMO 1 Mesi di ritardo nei pagamenti Ritardo (mesi) Non chiude Chiude 0 100 0 1 89 11 2 73 24 3 77 23 Considerando solo mesi di ritardo, il nostro sistema correttamente solo il 24% delle istanze. Proviamo a aggiungere una variabile… Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 20. DEMO 1 Chiamate al servizio clienti Mesi di ritardo nei pagamenti Si può arrivare al 50% di accuratezza, ma i clienti coinvolti sono pochi. Proviamo con un nuovo approccio! Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 21. DEMO 1 http://orange.biolab.si Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 22. HADOOP • Framework che supporta applicazioni distribuite con alto accesso ai dati. • Sviluppato attivamente da Yahoo, è stato ispirato dalla MapReduce di Google e dal Google File System. • È composto da: • HDFS: un filesystem distribuito • Hadoop Common: un insieme di librerie per l’accesso a HDFS. Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 23. LE TECNOLOGIE DEI BIG DATA PROCESSO DI ADDESTRAMENTO Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 23
  • 24. HADOOP ARCHITETTURA Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 25. HIVE • Tecnologia per interrogare i Big Data come se fossero tabelle SQL. • HiveQL • Produce in modo trasparente software Map Reduce. • Inizialmente sviluppato da Facebook. Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 26. HIVEQL • Linguaggio dichiarativo • Si specifica cosa si vuole, non come ottenerle (come SQL). • Simile, ma non del tutto identico a SQL. • Esempi: • SELECT COUNT(*) FROM nyse_stocks • SELECT AVG(stock_price_close) FROM nyse_stocks WHERE stock_symbols=‘IBM’ Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 27. PIG • Piattaforma per creare programmi Map Reduce. • Astrae la scrittura di programmi Map Reduce in un linguaggio di più alto livello (Pig Latin). • Inizialmente sviluppato da Yahoo. Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 28. PIG • Linguaggio procedurale. • Si specificano i vari passi per ottenere un risultato (come C, Python, R, Java, …) • Esempio: a = LOAD 'nyse_stocks' using org.apache.hcatalog.pig.HCatLoader(); b = filter a by stock_symbol == 'IBM'; c = group b all; d = foreach c generate AVG(b.stock_price_close); dump d; Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 29. Hive Pig HIVE VS PIG Linguaggio di interrogazione HiveQL Pig Latin Introdotto da Facebook Yahoo Tipologia di linguaggio Dichiarativo Procedurale Simile a SQL C, Java, Python, R Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 30. DEMO 2 • Esempio d’uso di Hive da pannello di controllo web • Confronto delle prestazioni con una interrogazione MySQL • Esempio d’uso di Hive da console • Esempio d’uso di Pig Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 31. DEMO 2 Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 32. CONFRONTO PRESTAZIONI HADOOP VS MYSQL Prestazioni (minore è meglio) 40 30 20 10 0 MySQL Hadoop Hadoop inizia ad essere conveniente per dataset > di 100-150 GB. 0 50 100 150 200 Dimensione del dataset (GB)
  • 33. IL CLOUD COMPUTING • Insieme di tecnologie offerta da un provider che permettono di memorizzare e elaborare dati grazie a risorse hardware e software distribuite e virtualizzate. Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 34. IL CLOUD COMPUTING CONFRONTO TRA PROVIDERS Provider Servizi offerti URL Dropbox Storage dropbox.com Amazon Web Services (AWS) Storage, calcolo, Hadoop… e molto altro aws.amazon.com Microsoft Azure Storage, calcolo, Hadoop azure.microsoft.com Google Cloud Storage, calcolo, Hadoop, Machine Learning cloud.google.com BigML Machine Learning bigml.com Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 35. AMAZON WEB SERVICES Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 36. ML AS A SERVICE • Servizio che rende trasparente all’utente il processo di scelta del miglior algoritmo di apprendimento supervisionato • L’utente carica nel servizio il proprio dataset di addestramento (spesso, anche quello di test). • Il sistema addestra un modello e notifica l’utente al termine dell’operazione. • A questo punto l’utente può chiedere al modello di classificare nuove istanze. Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni
  • 37. LIBRI DI RIFERIMENTO Introduzione ai Big Data e alla scienza dei dati, Ordine degli Ingegneri della Provincia di Bergamo, 2014. Copyright: Vincenzo Manzoni 37
  • 38. LE TECNOLOGIE DEI BIG DATA Ordine degli Ingegneri della Provincia di Bergamo, 7 giugno 2014 ! Ing. Vincenzo Manzoni, PhD me@vincenzomanzoni.com Slide disponibili qui: http://www.vincenzomanzoni.com/corsi/