SlideShare a Scribd company logo
1 of 38
Download to read offline
Data Mining e modelli
previsionali
Roma 13 settembre 2011
PARTIAMO
Processo di estrazione di conoscenza
da banche dati di grandi dimensioni
tramite l’applicazione di algoritmi che
individuano le associazioni “nascoste”
tra le informazioni e le rendono visibili.
Che cosChe cosChe cosChe cos’è’è’è’è il Datail Datail Datail Data MiningMiningMiningMining
Processo di esplorazione ed analisi,
automatico o semi-automatico, di
un’ampia mole di dati al fine di
scoprire modelli e regole significative
PerchPerchPerchPerchèèèè usare gli strumenti di datausare gli strumenti di datausare gli strumenti di datausare gli strumenti di data miningminingminingmining
Gli algoritmi di Data Mining sono stati sviluppati per far fronte all’esigenza di
sfruttare il patrimonio informativo contenuto nelle grandi raccolte di dati
che si hanno a disposizione.
Acquisire informazioni non è
un problema se si pensa alla
ricchezza delle sorgenti di
dati accessibili sul web o
attraverso Data Warehouse
aziendali, il problema è
utilizzarle.
volumevolume
valore
dati
informazione
conoscenza
decisione
Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)
Data Mining come parte di un processo più generale definito
Knowledge Discovery in Database (KDD)
Essenza del Data Mining è la trasformazione dei dati in risultati
applicabili
Data Mining
Database
Technology
Statistica
Altre discipline
Information
Science
Machine
Learning
Visualizzazione
Il dataIl dataIl dataIl data miningminingminingmining èèèè la somma di discipline diversela somma di discipline diversela somma di discipline diversela somma di discipline diverse
Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica
1960 1970 1980
1990-
2000
Raccolta dati,
modelli gerarchici
e relazionali
Diffusione DBMS
relazionali commerciali
Modello relazionale dei dati,
primi DMBS relazionali
Data mining e
data warehousing
Modelli
predittivi
2000-
2011
Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica
1960 1970 1980
1990-
2000
Raccolta
dati
Quanto ho
venduto negli
ultimi 3 anni
Accesso
ai dati
Quanto ho
venduto al Nord
lo scorso gennaio?
Viste le vendite al
nord, quale è il
dettaglio per città?
Query a
database
Data Mining
Perché vendiamo
di più in alcune
città?
1990-
2000
Modelli
predittivi
Dove/a chi potrò
vendere di più?
Il ciclo virtuoso del dataIl ciclo virtuoso del dataIl ciclo virtuoso del dataIl ciclo virtuoso del data miningminingminingmining
Individuazione
dei problemi e dei settori di business
per cui l’analisi può essere utile
Trasformazione
in informazioni applicabili (actionable)
con le tecniche del data mining
Azione
sulla base delle informazioni
Misurazione
Dei risultati ottenuti per avere info utili
su come utilizzare al meglio i dati
DataDataDataData MiningMiningMiningMining e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence
La business intelligence è un insieme di processi e sistemi che consentono di
trasformare i dati generati dalle attività aziendali in informazioni.
Il data mining è una “tecnica” di Business Intelligence
Ambiente dati
a supporto
delle decisioni
manageriali
Integrato
Subject-oriented
Non Volatile
Tante fonti
eterogenee
racchiuse in un
unico contenitore
Creazione
vantaggio
competitivo
Pianificazione
strategie di
medio-lungo
periodoOttimizzazione
dei processi
Knowledge
Discovery in
Database
DataDataDataData MiningMiningMiningMining, Data, Data, Data, Data WarehouseWarehouseWarehouseWarehouse e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence
DataDataDataData MiningMiningMiningMining e OLAPe OLAPe OLAPe OLAP
OLAP
Analisi del contenuto
attraverso lo studio di
aggregazioni guidate
dall’utente
Data Mining
“estrazione di conoscenza
(non banale, implicita,
nuova, potenzialmente
utile) da grandi quantità di
informazioni”
Cosa sta
succedendo
Perché sta
succedendo
PREVISIONE
Data
Mining
RAGGRUPPAMENTO
CLASSIFICAZIONE
DESCRIZIONE
VISUALIZZAZIONE
STIMA
CLUSTERING
Data mining
“diretto”
i dati disponibili vengono
usati per creare un
modello che descriva una
variabile
Data mining
“indiretto”
si cerca di stabilire una
ben precisa relazione tra
tutte le variabili in gioco
CosaCosaCosaCosa puopuopuopuo’’’’ fare il datafare il datafare il datafare il data miningminingminingmining: aree di applicazioni: aree di applicazioni: aree di applicazioni: aree di applicazioni
Contesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecniche
CLASSIFICAZIONE SEGMENTAZIONE PREVISONE
ANALISI
ASSOCIAZIONI
CLASSIFICAZIONE
FRAUD DETECTION
CLUSTER ANALYSIS
CREDIT SCORING
CROSS SELLING
SCORING
PROMOZIONALE
CHURN ANALYSIS
Contesto applicativoContesto applicativoContesto applicativoContesto applicativo
DATA
MINING
SUB
POINT
EFFICIENTE
DISTRIBUZIONE
RISORSE
INDIVIDUAZIONE
TARGET
REMUNERATIVI
OPPORTUNITA’
DI CRESCITA
AUMENTO
PRODUTTIVITA’
UP/ CROSS
SELLING
FIDELIZZAZIONE
RIDUZIONE
RISCHI FRODE
Contesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempi
Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining
MODELLI
EFFICACI
I DATI
DATA MINING
TECNICHE
Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi
Le tecniche di data mining non sono altro che un generale
approccio alla soluzione dei problemi ed esistono molti modi per
realizzarle.
Ognuno di questi modi rappresenta un diverso algoritmo.
tecnica
algoritmo
La tecnica è l’approccio concettuale che porta
all’estrazione delle informazioni dai dati
È il la formula che viene utilizzata per
l’implementazione di una tecnica
Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi
Il data mining puo’ essere descrittivo, o prescrittivo in base
all’obiettivo dell’analisi che si sta svolgendo
DESCRITTIVO
PRESCRITTIVO
TECNICHE
L’obiettivo è approfondire la conoscenza di cio’ che
avviene all’interno dei dati e quindi del mondo che
rispecchiano.
Le azioni non possono essere automatizzate
L’obiettivo principale è l’automazione del processo
decisionale ottenuta creando un modello in grado di
dare una previsione o stimare un valore
Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining
Con il termine cluster si intende un gruppo di unità simili o vicine tra
loro, dal punto di vista della posizione o della composizione
CLUSTERING
K-Means
Method
Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining
Un albero di decisione viene utilizzato per classificare le istanze di
grandi quantità di dati (per questo viene anche chiamato albero di
classificazione). In questo ambito un albero di decisione descrive una
struttura ad albero dove i nodi foglia rappresentano le classificazioni e
le ramificazioni l'insieme delle proprietà che portano a quelle
classificazioni.
ALBERI DECISIONALI
Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining
Le reti neurali rappresentano la tecnica più nota di data mining, ma
forse anche la meno compresa. Ciò è dovuto in gran parte alla
terminologia delle scienze cognitive da cui deriva il suo nome.
L’obiettivo dei primi modelli era infatti replicare il comportamento
delle cellule nervose umane.
Le reti neurali dal punto di vista del data mining non sono altro che
un metodo per applicare un modello a dati storici al fine di poter
ricavar classificazioni o previsioni.
RETI NEURALI
Modelli di reti neuraliModelli di reti neuraliModelli di reti neuraliModelli di reti neurali
Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining
MODELLI
EFFICACI
I DATI
DATA MINING
TECNICHE
I 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del data miningminingminingmining: dati: dati: dati: dati
Il secondo pilastro su cui poggia il data mining è rappresentato dai
dati utilizzati nel processo: senza di essi, il data mining non sarebbe
possibile e potrebbe contare solamente su qualche intuizione.
I dati assumono le forme più disparate, sono di tipo diversi e si
trovano in molti sistemi; sono “quasi sempre” sporchi, incompleti e
talvolta indecifrabili.
I dati sono la
materia prima del
data mining
Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining
MODELLI
EFFICACI
I DATI
DATA MINING
TECNICHE
I 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del data miningminingminingmining: modellazione: modellazione: modellazione: modellazione
Il terzo pilastro è rappresentato da una serie di competenze di
modellistica necessarie per costruire modelli.
Il data mining viene applicato per lo più per costruire modelli
previsionali che rilevano pattern significativi sui dati accumulati al
fine di fare previsioni relative ad esiti futuri.
Lo scopo dei modelli è l’utilizzo delle previsioni per prendere
decisioni più informate.
2 stili di data2 stili di data2 stili di data2 stili di data miningminingminingmining
SUPERVISIONATO
NON SUPERVISIONATO
STILI DI DATA
MINING
E’ un approccio top-down applicabile
quando sappiamo che cosa stiamo
cercando, ed assume spesso la forma di
modelli previsionali.
E’ un approccio bottom–up in cui si lascia che
i dati stessi indichino un risultato.
Spetta all’utente stabilirne l’importanza.
I modelli predittivi realizzabili con gli strumenti di data mining sono
essenzialmente di due tipi:
29
The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:
Decision
Optimization
Recommend
the most
appropriate
action
to take
Enterprise
Data Sources
Read new data
on customers,
events, etc. for
continuous
improvement
Predictive Analytics
Analyze data to
provide insight and
predict the future
Acquisire
Modelli predittivi
Improve customer retention
Grow share of wallet
Minimize risk
Increase customer satisfaction
Enhance market share
Prospects
Customers Constituents
Employees
Students Patients
Agire
Dashboards
Kiosks / Mobile
CRM / ERP
Sterling Apps
I modelli previsionaliI modelli previsionaliI modelli previsionaliI modelli previsionali
Il modello predittivo è rappresentato da una black box: a volte non
interessa il meccanismo di funzionamento ma interessa la migliore
previsione possibile.
Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
Dati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempo
Il passato serve a prevedere il futuro
Per costruire un modello
efficace, i dati nel set di
costruzione devono imitare
il timeframe in cui il
modello verrà applicato
Misurazione dellMisurazione dellMisurazione dellMisurazione dell’’’’efficaciaefficaciaefficaciaefficacia
Matrice di Confusione: matrice che permette di individuare quali
tra le previsioni fornite dal modello previsionale siano corrette e
quali errate
Curva Lift: grafico che raffigura le prestazioni di un modello
previsionale come funzione della dimensione del campione.
Il confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROC
Le curve ROC furono utilizzate per la prima volta da alcuni
ingegneri elettrici durante la seconda guerra mondiale, che volevano
scovare i nemici utilizzando il radar durante le battaglie.
Recentemente invece le curve ROC sono utilizzate anche in
medicina, radiologia, psicologia, veterinaria e altri ambiti, come
machine learning e data mining.
La statistica di sintesi per
valutare l’accuratezza di un
modello predittivo è l’area
sottesa alla curva (AUC)
DataDataDataData miningminingminingmining e fraud managemente fraud managemente fraud managemente fraud management
Grandi quantità di dati
Associazioni nascoste
Trasformazione dei dati in risultati applicabili
Modelli previsionali
38
Stefano M. de Rossi
smderossi@admind.it
www.admind.it
www.andreadimartino.wordpress.com
www.facebook.com/admind

More Related Content

What's hot

Data mining PPT
Data mining PPTData mining PPT
Data mining PPT
Kapil Rode
 
Introduction To Data Mining
Introduction To Data Mining   Introduction To Data Mining
Introduction To Data Mining
Phi Jack
 

What's hot (20)

The Evolution of Business Intelligence
The Evolution of Business IntelligenceThe Evolution of Business Intelligence
The Evolution of Business Intelligence
 
Data mining PPT
Data mining PPTData mining PPT
Data mining PPT
 
Introduction To Data Mining
Introduction To Data Mining   Introduction To Data Mining
Introduction To Data Mining
 
What is Data mining? Data mining Presentation
What is Data mining? Data mining Presentation What is Data mining? Data mining Presentation
What is Data mining? Data mining Presentation
 
Data Mining
Data MiningData Mining
Data Mining
 
Guide to Data Monetization
Guide to Data MonetizationGuide to Data Monetization
Guide to Data Monetization
 
Data mining presentation.ppt
Data mining presentation.pptData mining presentation.ppt
Data mining presentation.ppt
 
Apriori algorithm
Apriori algorithmApriori algorithm
Apriori algorithm
 
Dall’internet delle cose all'industria 4.0
Dall’internet delle cose all'industria 4.0Dall’internet delle cose all'industria 4.0
Dall’internet delle cose all'industria 4.0
 
The Rise of the DataOps - Dataiku - J On the Beach 2016
The Rise of the DataOps - Dataiku - J On the Beach 2016 The Rise of the DataOps - Dataiku - J On the Beach 2016
The Rise of the DataOps - Dataiku - J On the Beach 2016
 
data-mining-tutorial.ppt
data-mining-tutorial.pptdata-mining-tutorial.ppt
data-mining-tutorial.ppt
 
Data Warehousing Datamining Concepts
Data Warehousing Datamining ConceptsData Warehousing Datamining Concepts
Data Warehousing Datamining Concepts
 
What Is DATA MINING(INTRODUCTION)
What Is DATA MINING(INTRODUCTION)What Is DATA MINING(INTRODUCTION)
What Is DATA MINING(INTRODUCTION)
 
Data Mining: an Introduction
Data Mining: an IntroductionData Mining: an Introduction
Data Mining: an Introduction
 
Data Monetization
Data MonetizationData Monetization
Data Monetization
 
Introduction to Data mining
Introduction to Data miningIntroduction to Data mining
Introduction to Data mining
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Dojo 02 : Introduction au noSQL
Dojo 02 : Introduction au noSQLDojo 02 : Introduction au noSQL
Dojo 02 : Introduction au noSQL
 
Les méta moteurs de recherche
Les méta moteurs de rechercheLes méta moteurs de recherche
Les méta moteurs de recherche
 
Data Mining : Concepts
Data Mining : ConceptsData Mining : Concepts
Data Mining : Concepts
 

Viewers also liked

Seminario Di Data Mining
Seminario Di Data MiningSeminario Di Data Mining
Seminario Di Data Mining
valuccia84
 
Data mining slides
Data mining slidesData mining slides
Data mining slides
smj
 

Viewers also liked (17)

Seminario Di Data Mining
Seminario Di Data MiningSeminario Di Data Mining
Seminario Di Data Mining
 
Data Mining e Open Data
Data Mining e Open Data Data Mining e Open Data
Data Mining e Open Data
 
Data mining in support of fraud management
Data mining in support of fraud managementData mining in support of fraud management
Data mining in support of fraud management
 
Fraud Management System - ISACA
Fraud Management System - ISACAFraud Management System - ISACA
Fraud Management System - ISACA
 
Cfca Global Fraud Loss Survey2009
Cfca Global Fraud Loss Survey2009Cfca Global Fraud Loss Survey2009
Cfca Global Fraud Loss Survey2009
 
Mind mapping
Mind mapping Mind mapping
Mind mapping
 
Tackling Card not present Fraud
Tackling Card not present FraudTackling Card not present Fraud
Tackling Card not present Fraud
 
Merging fraud in a full IP environment
Merging fraud in a full IP environmentMerging fraud in a full IP environment
Merging fraud in a full IP environment
 
Marmarati - La campagna di lancio di We Are Social per Marmite XO
Marmarati - La campagna di lancio di We Are Social per Marmite XO Marmarati - La campagna di lancio di We Are Social per Marmite XO
Marmarati - La campagna di lancio di We Are Social per Marmite XO
 
CRM Value proposition - smdr
CRM Value proposition - smdrCRM Value proposition - smdr
CRM Value proposition - smdr
 
Social Media Security
Social Media SecuritySocial Media Security
Social Media Security
 
Come diventare data scientist - Paolo Pellegrini
Come diventare data scientist - Paolo PellegriniCome diventare data scientist - Paolo Pellegrini
Come diventare data scientist - Paolo Pellegrini
 
Data Mining:Concepts and Techniques, Chapter 8. Classification: Basic Concepts
Data Mining:Concepts and Techniques, Chapter 8. Classification: Basic ConceptsData Mining:Concepts and Techniques, Chapter 8. Classification: Basic Concepts
Data Mining:Concepts and Techniques, Chapter 8. Classification: Basic Concepts
 
Data mining: Classification and prediction
Data mining: Classification and predictionData mining: Classification and prediction
Data mining: Classification and prediction
 
Mobile Payment fraud & risk assessment
Mobile Payment fraud & risk assessmentMobile Payment fraud & risk assessment
Mobile Payment fraud & risk assessment
 
Data mining
Data miningData mining
Data mining
 
Data mining slides
Data mining slidesData mining slides
Data mining slides
 

Similar to introduzione al data mining

130 FN 90 Febbraio 2017 - Tavola Rotonda L'analisi tanto attesa - Fieldbus & ...
130 FN 90 Febbraio 2017 - Tavola Rotonda L'analisi tanto attesa - Fieldbus & ...130 FN 90 Febbraio 2017 - Tavola Rotonda L'analisi tanto attesa - Fieldbus & ...
130 FN 90 Febbraio 2017 - Tavola Rotonda L'analisi tanto attesa - Fieldbus & ...
Cristian Randieri PhD
 
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
Denodo
 
data mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftwaredata mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftware
lorenzov
 

Similar to introduzione al data mining (20)

Data Mining per il supporto alle decisioni aziendali (Presentazione Tesi di L...
Data Mining per il supporto alle decisioni aziendali (Presentazione Tesi di L...Data Mining per il supporto alle decisioni aziendali (Presentazione Tesi di L...
Data Mining per il supporto alle decisioni aziendali (Presentazione Tesi di L...
 
4a Data Mining e motori computazionali
4a Data Mining e motori computazionali4a Data Mining e motori computazionali
4a Data Mining e motori computazionali
 
130 FN 90 Febbraio 2017 - Tavola Rotonda L'analisi tanto attesa - Fieldbus & ...
130 FN 90 Febbraio 2017 - Tavola Rotonda L'analisi tanto attesa - Fieldbus & ...130 FN 90 Febbraio 2017 - Tavola Rotonda L'analisi tanto attesa - Fieldbus & ...
130 FN 90 Febbraio 2017 - Tavola Rotonda L'analisi tanto attesa - Fieldbus & ...
 
Data mining Winter Lab conference
Data mining Winter Lab conferenceData mining Winter Lab conference
Data mining Winter Lab conference
 
Big data e data analitycs come e cosa fare dei dati raccolti
Big data e data analitycs come e cosa fare dei dati raccoltiBig data e data analitycs come e cosa fare dei dati raccolti
Big data e data analitycs come e cosa fare dei dati raccolti
 
Il data warehouse nella business intelligence
Il data warehouse nella business intelligenceIl data warehouse nella business intelligence
Il data warehouse nella business intelligence
 
2014 ottobre Big Data per Madee 6
2014 ottobre Big Data per Madee 62014 ottobre Big Data per Madee 6
2014 ottobre Big Data per Madee 6
 
La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data mining
 
Big Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaBig Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital Accademia
 
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
 
Presentazione bigdata Madee
Presentazione bigdata MadeePresentazione bigdata Madee
Presentazione bigdata Madee
 
Data Mining
Data MiningData Mining
Data Mining
 
Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...
Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...
Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...
 
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
 
Data Mining
Data MiningData Mining
Data Mining
 
Data Governance at work
Data Governance at workData Governance at work
Data Governance at work
 
Articolo qualita 3_2018_nicola_mezzetti
Articolo qualita 3_2018_nicola_mezzettiArticolo qualita 3_2018_nicola_mezzetti
Articolo qualita 3_2018_nicola_mezzetti
 
Big Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla praticaBig Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla pratica
 
data mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftwaredata mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftware
 
Pug piccola panoramica su grandi scenari
Pug piccola panoramica su grandi scenariPug piccola panoramica su grandi scenari
Pug piccola panoramica su grandi scenari
 

More from Stefano Maria De' Rossi

More from Stefano Maria De' Rossi (18)

Tecniche di Data Mining a supporto del fraud management
Tecniche di Data Mining a supporto del fraud managementTecniche di Data Mining a supporto del fraud management
Tecniche di Data Mining a supporto del fraud management
 
Crm value proposition
Crm value propositionCrm value proposition
Crm value proposition
 
2015 GALA breve presentazione_12.05
2015 GALA breve presentazione_12.052015 GALA breve presentazione_12.05
2015 GALA breve presentazione_12.05
 
GALA breve presentazione maggio 2015
GALA breve presentazione maggio 2015GALA breve presentazione maggio 2015
GALA breve presentazione maggio 2015
 
2015 GALA presentazione apr2016
2015 GALA presentazione apr20162015 GALA presentazione apr2016
2015 GALA presentazione apr2016
 
slide PROGEDIL PS da paura
slide PROGEDIL  PS da paura slide PROGEDIL  PS da paura
slide PROGEDIL PS da paura
 
Presentazione AD Mind 2012
Presentazione AD Mind 2012Presentazione AD Mind 2012
Presentazione AD Mind 2012
 
Storia della bambina e della stella marina
Storia della bambina e della stella marinaStoria della bambina e della stella marina
Storia della bambina e della stella marina
 
Presentazione ADM 2011
Presentazione ADM 2011Presentazione ADM 2011
Presentazione ADM 2011
 
Competitive_intelligence
Competitive_intelligenceCompetitive_intelligence
Competitive_intelligence
 
Identifying high value customers
Identifying high value customersIdentifying high value customers
Identifying high value customers
 
Costruire la relazione
Costruire la relazioneCostruire la relazione
Costruire la relazione
 
Using business intelligence for competitive advantage
Using business intelligence for competitive advantageUsing business intelligence for competitive advantage
Using business intelligence for competitive advantage
 
Competitive intelligence overview
Competitive intelligence overviewCompetitive intelligence overview
Competitive intelligence overview
 
Studio Labsus v2009
Studio Labsus v2009Studio Labsus v2009
Studio Labsus v2009
 
E Fraud And Predictive Forensic Profiling Reducing Losses By Combining Sci...
E Fraud And Predictive Forensic Profiling    Reducing Losses By Combining Sci...E Fraud And Predictive Forensic Profiling    Reducing Losses By Combining Sci...
E Fraud And Predictive Forensic Profiling Reducing Losses By Combining Sci...
 
Competitive Intelligence e Risk Managment
Competitive Intelligence e Risk ManagmentCompetitive Intelligence e Risk Managment
Competitive Intelligence e Risk Managment
 
Customer Profiling & Predictive Analysis
Customer Profiling & Predictive AnalysisCustomer Profiling & Predictive Analysis
Customer Profiling & Predictive Analysis
 

Recently uploaded

Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
lorenzodemidio01
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
giorgiadeascaniis59
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
lorenzodemidio01
 

Recently uploaded (19)

Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 

introduzione al data mining

  • 1. Data Mining e modelli previsionali Roma 13 settembre 2011
  • 3. Processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano le associazioni “nascoste” tra le informazioni e le rendono visibili. Che cosChe cosChe cosChe cos’è’è’è’è il Datail Datail Datail Data MiningMiningMiningMining Processo di esplorazione ed analisi, automatico o semi-automatico, di un’ampia mole di dati al fine di scoprire modelli e regole significative
  • 4. PerchPerchPerchPerchèèèè usare gli strumenti di datausare gli strumenti di datausare gli strumenti di datausare gli strumenti di data miningminingminingmining Gli algoritmi di Data Mining sono stati sviluppati per far fronte all’esigenza di sfruttare il patrimonio informativo contenuto nelle grandi raccolte di dati che si hanno a disposizione. Acquisire informazioni non è un problema se si pensa alla ricchezza delle sorgenti di dati accessibili sul web o attraverso Data Warehouse aziendali, il problema è utilizzarle. volumevolume valore dati informazione conoscenza decisione
  • 5. Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD) Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD) Essenza del Data Mining è la trasformazione dei dati in risultati applicabili
  • 6. Data Mining Database Technology Statistica Altre discipline Information Science Machine Learning Visualizzazione Il dataIl dataIl dataIl data miningminingminingmining èèèè la somma di discipline diversela somma di discipline diversela somma di discipline diversela somma di discipline diverse
  • 7. Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica 1960 1970 1980 1990- 2000 Raccolta dati, modelli gerarchici e relazionali Diffusione DBMS relazionali commerciali Modello relazionale dei dati, primi DMBS relazionali Data mining e data warehousing Modelli predittivi 2000- 2011
  • 8. Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica 1960 1970 1980 1990- 2000 Raccolta dati Quanto ho venduto negli ultimi 3 anni Accesso ai dati Quanto ho venduto al Nord lo scorso gennaio? Viste le vendite al nord, quale è il dettaglio per città? Query a database Data Mining Perché vendiamo di più in alcune città? 1990- 2000 Modelli predittivi Dove/a chi potrò vendere di più?
  • 9. Il ciclo virtuoso del dataIl ciclo virtuoso del dataIl ciclo virtuoso del dataIl ciclo virtuoso del data miningminingminingmining Individuazione dei problemi e dei settori di business per cui l’analisi può essere utile Trasformazione in informazioni applicabili (actionable) con le tecniche del data mining Azione sulla base delle informazioni Misurazione Dei risultati ottenuti per avere info utili su come utilizzare al meglio i dati
  • 10. DataDataDataData MiningMiningMiningMining e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence La business intelligence è un insieme di processi e sistemi che consentono di trasformare i dati generati dalle attività aziendali in informazioni. Il data mining è una “tecnica” di Business Intelligence
  • 11. Ambiente dati a supporto delle decisioni manageriali Integrato Subject-oriented Non Volatile Tante fonti eterogenee racchiuse in un unico contenitore Creazione vantaggio competitivo Pianificazione strategie di medio-lungo periodoOttimizzazione dei processi Knowledge Discovery in Database DataDataDataData MiningMiningMiningMining, Data, Data, Data, Data WarehouseWarehouseWarehouseWarehouse e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence
  • 12. DataDataDataData MiningMiningMiningMining e OLAPe OLAPe OLAPe OLAP OLAP Analisi del contenuto attraverso lo studio di aggregazioni guidate dall’utente Data Mining “estrazione di conoscenza (non banale, implicita, nuova, potenzialmente utile) da grandi quantità di informazioni” Cosa sta succedendo Perché sta succedendo
  • 13. PREVISIONE Data Mining RAGGRUPPAMENTO CLASSIFICAZIONE DESCRIZIONE VISUALIZZAZIONE STIMA CLUSTERING Data mining “diretto” i dati disponibili vengono usati per creare un modello che descriva una variabile Data mining “indiretto” si cerca di stabilire una ben precisa relazione tra tutte le variabili in gioco CosaCosaCosaCosa puopuopuopuo’’’’ fare il datafare il datafare il datafare il data miningminingminingmining: aree di applicazioni: aree di applicazioni: aree di applicazioni: aree di applicazioni
  • 14. Contesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecniche CLASSIFICAZIONE SEGMENTAZIONE PREVISONE ANALISI ASSOCIAZIONI CLASSIFICAZIONE FRAUD DETECTION CLUSTER ANALYSIS CREDIT SCORING CROSS SELLING SCORING PROMOZIONALE CHURN ANALYSIS
  • 15. Contesto applicativoContesto applicativoContesto applicativoContesto applicativo DATA MINING SUB POINT EFFICIENTE DISTRIBUZIONE RISORSE INDIVIDUAZIONE TARGET REMUNERATIVI OPPORTUNITA’ DI CRESCITA AUMENTO PRODUTTIVITA’ UP/ CROSS SELLING FIDELIZZAZIONE RIDUZIONE RISCHI FRODE
  • 16. Contesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempi
  • 17. Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining MODELLI EFFICACI I DATI DATA MINING TECNICHE
  • 18. Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi Le tecniche di data mining non sono altro che un generale approccio alla soluzione dei problemi ed esistono molti modi per realizzarle. Ognuno di questi modi rappresenta un diverso algoritmo. tecnica algoritmo La tecnica è l’approccio concettuale che porta all’estrazione delle informazioni dai dati È il la formula che viene utilizzata per l’implementazione di una tecnica
  • 19. Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi Il data mining puo’ essere descrittivo, o prescrittivo in base all’obiettivo dell’analisi che si sta svolgendo DESCRITTIVO PRESCRITTIVO TECNICHE L’obiettivo è approfondire la conoscenza di cio’ che avviene all’interno dei dati e quindi del mondo che rispecchiano. Le azioni non possono essere automatizzate L’obiettivo principale è l’automazione del processo decisionale ottenuta creando un modello in grado di dare una previsione o stimare un valore
  • 20. Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining Con il termine cluster si intende un gruppo di unità simili o vicine tra loro, dal punto di vista della posizione o della composizione CLUSTERING K-Means Method
  • 21. Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining Un albero di decisione viene utilizzato per classificare le istanze di grandi quantità di dati (per questo viene anche chiamato albero di classificazione). In questo ambito un albero di decisione descrive una struttura ad albero dove i nodi foglia rappresentano le classificazioni e le ramificazioni l'insieme delle proprietà che portano a quelle classificazioni. ALBERI DECISIONALI
  • 22. Tre tecniche di dataTre tecniche di dataTre tecniche di dataTre tecniche di data miningminingminingmining Le reti neurali rappresentano la tecnica più nota di data mining, ma forse anche la meno compresa. Ciò è dovuto in gran parte alla terminologia delle scienze cognitive da cui deriva il suo nome. L’obiettivo dei primi modelli era infatti replicare il comportamento delle cellule nervose umane. Le reti neurali dal punto di vista del data mining non sono altro che un metodo per applicare un modello a dati storici al fine di poter ricavar classificazioni o previsioni. RETI NEURALI
  • 23. Modelli di reti neuraliModelli di reti neuraliModelli di reti neuraliModelli di reti neurali
  • 24. Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining MODELLI EFFICACI I DATI DATA MINING TECNICHE
  • 25. I 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del data miningminingminingmining: dati: dati: dati: dati Il secondo pilastro su cui poggia il data mining è rappresentato dai dati utilizzati nel processo: senza di essi, il data mining non sarebbe possibile e potrebbe contare solamente su qualche intuizione. I dati assumono le forme più disparate, sono di tipo diversi e si trovano in molti sistemi; sono “quasi sempre” sporchi, incompleti e talvolta indecifrabili. I dati sono la materia prima del data mining
  • 26. Contesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del dataContesto tecnico: 3 pilastri del data miningminingminingmining MODELLI EFFICACI I DATI DATA MINING TECNICHE
  • 27. I 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del dataI 3 pilastri del data miningminingminingmining: modellazione: modellazione: modellazione: modellazione Il terzo pilastro è rappresentato da una serie di competenze di modellistica necessarie per costruire modelli. Il data mining viene applicato per lo più per costruire modelli previsionali che rilevano pattern significativi sui dati accumulati al fine di fare previsioni relative ad esiti futuri. Lo scopo dei modelli è l’utilizzo delle previsioni per prendere decisioni più informate.
  • 28. 2 stili di data2 stili di data2 stili di data2 stili di data miningminingminingmining SUPERVISIONATO NON SUPERVISIONATO STILI DI DATA MINING E’ un approccio top-down applicabile quando sappiamo che cosa stiamo cercando, ed assume spesso la forma di modelli previsionali. E’ un approccio bottom–up in cui si lascia che i dati stessi indichino un risultato. Spetta all’utente stabilirne l’importanza. I modelli predittivi realizzabili con gli strumenti di data mining sono essenzialmente di due tipi:
  • 29. 29 The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process: Decision Optimization Recommend the most appropriate action to take Enterprise Data Sources Read new data on customers, events, etc. for continuous improvement Predictive Analytics Analyze data to provide insight and predict the future Acquisire Modelli predittivi Improve customer retention Grow share of wallet Minimize risk Increase customer satisfaction Enhance market share Prospects Customers Constituents Employees Students Patients Agire Dashboards Kiosks / Mobile CRM / ERP Sterling Apps
  • 30. I modelli previsionaliI modelli previsionaliI modelli previsionaliI modelli previsionali Il modello predittivo è rappresentato da una black box: a volte non interessa il meccanismo di funzionamento ma interessa la migliore previsione possibile.
  • 31. Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
  • 32. Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
  • 33. Dati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempo Il passato serve a prevedere il futuro Per costruire un modello efficace, i dati nel set di costruzione devono imitare il timeframe in cui il modello verrà applicato
  • 34. Misurazione dellMisurazione dellMisurazione dellMisurazione dell’’’’efficaciaefficaciaefficaciaefficacia Matrice di Confusione: matrice che permette di individuare quali tra le previsioni fornite dal modello previsionale siano corrette e quali errate Curva Lift: grafico che raffigura le prestazioni di un modello previsionale come funzione della dimensione del campione.
  • 35. Il confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROCIl confronto tra modelli predittivi: le curve ROC Le curve ROC furono utilizzate per la prima volta da alcuni ingegneri elettrici durante la seconda guerra mondiale, che volevano scovare i nemici utilizzando il radar durante le battaglie. Recentemente invece le curve ROC sono utilizzate anche in medicina, radiologia, psicologia, veterinaria e altri ambiti, come machine learning e data mining. La statistica di sintesi per valutare l’accuratezza di un modello predittivo è l’area sottesa alla curva (AUC)
  • 36. DataDataDataData miningminingminingmining e fraud managemente fraud managemente fraud managemente fraud management Grandi quantità di dati Associazioni nascoste Trasformazione dei dati in risultati applicabili Modelli previsionali
  • 37.
  • 38. 38 Stefano M. de Rossi smderossi@admind.it www.admind.it www.andreadimartino.wordpress.com www.facebook.com/admind