SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Il Data Mining
Del termine Data Mining sono state date diverse ed utili definizioni      Che cosa è il Data Mining Il Data Mining (noto anche come Knowledge Discovery in Databases – KDD) è l’insieme di tecniche innovative, sviluppate nel campo della statistica e del “machine learning”, utilizzante per analizzare i dati presenti in azienda, impiegando strumenti di esplorazione e modellazione per cercare informazioni utili, nascoste e non evidenti, all’interno di grandi volumi di dati, con un processo iterativo e interattivo e metterle in una forma facilmente comprensibile all’uomo.     Il Data Mining è l’ ”automatica” estrazione di pattern di informazioni da dati storici, che permettono alle compagnie di focalizzare i più importanti aspetti del loro business. Tali informazioni sono rivelatrici di cose che non si conoscono o ancora più impensabili.   Il termine “Data Mining” è basato sull’analogia delle operazioni dei minatori che “scavano” all’interno delle miniere grandi quantità di materiale di poco valore per trovare l’oro. Nel Data Mining, l’ ”oro”  è l’informazione, precedentemente sconosciuta o indiscernibile, il materiale di poco valore sono i dati e le operazioni di scavo sono le tecniche di esplorazione dei dati.
Logica del Data Mining   ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
    Tecniche di analisi ,[object Object],[object Object],[object Object],[object Object],[object Object]
Le tecniche di Data mining sono un’estensione dell’analisi statistica, ma si differenziano per il diverso approccio al trattamento dei dati Le differenze di approccio nell’analisi dei dati Grado di indeterminatezza Numerosità dei casi ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Σ %
  Flusso di un processo di Data Mining Identificazione problema business Predisposizione dati input Valutazione ambiente IT Revisione START Valutazione modello/i Tool di Data Mining Monitoraggio Utilizzo modello nelle analisi Validazione esterna Scelta modello finale Dispiegamento modello Raffinamento modello/i Preparaz. dati analisi Costruzione modello/i
Le attività delle fasi della metodologia di mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Utenti Scelta Indicatori Def. Livello indicatore Def. Dati contesto Scelta variabili Acq. Campioni Clienti Tuning algoritmo predittivo Def. Modello predittivo -Training -Validazione -Valutazione
Il processo adottato per lo sviluppo della prima fase di Assessment della Metodologia si basa su una continua interazione con l’utente  Utenti  Finali Fase 1:   preparazione ed acquisizione di documenti sui requisiti prodotto. Fase 2:   Elaborazione di documenti di  “Proposta Metodologica”, in risposta ai requirements esposti Fase 3:   Presentazione, verbalizzazione e  discussione dei documenti prodotti con l’utente  Fase 4:   Integrazione delle modifiche proposte, approfondimento dei punti di discussione  Specifiche di modello Fase di Assessment della   Metodologia
Le fasi successive servono per definire precisamente fattibilità/priorità/compatibilità economica Gruppo  Dati Fase 1:   Definizione delle tipologie di dati  necessari  per ciascun indicatore Fase 2:   Incontro con il gruppo dati per l’analisi dei dati  disponibili Fase 3:   Valutazione di fattibilità in relazione alla disponibilità dati ed ai “costi” connessi Fase 4:   Integrazione della analisi di fattibilità con le priorità degli utenti e le compatibilità di progetto Specifiche dati Decisione sugli indicatori da implementare Studio di Fattibilità
Modello di Business ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Il   modello è la rappresentazione delle relazioni chiave che sono scoperte durante il processo di Data Mining.
Predisposizione della base dati in input Consiste nella creazione della matrice dei dati disegnata sulla base del modello dati dettato dalle esigenze di analisi e dagli obiettivi preposti. Questa matrice viene indicata in vari modi: da Data Mart delle Analisi (DMA), a Data Mart del Data Mining a tabelle per il Data Mining. Il modello dati impone sicuramente delle trasformazioni dei dati originari al fine di disporre i dati di input nella forma propria per i successivi processi di analisi quantitativa. Il rilascio del DMA è subordinato ad un’attività di controllo di qualità dei contenuti informativi: Controllo formale per l’individuazione delle variabili non utilizzabili, variabili fisicamente esistenti ma non implementate     Controllo sostanziale  per la verifica del contenuto delle variabili implementate, presenza di modalità non previste   Effettuati i controlli formali e sostanziali, potrebbe emergere la mancanza di alcuni elementi informativi essenziali per il proseguimento dell’attività di analisi. In questi casi è necessario riciclare sulla fase di individuazione delle fonti, individuazione di nuove e/o procedendo alle opportune trasformazioni.
Considerazioni ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],alcuni elementi che possono influire sull’efficacia dell’analisi Per ogni cliente devono essere identificati un insieme di misure necessarie alla costruzione degli indici comportamentali e predittivi
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Campionamento In generale è opportuno impostare l’attività di analisi su base campionaria, soltanto in alcune circostanze è consigliabile lavorare sull’intera popolazione di riferimento.
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],In questa fase si studia il comportamento dei dati per l’individuazione di andamenti non omogenei e degli outliers.  Preprocessing e scouting dei dati Consolidamento e cleaning Viene “costruito” un database con dati “omogenei” che saranno alla base della costruzione del modello.
  Le trasformazioni potrebbero essere dettate da esigenze di migliore comprensione del fenomeno e dalla massimizzazione delle informazioni contenute nei dati: una combinazione di variabili può portare alla creazione di una nuova dimensione maggiormente esplicativa. La trasformazione è inoltre dettata anche da esigenze di sintesi: l’applicazione del metodo delle componenti principali, ad esempio, riduce le dimensioni del problema individuando un limitato numero di variabilità essenziale del fenomeno indagato. Sostanzialmente le trasformazioni possono essere di due tipi:   1.         Trasformazioni sulla distribuzione dei dati :  modificazioni matematiche alla distribuzione delle variabili.   2.         Creazioni di dati :  creazione di nuove variabili dalla combinazione di variabili esistenti per eseguire tassi, differenze e così via.   Per le analisi statistiche, la fase della trasformazione dei dati è critica poiché alcune metodologie statistiche richiedono che i dati siano linearmente collegate ad una variabile obiettivo, normalmente distribuiti e liberi dagli outliers. Mentre i metodi dell’intelligenza artificiale e del machine learning non richiedono rigorosamente che i dati siano normalmente distribuiti o lineari, e alcuni metodi – gli alberi decisionali, per esempio – non richiedono che gli outliers siano trattati preventivamente. Questa è la maggiore differenza tra le analisi statistiche e il data mining. Gli algoritmi del machine learning hanno la capacità di trattare automaticamente con distribuzioni non lineari e non normali, anche se in molti casi gli algoritmi lavoreranno meglio se questi criteri sono verificati. Trasformazione dei dati Dopo che i dati sono stati “puliti”, trattati tutti i valori non validi e mancanti e valutata la consistenza dei dati si è pronti per effettuare le trasformazioni necessarie.
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Tecniche di analisi per la costruzione del modello A E D C B E Σ %
Algoritmo demografico ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Algoritmo gerarchico   Fatturato mese <£100000 >£100000 <5yr >5yr Posizione geografica Grande centro Piccolo centro Utilizzo servizi HIgh Low Low HIgh Fatturato mese Posizione geografica Grande centro Anzianità cliente <£50000 >£50000 Piccolo centro >5yr <5yr Utilizzo servizi HIgh Low Churner Churner marginale Non churner
Kohonen Maps Le reti di Kohonen, conosciute anche come self-organizing map, nascono per il riconoscimento di suoni ed immagini: producono una  &quot;mappa delle caratteristiche&quot;   Per ogni record nella base dati, ogni segmento compete per l'assegnazione del record concordemente con i propri parametri. I parametri dei segmenti vengono modificati ad ogni iterazione sui dati.  Si differenziano dalle altri reti neurali per la topologia e per la non applicabilita' del metodo di apprendimento backpropagation 0.1 0.2 0.7 0.2 0.6 0.6 0.1 0.9 0.4 OUTPUT età Ultima fattura Prod. Acquistati INPUT Margine
… alcuni esempi
Per consentire di chiarire che tipo di prodotti/servizi vengano utilizzati  e come i clienti li utilizzino è possibile analizzare la popolazione effettuando due clustering distinti, riferiti ai comportamenti generali ed ai pattern di consumo L’accurata segmentazione della clientela  consente di conoscere i propri clienti, di  definire nuovi 'prodotti/tariffe/sconti‘,  di utilizzare i risultati ottenuti per identificare le azioni migliori di “customer retention” ed attuare la riduzione del churn e delle morositá. Modello 1 -  descrive e classifica i Clienti individuando diverse tipologie di comportamento e di utilizzo del servizio  Modello 2 -  descrive e classifica i Clienti  in riferimento ai diversi pattern di consumo Ai fini di un’analisi dinamica dei segmenti si renderà necessaria la revisione dei modelli di clustering in funzione di cambiamenti nello scenario proprio del settore, di azioni intraprese dai competitors, e dall’emergere di nuovi trends
Il Clustering è in generale il punto di partenza del processo di sviluppo degli Indicatori Predittivi in quanto capace di fornire una prima comprensione della Customer base Le informazioni ottenute dalla segmentazione sono poi utilizzate per completare e ottimizzare l’analisi degli Indicatori Predittivi Applicando metodologie di mining è possibile classificare i clienti in gruppi omogenei per differenti stili di comportamenti e consumi
La Cluster Analysis si basa sulla logica  di Knowledge Discovery che dai dati conduce alla generazione e validazione delle ipotesi Step di analisi ,[object Object],[object Object],[object Object],[object Object],[object Object],Fase 2 –   Supervised learning su campione  Identificazione delle regole di assegnazione ai cluster Fase 3 – Applicazione su tutta la popolazione  Proiezione sull’intera popolazione
[object Object]
Il LifeTime Value è l’indicatore di redditività attesa da ciascun cliente, e permette  il riconoscimento dei clienti su cui investire maggiormente   Il Life Time Value è il  valore attuale netto dei margini  che il cliente potrà generare per l’azienda nel corso della sua vita economica. L’indicatore ha lo scopo di permettere all’utilizzatore finale di svolgere: ,[object Object],[object Object]
La definizione dell’indicatore di LifeTime Value si presta a 3 differenti strategie di analisi,  ciascuna delle quali presenta un livello di complessità diverso   Modello 1: tecniche di forecasting classiche, basate sull’utilizzo di  medie mobili / exponential smoothing . ,[object Object],[object Object],[object Object],[object Object],[object Object],Modello 3: utilizzo di reti neurali, basandosi sul modello di stima elaborato per l’indicatore di churn. Preciso ed efficace, per quanto più complesso; permette di utilizzare informazioni supplementari derivanti dalla cluster analysis e dall’indicatore di churn. Soggetto a problematiche inerenti la possibile correlazione negli errori di stima tra M(t) e P(t). Semplice e poco oneroso; produce risultati eccellenti in relazione al contesto di analisi, se supportato da un’alta  stabilità nel tempo del ranking dei clienti in termini di margine . Σ % A E D C B E Σ % Gen-Feb ‘99 Mar-Apr ‘99
Il data mining è una grande proposta di aiuto per le organizzazioni a scoprire i pattern nascosti nei loro dati. Comunque, gli strumenti di data mining devono essere guidati da utenti che conoscono il business, i dati e la natura generale dei complessi metodi analitici. Realistiche aspettative possono raccogliere risultati attraverso un ampio range di applicazioni, dal miglioramento delle entrate alla riduzione dei costi. Costruire i modelli non è solo un passo nella scoperta della conoscenza. Il “migliore” modello è spesso trovato dopo la costruzione di modelli di diversi tipi e provando varie tecnologie e/o algoritmi Considerazioni

Weitere ähnliche Inhalte

Was ist angesagt?

Inobeta SMAU 2017 - Parte 2
Inobeta SMAU 2017 - Parte 2Inobeta SMAU 2017 - Parte 2
Inobeta SMAU 2017 - Parte 2Luca Palumbo
 
Inobeta SMAU 2017 - Parte 1
Inobeta SMAU 2017 - Parte 1Inobeta SMAU 2017 - Parte 1
Inobeta SMAU 2017 - Parte 1Luca Palumbo
 
Il data warehouse nella business intelligence
Il data warehouse nella business intelligenceIl data warehouse nella business intelligence
Il data warehouse nella business intelligenceAndrea Mecchia
 
Data mining, business intelligence e dintorni
Data mining, business intelligence e dintorniData mining, business intelligence e dintorni
Data mining, business intelligence e dintorniMaurizio Girometti
 

Was ist angesagt? (6)

Inobeta SMAU 2017 - Parte 2
Inobeta SMAU 2017 - Parte 2Inobeta SMAU 2017 - Parte 2
Inobeta SMAU 2017 - Parte 2
 
Data Mining
Data MiningData Mining
Data Mining
 
Inobeta SMAU 2017 - Parte 1
Inobeta SMAU 2017 - Parte 1Inobeta SMAU 2017 - Parte 1
Inobeta SMAU 2017 - Parte 1
 
Il data warehouse nella business intelligence
Il data warehouse nella business intelligenceIl data warehouse nella business intelligence
Il data warehouse nella business intelligence
 
Data mining, business intelligence e dintorni
Data mining, business intelligence e dintorniData mining, business intelligence e dintorni
Data mining, business intelligence e dintorni
 
Big data e Business Intelligence | presentazione open day @Fondazione Kennedy...
Big data e Business Intelligence | presentazione open day @Fondazione Kennedy...Big data e Business Intelligence | presentazione open day @Fondazione Kennedy...
Big data e Business Intelligence | presentazione open day @Fondazione Kennedy...
 

Andere mochten auch

20233 data mining
20233   data mining20233   data mining
20233 data miningGRAZIA88
 
Smau milano 2014 paolo pasini
Smau milano 2014 paolo pasiniSmau milano 2014 paolo pasini
Smau milano 2014 paolo pasiniSMAU
 
data mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftwaredata mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftwarelorenzov
 
Data Mining e Open Data
Data Mining e Open Data Data Mining e Open Data
Data Mining e Open Data Duccio Schiavon
 
Smau Napoli 2013 Paolo Pasini
Smau Napoli 2013 Paolo PasiniSmau Napoli 2013 Paolo Pasini
Smau Napoli 2013 Paolo PasiniSMAU
 
Data Mining per ottimizzare CRM, Local e Direct Marketing
Data Mining per ottimizzare CRM, Local e Direct MarketingData Mining per ottimizzare CRM, Local e Direct Marketing
Data Mining per ottimizzare CRM, Local e Direct MarketingMarco Santambrogio
 
Smau Firenze 2014 - Business Intelligence, Analytics e Big Data: una guida pe...
Smau Firenze 2014 - Business Intelligence, Analytics e Big Data: una guida pe...Smau Firenze 2014 - Business Intelligence, Analytics e Big Data: una guida pe...
Smau Firenze 2014 - Business Intelligence, Analytics e Big Data: una guida pe...SMAU
 
Churn Analysis
Churn AnalysisChurn Analysis
Churn AnalysisDavid Cho
 
Come diventare data scientist - Paolo Pellegrini
Come diventare data scientist - Paolo PellegriniCome diventare data scientist - Paolo Pellegrini
Come diventare data scientist - Paolo PellegriniDonatella Cambosu
 
L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...
L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...
L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...Tiziana Capozzoli
 
"Il Paradiso della Brugola" a cura di Luca Callegari
"Il Paradiso della Brugola" a cura di Luca Callegari"Il Paradiso della Brugola" a cura di Luca Callegari
"Il Paradiso della Brugola" a cura di Luca CallegariTarget Research
 
Big Data & Data Mining
Big Data  & Data MiningBig Data  & Data Mining
Big Data & Data MiningAndrea Frison
 

Andere mochten auch (14)

20233 data mining
20233   data mining20233   data mining
20233 data mining
 
La tesi in slide
La tesi in slideLa tesi in slide
La tesi in slide
 
Smau milano 2014 paolo pasini
Smau milano 2014 paolo pasiniSmau milano 2014 paolo pasini
Smau milano 2014 paolo pasini
 
data mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftwaredata mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftware
 
Data Mining e Open Data
Data Mining e Open Data Data Mining e Open Data
Data Mining e Open Data
 
Smau Napoli 2013 Paolo Pasini
Smau Napoli 2013 Paolo PasiniSmau Napoli 2013 Paolo Pasini
Smau Napoli 2013 Paolo Pasini
 
Data Mining per ottimizzare CRM, Local e Direct Marketing
Data Mining per ottimizzare CRM, Local e Direct MarketingData Mining per ottimizzare CRM, Local e Direct Marketing
Data Mining per ottimizzare CRM, Local e Direct Marketing
 
Smau Firenze 2014 - Business Intelligence, Analytics e Big Data: una guida pe...
Smau Firenze 2014 - Business Intelligence, Analytics e Big Data: una guida pe...Smau Firenze 2014 - Business Intelligence, Analytics e Big Data: una guida pe...
Smau Firenze 2014 - Business Intelligence, Analytics e Big Data: una guida pe...
 
Churn Analysis
Churn AnalysisChurn Analysis
Churn Analysis
 
Come diventare data scientist - Paolo Pellegrini
Come diventare data scientist - Paolo PellegriniCome diventare data scientist - Paolo Pellegrini
Come diventare data scientist - Paolo Pellegrini
 
L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...
L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...
L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...
 
Progetto celine
Progetto celineProgetto celine
Progetto celine
 
"Il Paradiso della Brugola" a cura di Luca Callegari
"Il Paradiso della Brugola" a cura di Luca Callegari"Il Paradiso della Brugola" a cura di Luca Callegari
"Il Paradiso della Brugola" a cura di Luca Callegari
 
Big Data & Data Mining
Big Data  & Data MiningBig Data  & Data Mining
Big Data & Data Mining
 

Ähnlich wie Seminario Di Data Mining

Big Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla praticaBig Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla praticaGiulio Lazzaro
 
White Paper - L'analisi dei dati
White Paper - L'analisi dei datiWhite Paper - L'analisi dei dati
White Paper - L'analisi dei datiSogesi
 
S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistem...
S. Montagna  E. Manna  L. Brondi - Le integrazioni delle fonti per  il sistem...S. Montagna  E. Manna  L. Brondi - Le integrazioni delle fonti per  il sistem...
S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistem...Istituto nazionale di statistica
 
Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2SMAU
 
Verso le trusted smart statistics - prospettive di sviluppo e risultati del e...
Verso le trusted smart statistics - prospettive di sviluppo e risultati del e...Verso le trusted smart statistics - prospettive di sviluppo e risultati del e...
Verso le trusted smart statistics - prospettive di sviluppo e risultati del e...Istituto nazionale di statistica
 
Basi di dati e gis n
Basi di dati e gis nBasi di dati e gis n
Basi di dati e gis nimartini
 
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...A Scuola di OpenCoesione
 
Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012INPSDG
 
Data driven recruitment_PwC & LinkedIn
Data driven recruitment_PwC & LinkedInData driven recruitment_PwC & LinkedIn
Data driven recruitment_PwC & LinkedInFrancesco Costanzo
 
Giuseppe Iacono - Organizzazione, filiera che genera open data
Giuseppe Iacono - Organizzazione, filiera che genera open dataGiuseppe Iacono - Organizzazione, filiera che genera open data
Giuseppe Iacono - Organizzazione, filiera che genera open dataInternational Open Data Day Italia
 
Estrazione della conoscenza dalla documentazione tecnica e di progetto
Estrazione della conoscenza dalla documentazione tecnica e di progettoEstrazione della conoscenza dalla documentazione tecnica e di progetto
Estrazione della conoscenza dalla documentazione tecnica e di progettoAMALITA MODENA
 
C. Filippucci: Un “diluvio di dati”: una nuova sfida per la qualità delle sta...
C. Filippucci: Un “diluvio di dati”: una nuova sfida per la qualità delle sta...C. Filippucci: Un “diluvio di dati”: una nuova sfida per la qualità delle sta...
C. Filippucci: Un “diluvio di dati”: una nuova sfida per la qualità delle sta...Istituto nazionale di statistica
 
Scheda profilo wsp g3- gim-v1.0
Scheda profilo wsp g3- gim-v1.0Scheda profilo wsp g3- gim-v1.0
Scheda profilo wsp g3- gim-v1.0big-gim
 
La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data miningFrancesco Tamburini
 
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...Istituto nazionale di statistica
 
Intervento 10' KM Forum - Jekpot - 25 november 2005 - Siena
Intervento 10' KM Forum  - Jekpot - 25 november 2005 - SienaIntervento 10' KM Forum  - Jekpot - 25 november 2005 - Siena
Intervento 10' KM Forum - Jekpot - 25 november 2005 - SienaEpistema
 
Strumenti digitali professionisti - Gestione del dato
Strumenti digitali professionisti - Gestione del datoStrumenti digitali professionisti - Gestione del dato
Strumenti digitali professionisti - Gestione del datoFabio Tonini
 
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - AI dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - ASergio Agostinelli
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligencelukic83
 

Ähnlich wie Seminario Di Data Mining (20)

Big Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla praticaBig Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla pratica
 
White Paper - L'analisi dei dati
White Paper - L'analisi dei datiWhite Paper - L'analisi dei dati
White Paper - L'analisi dei dati
 
S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistem...
S. Montagna  E. Manna  L. Brondi - Le integrazioni delle fonti per  il sistem...S. Montagna  E. Manna  L. Brondi - Le integrazioni delle fonti per  il sistem...
S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistem...
 
Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2
 
Verso le trusted smart statistics - prospettive di sviluppo e risultati del e...
Verso le trusted smart statistics - prospettive di sviluppo e risultati del e...Verso le trusted smart statistics - prospettive di sviluppo e risultati del e...
Verso le trusted smart statistics - prospettive di sviluppo e risultati del e...
 
Basi di dati e gis n
Basi di dati e gis nBasi di dati e gis n
Basi di dati e gis n
 
02 consulenza t0104
02 consulenza t010402 consulenza t0104
02 consulenza t0104
 
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...
 
Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012
 
Data driven recruitment_PwC & LinkedIn
Data driven recruitment_PwC & LinkedInData driven recruitment_PwC & LinkedIn
Data driven recruitment_PwC & LinkedIn
 
Giuseppe Iacono - Organizzazione, filiera che genera open data
Giuseppe Iacono - Organizzazione, filiera che genera open dataGiuseppe Iacono - Organizzazione, filiera che genera open data
Giuseppe Iacono - Organizzazione, filiera che genera open data
 
Estrazione della conoscenza dalla documentazione tecnica e di progetto
Estrazione della conoscenza dalla documentazione tecnica e di progettoEstrazione della conoscenza dalla documentazione tecnica e di progetto
Estrazione della conoscenza dalla documentazione tecnica e di progetto
 
C. Filippucci: Un “diluvio di dati”: una nuova sfida per la qualità delle sta...
C. Filippucci: Un “diluvio di dati”: una nuova sfida per la qualità delle sta...C. Filippucci: Un “diluvio di dati”: una nuova sfida per la qualità delle sta...
C. Filippucci: Un “diluvio di dati”: una nuova sfida per la qualità delle sta...
 
Scheda profilo wsp g3- gim-v1.0
Scheda profilo wsp g3- gim-v1.0Scheda profilo wsp g3- gim-v1.0
Scheda profilo wsp g3- gim-v1.0
 
La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data mining
 
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...
 
Intervento 10' KM Forum - Jekpot - 25 november 2005 - Siena
Intervento 10' KM Forum  - Jekpot - 25 november 2005 - SienaIntervento 10' KM Forum  - Jekpot - 25 november 2005 - Siena
Intervento 10' KM Forum - Jekpot - 25 november 2005 - Siena
 
Strumenti digitali professionisti - Gestione del dato
Strumenti digitali professionisti - Gestione del datoStrumenti digitali professionisti - Gestione del dato
Strumenti digitali professionisti - Gestione del dato
 
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - AI dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 

Seminario Di Data Mining

  • 2. Del termine Data Mining sono state date diverse ed utili definizioni   Che cosa è il Data Mining Il Data Mining (noto anche come Knowledge Discovery in Databases – KDD) è l’insieme di tecniche innovative, sviluppate nel campo della statistica e del “machine learning”, utilizzante per analizzare i dati presenti in azienda, impiegando strumenti di esplorazione e modellazione per cercare informazioni utili, nascoste e non evidenti, all’interno di grandi volumi di dati, con un processo iterativo e interattivo e metterle in una forma facilmente comprensibile all’uomo.     Il Data Mining è l’ ”automatica” estrazione di pattern di informazioni da dati storici, che permettono alle compagnie di focalizzare i più importanti aspetti del loro business. Tali informazioni sono rivelatrici di cose che non si conoscono o ancora più impensabili.   Il termine “Data Mining” è basato sull’analogia delle operazioni dei minatori che “scavano” all’interno delle miniere grandi quantità di materiale di poco valore per trovare l’oro. Nel Data Mining, l’ ”oro” è l’informazione, precedentemente sconosciuta o indiscernibile, il materiale di poco valore sono i dati e le operazioni di scavo sono le tecniche di esplorazione dei dati.
  • 3.
  • 4.
  • 5.
  • 6.   Flusso di un processo di Data Mining Identificazione problema business Predisposizione dati input Valutazione ambiente IT Revisione START Valutazione modello/i Tool di Data Mining Monitoraggio Utilizzo modello nelle analisi Validazione esterna Scelta modello finale Dispiegamento modello Raffinamento modello/i Preparaz. dati analisi Costruzione modello/i
  • 7.
  • 8. Il processo adottato per lo sviluppo della prima fase di Assessment della Metodologia si basa su una continua interazione con l’utente Utenti Finali Fase 1: preparazione ed acquisizione di documenti sui requisiti prodotto. Fase 2: Elaborazione di documenti di “Proposta Metodologica”, in risposta ai requirements esposti Fase 3: Presentazione, verbalizzazione e discussione dei documenti prodotti con l’utente Fase 4: Integrazione delle modifiche proposte, approfondimento dei punti di discussione Specifiche di modello Fase di Assessment della Metodologia
  • 9. Le fasi successive servono per definire precisamente fattibilità/priorità/compatibilità economica Gruppo Dati Fase 1: Definizione delle tipologie di dati necessari per ciascun indicatore Fase 2: Incontro con il gruppo dati per l’analisi dei dati disponibili Fase 3: Valutazione di fattibilità in relazione alla disponibilità dati ed ai “costi” connessi Fase 4: Integrazione della analisi di fattibilità con le priorità degli utenti e le compatibilità di progetto Specifiche dati Decisione sugli indicatori da implementare Studio di Fattibilità
  • 10.
  • 11. Predisposizione della base dati in input Consiste nella creazione della matrice dei dati disegnata sulla base del modello dati dettato dalle esigenze di analisi e dagli obiettivi preposti. Questa matrice viene indicata in vari modi: da Data Mart delle Analisi (DMA), a Data Mart del Data Mining a tabelle per il Data Mining. Il modello dati impone sicuramente delle trasformazioni dei dati originari al fine di disporre i dati di input nella forma propria per i successivi processi di analisi quantitativa. Il rilascio del DMA è subordinato ad un’attività di controllo di qualità dei contenuti informativi: Controllo formale per l’individuazione delle variabili non utilizzabili, variabili fisicamente esistenti ma non implementate     Controllo sostanziale per la verifica del contenuto delle variabili implementate, presenza di modalità non previste   Effettuati i controlli formali e sostanziali, potrebbe emergere la mancanza di alcuni elementi informativi essenziali per il proseguimento dell’attività di analisi. In questi casi è necessario riciclare sulla fase di individuazione delle fonti, individuazione di nuove e/o procedendo alle opportune trasformazioni.
  • 12.
  • 13.
  • 14.
  • 15.   Le trasformazioni potrebbero essere dettate da esigenze di migliore comprensione del fenomeno e dalla massimizzazione delle informazioni contenute nei dati: una combinazione di variabili può portare alla creazione di una nuova dimensione maggiormente esplicativa. La trasformazione è inoltre dettata anche da esigenze di sintesi: l’applicazione del metodo delle componenti principali, ad esempio, riduce le dimensioni del problema individuando un limitato numero di variabilità essenziale del fenomeno indagato. Sostanzialmente le trasformazioni possono essere di due tipi:   1.        Trasformazioni sulla distribuzione dei dati : modificazioni matematiche alla distribuzione delle variabili.   2.        Creazioni di dati : creazione di nuove variabili dalla combinazione di variabili esistenti per eseguire tassi, differenze e così via.   Per le analisi statistiche, la fase della trasformazione dei dati è critica poiché alcune metodologie statistiche richiedono che i dati siano linearmente collegate ad una variabile obiettivo, normalmente distribuiti e liberi dagli outliers. Mentre i metodi dell’intelligenza artificiale e del machine learning non richiedono rigorosamente che i dati siano normalmente distribuiti o lineari, e alcuni metodi – gli alberi decisionali, per esempio – non richiedono che gli outliers siano trattati preventivamente. Questa è la maggiore differenza tra le analisi statistiche e il data mining. Gli algoritmi del machine learning hanno la capacità di trattare automaticamente con distribuzioni non lineari e non normali, anche se in molti casi gli algoritmi lavoreranno meglio se questi criteri sono verificati. Trasformazione dei dati Dopo che i dati sono stati “puliti”, trattati tutti i valori non validi e mancanti e valutata la consistenza dei dati si è pronti per effettuare le trasformazioni necessarie.
  • 16.
  • 17.
  • 18. Algoritmo gerarchico Fatturato mese <£100000 >£100000 <5yr >5yr Posizione geografica Grande centro Piccolo centro Utilizzo servizi HIgh Low Low HIgh Fatturato mese Posizione geografica Grande centro Anzianità cliente <£50000 >£50000 Piccolo centro >5yr <5yr Utilizzo servizi HIgh Low Churner Churner marginale Non churner
  • 19. Kohonen Maps Le reti di Kohonen, conosciute anche come self-organizing map, nascono per il riconoscimento di suoni ed immagini: producono una &quot;mappa delle caratteristiche&quot; Per ogni record nella base dati, ogni segmento compete per l'assegnazione del record concordemente con i propri parametri. I parametri dei segmenti vengono modificati ad ogni iterazione sui dati. Si differenziano dalle altri reti neurali per la topologia e per la non applicabilita' del metodo di apprendimento backpropagation 0.1 0.2 0.7 0.2 0.6 0.6 0.1 0.9 0.4 OUTPUT età Ultima fattura Prod. Acquistati INPUT Margine
  • 21. Per consentire di chiarire che tipo di prodotti/servizi vengano utilizzati e come i clienti li utilizzino è possibile analizzare la popolazione effettuando due clustering distinti, riferiti ai comportamenti generali ed ai pattern di consumo L’accurata segmentazione della clientela consente di conoscere i propri clienti, di definire nuovi 'prodotti/tariffe/sconti‘, di utilizzare i risultati ottenuti per identificare le azioni migliori di “customer retention” ed attuare la riduzione del churn e delle morositá. Modello 1 - descrive e classifica i Clienti individuando diverse tipologie di comportamento e di utilizzo del servizio Modello 2 - descrive e classifica i Clienti in riferimento ai diversi pattern di consumo Ai fini di un’analisi dinamica dei segmenti si renderà necessaria la revisione dei modelli di clustering in funzione di cambiamenti nello scenario proprio del settore, di azioni intraprese dai competitors, e dall’emergere di nuovi trends
  • 22. Il Clustering è in generale il punto di partenza del processo di sviluppo degli Indicatori Predittivi in quanto capace di fornire una prima comprensione della Customer base Le informazioni ottenute dalla segmentazione sono poi utilizzate per completare e ottimizzare l’analisi degli Indicatori Predittivi Applicando metodologie di mining è possibile classificare i clienti in gruppi omogenei per differenti stili di comportamenti e consumi
  • 23.
  • 24.
  • 25.
  • 26.
  • 27. Il data mining è una grande proposta di aiuto per le organizzazioni a scoprire i pattern nascosti nei loro dati. Comunque, gli strumenti di data mining devono essere guidati da utenti che conoscono il business, i dati e la natura generale dei complessi metodi analitici. Realistiche aspettative possono raccogliere risultati attraverso un ampio range di applicazioni, dal miglioramento delle entrate alla riduzione dei costi. Costruire i modelli non è solo un passo nella scoperta della conoscenza. Il “migliore” modello è spesso trovato dopo la costruzione di modelli di diversi tipi e provando varie tecnologie e/o algoritmi Considerazioni