2. Del termine Data Mining sono state date diverse ed utili definizioni Che cosa è il Data Mining Il Data Mining (noto anche come Knowledge Discovery in Databases – KDD) è l’insieme di tecniche innovative, sviluppate nel campo della statistica e del “machine learning”, utilizzante per analizzare i dati presenti in azienda, impiegando strumenti di esplorazione e modellazione per cercare informazioni utili, nascoste e non evidenti, all’interno di grandi volumi di dati, con un processo iterativo e interattivo e metterle in una forma facilmente comprensibile all’uomo. Il Data Mining è l’ ”automatica” estrazione di pattern di informazioni da dati storici, che permettono alle compagnie di focalizzare i più importanti aspetti del loro business. Tali informazioni sono rivelatrici di cose che non si conoscono o ancora più impensabili. Il termine “Data Mining” è basato sull’analogia delle operazioni dei minatori che “scavano” all’interno delle miniere grandi quantità di materiale di poco valore per trovare l’oro. Nel Data Mining, l’ ”oro” è l’informazione, precedentemente sconosciuta o indiscernibile, il materiale di poco valore sono i dati e le operazioni di scavo sono le tecniche di esplorazione dei dati.
3.
4.
5.
6. Flusso di un processo di Data Mining Identificazione problema business Predisposizione dati input Valutazione ambiente IT Revisione START Valutazione modello/i Tool di Data Mining Monitoraggio Utilizzo modello nelle analisi Validazione esterna Scelta modello finale Dispiegamento modello Raffinamento modello/i Preparaz. dati analisi Costruzione modello/i
7.
8. Il processo adottato per lo sviluppo della prima fase di Assessment della Metodologia si basa su una continua interazione con l’utente Utenti Finali Fase 1: preparazione ed acquisizione di documenti sui requisiti prodotto. Fase 2: Elaborazione di documenti di “Proposta Metodologica”, in risposta ai requirements esposti Fase 3: Presentazione, verbalizzazione e discussione dei documenti prodotti con l’utente Fase 4: Integrazione delle modifiche proposte, approfondimento dei punti di discussione Specifiche di modello Fase di Assessment della Metodologia
9. Le fasi successive servono per definire precisamente fattibilità/priorità/compatibilità economica Gruppo Dati Fase 1: Definizione delle tipologie di dati necessari per ciascun indicatore Fase 2: Incontro con il gruppo dati per l’analisi dei dati disponibili Fase 3: Valutazione di fattibilità in relazione alla disponibilità dati ed ai “costi” connessi Fase 4: Integrazione della analisi di fattibilità con le priorità degli utenti e le compatibilità di progetto Specifiche dati Decisione sugli indicatori da implementare Studio di Fattibilità
10.
11. Predisposizione della base dati in input Consiste nella creazione della matrice dei dati disegnata sulla base del modello dati dettato dalle esigenze di analisi e dagli obiettivi preposti. Questa matrice viene indicata in vari modi: da Data Mart delle Analisi (DMA), a Data Mart del Data Mining a tabelle per il Data Mining. Il modello dati impone sicuramente delle trasformazioni dei dati originari al fine di disporre i dati di input nella forma propria per i successivi processi di analisi quantitativa. Il rilascio del DMA è subordinato ad un’attività di controllo di qualità dei contenuti informativi: Controllo formale per l’individuazione delle variabili non utilizzabili, variabili fisicamente esistenti ma non implementate Controllo sostanziale per la verifica del contenuto delle variabili implementate, presenza di modalità non previste Effettuati i controlli formali e sostanziali, potrebbe emergere la mancanza di alcuni elementi informativi essenziali per il proseguimento dell’attività di analisi. In questi casi è necessario riciclare sulla fase di individuazione delle fonti, individuazione di nuove e/o procedendo alle opportune trasformazioni.
12.
13.
14.
15. Le trasformazioni potrebbero essere dettate da esigenze di migliore comprensione del fenomeno e dalla massimizzazione delle informazioni contenute nei dati: una combinazione di variabili può portare alla creazione di una nuova dimensione maggiormente esplicativa. La trasformazione è inoltre dettata anche da esigenze di sintesi: l’applicazione del metodo delle componenti principali, ad esempio, riduce le dimensioni del problema individuando un limitato numero di variabilità essenziale del fenomeno indagato. Sostanzialmente le trasformazioni possono essere di due tipi: 1. Trasformazioni sulla distribuzione dei dati : modificazioni matematiche alla distribuzione delle variabili. 2. Creazioni di dati : creazione di nuove variabili dalla combinazione di variabili esistenti per eseguire tassi, differenze e così via. Per le analisi statistiche, la fase della trasformazione dei dati è critica poiché alcune metodologie statistiche richiedono che i dati siano linearmente collegate ad una variabile obiettivo, normalmente distribuiti e liberi dagli outliers. Mentre i metodi dell’intelligenza artificiale e del machine learning non richiedono rigorosamente che i dati siano normalmente distribuiti o lineari, e alcuni metodi – gli alberi decisionali, per esempio – non richiedono che gli outliers siano trattati preventivamente. Questa è la maggiore differenza tra le analisi statistiche e il data mining. Gli algoritmi del machine learning hanno la capacità di trattare automaticamente con distribuzioni non lineari e non normali, anche se in molti casi gli algoritmi lavoreranno meglio se questi criteri sono verificati. Trasformazione dei dati Dopo che i dati sono stati “puliti”, trattati tutti i valori non validi e mancanti e valutata la consistenza dei dati si è pronti per effettuare le trasformazioni necessarie.
16.
17.
18. Algoritmo gerarchico Fatturato mese <£100000 >£100000 <5yr >5yr Posizione geografica Grande centro Piccolo centro Utilizzo servizi HIgh Low Low HIgh Fatturato mese Posizione geografica Grande centro Anzianità cliente <£50000 >£50000 Piccolo centro >5yr <5yr Utilizzo servizi HIgh Low Churner Churner marginale Non churner
19. Kohonen Maps Le reti di Kohonen, conosciute anche come self-organizing map, nascono per il riconoscimento di suoni ed immagini: producono una "mappa delle caratteristiche" Per ogni record nella base dati, ogni segmento compete per l'assegnazione del record concordemente con i propri parametri. I parametri dei segmenti vengono modificati ad ogni iterazione sui dati. Si differenziano dalle altri reti neurali per la topologia e per la non applicabilita' del metodo di apprendimento backpropagation 0.1 0.2 0.7 0.2 0.6 0.6 0.1 0.9 0.4 OUTPUT età Ultima fattura Prod. Acquistati INPUT Margine
21. Per consentire di chiarire che tipo di prodotti/servizi vengano utilizzati e come i clienti li utilizzino è possibile analizzare la popolazione effettuando due clustering distinti, riferiti ai comportamenti generali ed ai pattern di consumo L’accurata segmentazione della clientela consente di conoscere i propri clienti, di definire nuovi 'prodotti/tariffe/sconti‘, di utilizzare i risultati ottenuti per identificare le azioni migliori di “customer retention” ed attuare la riduzione del churn e delle morositá. Modello 1 - descrive e classifica i Clienti individuando diverse tipologie di comportamento e di utilizzo del servizio Modello 2 - descrive e classifica i Clienti in riferimento ai diversi pattern di consumo Ai fini di un’analisi dinamica dei segmenti si renderà necessaria la revisione dei modelli di clustering in funzione di cambiamenti nello scenario proprio del settore, di azioni intraprese dai competitors, e dall’emergere di nuovi trends
22. Il Clustering è in generale il punto di partenza del processo di sviluppo degli Indicatori Predittivi in quanto capace di fornire una prima comprensione della Customer base Le informazioni ottenute dalla segmentazione sono poi utilizzate per completare e ottimizzare l’analisi degli Indicatori Predittivi Applicando metodologie di mining è possibile classificare i clienti in gruppi omogenei per differenti stili di comportamenti e consumi
23.
24.
25.
26.
27. Il data mining è una grande proposta di aiuto per le organizzazioni a scoprire i pattern nascosti nei loro dati. Comunque, gli strumenti di data mining devono essere guidati da utenti che conoscono il business, i dati e la natura generale dei complessi metodi analitici. Realistiche aspettative possono raccogliere risultati attraverso un ampio range di applicazioni, dal miglioramento delle entrate alla riduzione dei costi. Costruire i modelli non è solo un passo nella scoperta della conoscenza. Il “migliore” modello è spesso trovato dopo la costruzione di modelli di diversi tipi e provando varie tecnologie e/o algoritmi Considerazioni