Seminario Di Data Mining

Del termine Data Mining sono state date diverse ed utili definizioni Che cosa è il Data Mining Il Data Mining (noto anche come Knowledge Discovery in Databases – KDD) è l’insieme di tecniche innovative, sviluppate nel campo della statistica e del “machine learning”, utilizzante per analizzare i dati presenti in azienda, impiegando strumenti di esplorazione e modellazione per cercare informazioni utili, nascoste e non evidenti, all’interno di grandi volumi di dati, con un processo iterativo e interattivo e metterle in una forma facilmente comprensibile all’uomo. Il Data Mining è l’ ”automatica” estrazione di pattern di informazioni da dati storici, che permettono alle compagnie di focalizzare i più importanti aspetti del loro business. Tali informazioni sono rivelatrici di cose che non si conoscono o ancora più impensabili. Il termine “Data Mining” è basato sull’analogia delle operazioni dei minatori che “scavano” all’interno delle miniere grandi quantità di materiale di poco valore per trovare l’oro. Nel Data Mining, l’ ”oro” è l’informazione, precedentemente sconosciuta o indiscernibile, il materiale di poco valore sono i dati e le operazioni di scavo sono le tecniche di esplorazione dei dati.

Logica del Data Mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Tecniche di analisi ,[object Object],[object Object],[object Object],[object Object],[object Object]

Le tecniche di Data mining sono un’estensione dell’analisi statistica, ma si differenziano per il diverso approccio al trattamento dei dati Le differenze di approccio nell’analisi dei dati Grado di indeterminatezza Numerosità dei casi ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Σ %

Flusso di un processo di Data Mining Identificazione problema business Predisposizione dati input Valutazione ambiente IT Revisione START Valutazione modello/i Tool di Data Mining Monitoraggio Utilizzo modello nelle analisi Validazione esterna Scelta modello finale Dispiegamento modello Raffinamento modello/i Preparaz. dati analisi Costruzione modello/i

Le attività delle fasi della metodologia di mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Utenti Scelta Indicatori Def. Livello indicatore Def. Dati contesto Scelta variabili Acq. Campioni Clienti Tuning algoritmo predittivo Def. Modello predittivo -Training -Validazione -Valutazione

Il processo adottato per lo sviluppo della prima fase di Assessment della Metodologia si basa su una continua interazione con l’utente Utenti Finali Fase 1: preparazione ed acquisizione di documenti sui requisiti prodotto. Fase 2: Elaborazione di documenti di “Proposta Metodologica”, in risposta ai requirements esposti Fase 3: Presentazione, verbalizzazione e discussione dei documenti prodotti con l’utente Fase 4: Integrazione delle modifiche proposte, approfondimento dei punti di discussione Specifiche di modello Fase di Assessment della Metodologia

Le fasi successive servono per definire precisamente fattibilità/priorità/compatibilità economica Gruppo Dati Fase 1: Definizione delle tipologie di dati necessari per ciascun indicatore Fase 2: Incontro con il gruppo dati per l’analisi dei dati disponibili Fase 3: Valutazione di fattibilità in relazione alla disponibilità dati ed ai “costi” connessi Fase 4: Integrazione della analisi di fattibilità con le priorità degli utenti e le compatibilità di progetto Specifiche dati Decisione sugli indicatori da implementare Studio di Fattibilità

Modello di Business ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Il modello è la rappresentazione delle relazioni chiave che sono scoperte durante il processo di Data Mining.

Predisposizione della base dati in input Consiste nella creazione della matrice dei dati disegnata sulla base del modello dati dettato dalle esigenze di analisi e dagli obiettivi preposti. Questa matrice viene indicata in vari modi: da Data Mart delle Analisi (DMA), a Data Mart del Data Mining a tabelle per il Data Mining. Il modello dati impone sicuramente delle trasformazioni dei dati originari al fine di disporre i dati di input nella forma propria per i successivi processi di analisi quantitativa. Il rilascio del DMA è subordinato ad un’attività di controllo di qualità dei contenuti informativi: Controllo formale per l’individuazione delle variabili non utilizzabili, variabili fisicamente esistenti ma non implementate Controllo sostanziale per la verifica del contenuto delle variabili implementate, presenza di modalità non previste Effettuati i controlli formali e sostanziali, potrebbe emergere la mancanza di alcuni elementi informativi essenziali per il proseguimento dell’attività di analisi. In questi casi è necessario riciclare sulla fase di individuazione delle fonti, individuazione di nuove e/o procedendo alle opportune trasformazioni.

Considerazioni ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],alcuni elementi che possono influire sull’efficacia dell’analisi Per ogni cliente devono essere identificati un insieme di misure necessarie alla costruzione degli indici comportamentali e predittivi

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Campionamento In generale è opportuno impostare l’attività di analisi su base campionaria, soltanto in alcune circostanze è consigliabile lavorare sull’intera popolazione di riferimento.

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],In questa fase si studia il comportamento dei dati per l’individuazione di andamenti non omogenei e degli outliers. Preprocessing e scouting dei dati Consolidamento e cleaning Viene “costruito” un database con dati “omogenei” che saranno alla base della costruzione del modello.

Le trasformazioni potrebbero essere dettate da esigenze di migliore comprensione del fenomeno e dalla massimizzazione delle informazioni contenute nei dati: una combinazione di variabili può portare alla creazione di una nuova dimensione maggiormente esplicativa. La trasformazione è inoltre dettata anche da esigenze di sintesi: l’applicazione del metodo delle componenti principali, ad esempio, riduce le dimensioni del problema individuando un limitato numero di variabilità essenziale del fenomeno indagato. Sostanzialmente le trasformazioni possono essere di due tipi: 1. Trasformazioni sulla distribuzione dei dati : modificazioni matematiche alla distribuzione delle variabili. 2. Creazioni di dati : creazione di nuove variabili dalla combinazione di variabili esistenti per eseguire tassi, differenze e così via. Per le analisi statistiche, la fase della trasformazione dei dati è critica poiché alcune metodologie statistiche richiedono che i dati siano linearmente collegate ad una variabile obiettivo, normalmente distribuiti e liberi dagli outliers. Mentre i metodi dell’intelligenza artificiale e del machine learning non richiedono rigorosamente che i dati siano normalmente distribuiti o lineari, e alcuni metodi – gli alberi decisionali, per esempio – non richiedono che gli outliers siano trattati preventivamente. Questa è la maggiore differenza tra le analisi statistiche e il data mining. Gli algoritmi del machine learning hanno la capacità di trattare automaticamente con distribuzioni non lineari e non normali, anche se in molti casi gli algoritmi lavoreranno meglio se questi criteri sono verificati. Trasformazione dei dati Dopo che i dati sono stati “puliti”, trattati tutti i valori non validi e mancanti e valutata la consistenza dei dati si è pronti per effettuare le trasformazioni necessarie.

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Tecniche di analisi per la costruzione del modello A E D C B E Σ %

Algoritmo demografico ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Algoritmo gerarchico Fatturato mese <£100000 >£100000 <5yr >5yr Posizione geografica Grande centro Piccolo centro Utilizzo servizi HIgh Low Low HIgh Fatturato mese Posizione geografica Grande centro Anzianità cliente <£50000 >£50000 Piccolo centro >5yr <5yr Utilizzo servizi HIgh Low Churner Churner marginale Non churner

Kohonen Maps Le reti di Kohonen, conosciute anche come self-organizing map, nascono per il riconoscimento di suoni ed immagini: producono una "mappa delle caratteristiche" Per ogni record nella base dati, ogni segmento compete per l'assegnazione del record concordemente con i propri parametri. I parametri dei segmenti vengono modificati ad ogni iterazione sui dati. Si differenziano dalle altri reti neurali per la topologia e per la non applicabilita' del metodo di apprendimento backpropagation 0.1 0.2 0.7 0.2 0.6 0.6 0.1 0.9 0.4 OUTPUT età Ultima fattura Prod. Acquistati INPUT Margine

Per consentire di chiarire che tipo di prodotti/servizi vengano utilizzati e come i clienti li utilizzino è possibile analizzare la popolazione effettuando due clustering distinti, riferiti ai comportamenti generali ed ai pattern di consumo L’accurata segmentazione della clientela consente di conoscere i propri clienti, di definire nuovi 'prodotti/tariffe/sconti‘, di utilizzare i risultati ottenuti per identificare le azioni migliori di “customer retention” ed attuare la riduzione del churn e delle morositá. Modello 1 - descrive e classifica i Clienti individuando diverse tipologie di comportamento e di utilizzo del servizio Modello 2 - descrive e classifica i Clienti in riferimento ai diversi pattern di consumo Ai fini di un’analisi dinamica dei segmenti si renderà necessaria la revisione dei modelli di clustering in funzione di cambiamenti nello scenario proprio del settore, di azioni intraprese dai competitors, e dall’emergere di nuovi trends

Il Clustering è in generale il punto di partenza del processo di sviluppo degli Indicatori Predittivi in quanto capace di fornire una prima comprensione della Customer base Le informazioni ottenute dalla segmentazione sono poi utilizzate per completare e ottimizzare l’analisi degli Indicatori Predittivi Applicando metodologie di mining è possibile classificare i clienti in gruppi omogenei per differenti stili di comportamenti e consumi

La Cluster Analysis si basa sulla logica di Knowledge Discovery che dai dati conduce alla generazione e validazione delle ipotesi Step di analisi ,[object Object],[object Object],[object Object],[object Object],[object Object],Fase 2 – Supervised learning su campione Identificazione delle regole di assegnazione ai cluster Fase 3 – Applicazione su tutta la popolazione Proiezione sull’intera popolazione

Il LifeTime Value è l’indicatore di redditività attesa da ciascun cliente, e permette il riconoscimento dei clienti su cui investire maggiormente Il Life Time Value è il valore attuale netto dei margini che il cliente potrà generare per l’azienda nel corso della sua vita economica. L’indicatore ha lo scopo di permettere all’utilizzatore finale di svolgere: ,[object Object],[object Object]

La definizione dell’indicatore di LifeTime Value si presta a 3 differenti strategie di analisi, ciascuna delle quali presenta un livello di complessità diverso Modello 1: tecniche di forecasting classiche, basate sull’utilizzo di medie mobili / exponential smoothing . ,[object Object],[object Object],[object Object],[object Object],[object Object],Modello 3: utilizzo di reti neurali, basandosi sul modello di stima elaborato per l’indicatore di churn. Preciso ed efficace, per quanto più complesso; permette di utilizzare informazioni supplementari derivanti dalla cluster analysis e dall’indicatore di churn. Soggetto a problematiche inerenti la possibile correlazione negli errori di stima tra M(t) e P(t). Semplice e poco oneroso; produce risultati eccellenti in relazione al contesto di analisi, se supportato da un’alta stabilità nel tempo del ranking dei clienti in termini di margine . Σ % A E D C B E Σ % Gen-Feb ‘99 Mar-Apr ‘99

Il data mining è una grande proposta di aiuto per le organizzazioni a scoprire i pattern nascosti nei loro dati. Comunque, gli strumenti di data mining devono essere guidati da utenti che conoscono il business, i dati e la natura generale dei complessi metodi analitici. Realistiche aspettative possono raccogliere risultati attraverso un ampio range di applicazioni, dal miglioramento delle entrate alla riduzione dei costi. Costruire i modelli non è solo un passo nella scoperta della conoscenza. Il “migliore” modello è spesso trovato dopo la costruzione di modelli di diversi tipi e provando varie tecnologie e/o algoritmi Considerazioni

Seminario Di Data Mining

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (6)

Andere mochten auch

Andere mochten auch (14)

Ähnlich wie Seminario Di Data Mining

Ähnlich wie Seminario Di Data Mining (20)

Seminario Di Data Mining