SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
Advanced Quantitative Methods Course

                                              Assignment:
                       Analisi di Segmentazione Classica “CasoLat”


                                           Gruppo “XYZ”
                                    Milano, 11 Maggio 2010




Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
Indice




  1. Obiettivo dell’analisi di segmentazione classica e descrizione del set di dati considerati (CasoLat);

  2. Analisi preliminare e statistica descrittiva;

  3. Analisi fattoriale (per l’individuazione di tali macro-elementi);

  4.     Analisi Cluster (per l’individuazione dei diversi segmenti).

  5. Conclusioni;




                                  Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
1. Obiettivo dell’analisi di segmentazione classica e descrizione del set di dati considerati (CasoLat);


Il database “dati_Casolat” è relativo ad una ricerca di mercato legata alla percezione ed alla valutazione - attraverso 17 item – del
“latte Casolat”.

Casolat è un latte scremato fresco da lanciare sul mercato italiano e l’azienda vuole individuare e studiare i segmenti più profittevoli per
adottare un’adeguata comunicazione. L’indagine comprende una parte relativa alla valutazione di diverse motivazioni d’acquisto per un latte
fresco. Gli item da valutare su una scala di importanza soggettiva da 1 a 9 (1 poco importante—9 molto importante) sono i seguenti:
1.    È un latte molto buono, gustoso;
2.    E’ un latte che mi dà energia;
3.    E’ un latte genuino, naturale;
4.    E’ un latte che fa bene alla salute;
5.    E’ un latte di qualità superiore;
6.    E’ un latte dissetante;
7.    E’ adatto ai bambini;
8.    E’ sicuro e controllato;
9.    Ha un buon rapporto qualità/ prezzo;
10.   E’ facile da digerire;
11.   E’ un latte leggero, poco calorico;
12.   E’ un latte fresco;
13.   Ha una funzione depuratrice dell’organismo;
14.   E’ un latte per tutta la famiglia;
15.   E’ un latte ideale per la preparazione di alimenti;
16.   E’ un latte che mi fa sentire in forma;
17.   E’ un latte che mi sazia;

Oltre a tali variabili nel database sono presenti anche alcuni elementi utili per la descrizione dei profili/segmenti da individuare in modo da
verificarne l’effettiva raggiungibilità per indirizzare la comunicazione in modo adeguato.



                                   Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
                                                                                                                                                  2
1. Obiettivo dell’analisi di segmentazione classica e descrizione del set di dati considerati (CasoLat);



Con l’analisi di segmentazione classica sintetizzeremo il database della ricerca di mercato a nostra disposizione in macro-elementi di
scelta del consumatore su una serie di caratteristiche del latte (17 items di partenza: motivazioni/occasioni d’uso o modalità di comportamento)
e successivamente individueremo e costruiremo gruppi omogenei del target rilevante di clienti sulla base dei macro-elementi individuati.

L’analisi di segmentazione classica prevede, quindi, la combinazione di due modelli statistici multivariati:

•    Una analisi fattoriale analisi fattoriale (per l’individuazione di tali macro-elementi);

•    Una cluster analysis (per l’individuazione dei diversi segmenti).

Obiettivo di tale analisi è quello di focalizzare le campagne marketing dell’azienda in funzione degli specifici bisogni dei cluster di potenziali clienti
individuati.


Domande:

a) Si individui e si valuti un modello di analisi fattoriale e si dia un’interpretazione delle componenti principali (o fattori) individuate attraverso
   l’analisi;

b) Si individui e si analizzi un modello di cluster analysis applicato sulla base dei macro-elementi individuati nella parte precedente costruendo
   gruppi omogenei del target rilevante e si dia un’interpretazione dei cluster ottenuti;

c) Si approfondisca l’analisi precedente con i profili socio-demografici dei diversi segmenti ottenuti incrociando l’appartenenza ai cluster con
   alcune caratteristiche socio-demografiche/anagrafiche del target per verificarne l’effettiva raggiungibilità;




                                                                                                                                                      3
                               Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
2. Analisi preliminare e statistica descrittiva: statistica univariata

Prima di cominciare con l’analisi del caso, eliminiamo dal database le osservazioni caratterizzate dalla presenza di dati mancanti (attribuzione del
valore 0 ad alcuni attributi dell’intervista); le osservazioni passano da 1001 a 906 con un decremento, ritenuto da noi accettabile, del 9,4%.




Identifichiamo le caratteristiche fondamentali della distribuzione di ogni singola variabile senza analizzare per il momento le relazioni congiunte
con le altre variabili.



                                                                                     Le statistiche univariate sui 17 item evidenziano:

                                                                                     - valori medi molto elevati: sempre > 6,86;
                                                                                     - distribuzioni polarizzate verso valori alti con valori massimi e
                                                                                     quartili di ordine 75 sempre coincidenti




                                                                                                                                                          4
                              Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
2. Analisi preliminare e statistica descrittiva

L’analisi fattoriale studia le interrelazioni tra variabili al fine di trovarne un nuovo insieme, di dimensioni minori rispetto all’originario, che esprima
ciò che è in comune fra le variabili originarie stesse.
Dal punto di vista statistico, obiettivo dell’analisi fattoriale è individuare un numero ridotto di combinazioni lineari delle variabili originarie,
fattori, che spieghino gran parte della varianza delle variabili stesse. Ogni combinazione lineare sarà funzione di tutte le variabili originarie,
correlandosi in particolare ad alcune di esse. Le componenti saranno non correlate tra di loro.
L’input effettivo della tecnica è costituito dalla matrice di correlazione tra le variabili; più forte è la correlazione, maggiore sarà la capacità di
sintesi dell’analisi fattoriale. Dallo studio della matrice e del relativo diagramma di dispersione si potrà dunque cogliere la natura e l’intensità dei
legami tra le singole coppie di variabili.




La presenza di correlazioni importanti tra alcuni attributi (valori > 0,5 per esempio tra “sentirsi in forma” e “mi da energia”, tra “mi da energia “ e
“mi sazia”, tra “è sicuro e controllato” e “è genuino e naturale”…) permette di ipotizzare fin dalle fasi di analisi preliminare un corretto
funzionamento del modello di analisi fattoriale.



                                      Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
                                                                                                                                                          5
3. Analisi fattoriale (P.C.A.)

JMP:   Multivariate     Principal Components   On Correlations

                                                               Applichiamo l’algoritmo di analisi fattoriale sulle 17 variabili iniziali al fine di stabilire:
                                                               - Il numero di fattori da considerare;
                                                               - la varianza spiegata dai fattori di sintesi;
                                                               - l’interpretabilità del modello.

                                                               La colonna “percent” riporta la % di varianza spiegata da ciascuna delle nuove componenti
                                                               individuate dal modello. Il primo fattore (e’ un latte molto buono, gustoso) è quello con
                                                               varianza spiegata massimo (39.462%), il secondo fattore è quello con varianza spiegata
                                                               second best (7.251%) e così via in ordine decrescente.
                                                               Al fine di determinare il numero di fattori da considerare per ridurre la complessità del
                                                               modello, è utile considerare che una percentuale del 60-70% della varianza spiegata è da
                                                               ritenersi generalmente accettabile.
                                                               Nel nostro caso, 7 fattori spiegherebbero il 70,5% della varianza, 6 fattori il 66,58%.

                                                               Al fine di determinare il numero ottimale di fattori, puo’ risultare di supporto anche una
                                                               interpretazione del grafico degli auto valori (Scree Plot); in particolare il grafico evidenzia
                                                               come in corrispondenza di un appiattimento della curva, un aumento di fattori non
                                                               comporta significativi incrementi della varianza spiegata.
                                                               Nel nostro caso (eccezion fatta per il passaggio Da 1 a 2 fattori) si riscontrano 2 cambi di
                                                               pendenza: uno, più significativo, tra i fattori 6-7 ed un altro tra 11-12. Considerando il
                                                               notevole aumento di complessita’ che comporterebbe utilizzare 11 fattori invece di 7 (a
                                                               fronte di un aumento di varianza spiegata di soli 14.1%) assumiamo di utilizzare 7 fattori.
                                                               In ogni caso, le considerazioni relative alla percentuale di varianza spiegata ed alla
                                                               riduzione di complessità vanno unite, per la scelta del corretto numero di fattori di una
                                                               analisi di taglio marketing sull’effettiva interpretabilità dei fattori e sulla loro potenziale
                                                               rilevanza per l’impostazione delle politiche di marketing.


                                         Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
                                                                                                                                                                 6
3. Analisi fattoriale (P.C.A.)
                                                                   JMP: Principal Components/Factor Analysis                Factor Rotation
                                                                   Factoring Method:
                                                                   Principal Components (diagonals=1)
                                                                   How many rotated factors? 7
                                                                   Rotation Method ‘Varimax’

                                                                   Esistono infiniti output di analisi fattoriale compatibili con gli stessi dati di
                                                                   input. Questi infiniti output in generale non forniscono interpretazioni del
                                                                   fenomeno pesantemente contrastanti tra di loro, ma differiscono solo
                                                                   marginalmente e nelle aree di ambiguità.
                                                                   Tra gli infiniti output è opportuno pertanto scegliere quelli che meglio mettono
                                                                   in evidenza le correlazioni tra variabili e fattori. Il metodo di rotazione Varimax
                                                                   ha come obiettivo la minimizzazione del numero di variabili che possiedono
                                                                   saturazioni elevate per ciascun fattore.

                                                                   L’applicazione della rotazione Varimax, pertanto, mantiene inalterata la
                                                                   varianza complessiva spiegata dall’insieme dei fattori, 70,54%, ma modifica,
                                                                   massimizzandola, la percentuale di varianza spiegata da ciascun fattore (a titolo
                                                                   di esempio il fattore 1 spiegava da solo il 39,46% della varianza prima della
                                                                   rotazione e risultava correlato con la maggior parte degli item; a seguito di
                                                                   rotazione il fattore 1 passa al 17,65%, la % di varianza rimanente viene
                                                                   “spalmata” sui restanti fattori ed aumenta l’interpretabilità degli altri fattori ).




                                                                                                                                                   7
                                 Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
3. Analisi fattoriale (P.C.A.)
                                                         E’ importante inoltre verificare la comunabilità dei fattori, e quindi verificare quale sia la
                                                         % di varianza spiegata di ogni singolo attributo di partenza.

                                                         Nel caso in analisi si evidenzia come le singole variabili vengano spiegate con % che
                                                         variano da un minimo del 55,3% (funzione depuratrice dell’organismo) ad un massimo
                                                         del 95% (è un latte dissettante) per un valore medio che si attesta sul 70,5%.
                                                         In sintesi, la complessità è stata ridotta circa del 60% (da 17 variabili a 7 fattori), la % di
                                                         varianza spiegata è del 70.54% (con una perdita accettabili del 29.458%), la comunalità
                                                         è sempre superiore al 55.3% (funzione depuratrice dell’organismo).

                                                         Una eventuale riduzione dei fattori (6 vs 7) comporterebbe sicuramente una
                                                         diminuzione della complessità ma a fronte di una diminuzione della varianza spiegata
                                                         complessivamente (da 70,54% a 66,5%) ed in particolare per specifiche variabili (è un
                                                         latte dissetante passerebbe dal 95% al 60%). Decidiamo, in ottica marketing, di non
                                                         perdere tale dettaglio e di continuare con 7 fattori.

                                                         Analizziamo dunque come si comporta il modello a livello di l’interpretabilità
                                                         analizzando “la matrice dei fattori ruotata”.
                                                         JMP:     Factor Rotation: Varimax




                                                                                                                                                     8
                                 Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
3. Analisi fattoriale (P.C.A.)

Al fine di analizzare l’interpretabilità del modello, verifichiamo i valori assunti dalle singole celle della matrice dei fattori ruotata che
evidenziano la correlazione di ciascuna delle 17 variabili di partenza ai 7 fattori considerati rappresentati nelle colonne della matrice.
Quanto più forte è la correlazione, tanto più la singola variabile caratterizzerà i fattori ottenuti.
Ogni singolo fattore è infatti ottenuto come combinazione lineare di tutte le variabili di partenza per come qui di seguito riportato:

F1= b1X + b2X + b3X + ………….+ b14X                           (questo per tutti i fattori)

Prendiamo la matrice dei fattori ruotata e la copiamo in excel. Per trovare/evidenziare le correlazioni forti, evidenzio la matrice dei valori, poi
Home Formattazione condizionale Scala di colori.

L’analisi della matrice ci permette dunque di meglio caratterizzare i singoli fattori e di “battezzarli” a seconda delle peculiari caratteristiche.
                                              Rotated Factor Pattern
                                                                                                              PER I GRANDI E                                                POTERE
                                                                                      GUSTO      FRESCHEZZA                    DIGERIBILITA’   LEGGEREZZA   CONVENIENZA
                                                                                                               PER I PICCINI                                              DISSETANTE
                    1 È un latte molto buono, gustoso                                0,585802     0,350436      0,2046678       -0,090928      0,1499449     0,2731628    -0,058654
                    2 E’ un latte che mi dà energia                                  0,744176     0,2256356     0,1760879        0,228521       -0,02402      0,083899    0,1073991
                    3 E’ un latte genuino, naturale                                  0,2695219    0,6747949     0,1856965       0,1700758       -0,008683     0,237591    0,0667702
                    4 E’ un latte che fa bene alla salute                            0,4765888    0,3644414     0,2826577       0,2876339      0,2552452     0,0101203     -0,03568
                    5 E’ un latte di qualità superiore                               0,352554     0,5270681     0,3143145       0,0441598      0,1952893     0,1271387    0,0883555
                    6 E’ un latte dissetante                                         0,2665588    0,1394061     0,089494        0,1115818      0,0966336      0,09657     0,9062882
                    7 E’ adatto ai bambini                                           0,2069754    0,327477      0,7370665       0,1483316       -0,114879    0,0365657    -0,022089
                    8 E’ sicuro e controllato                                        0,0716118    0,6388794     0,0270259       0,2552731      0,0406213     0,3953705    0,0669589
                    9 Ha un buon rapporto qualità/ prezzo                            0,1350408    0,1599217     0,1041501       0,0653479      0,1343099     0,8817457    0,0857505
                   10 E’ facile da digerire                                          0,1515711    0,2648915     0,0954717       0,7898668      0,2247989     0,0700023    0,0985593
                   11 E’ un latte leggero, poco calorico                             0,1811885    0,1659001     0,0243135       0,2826399       0,813613     0,1583432    0,0799922
                   12 E’ un latte fresco                                             0,145896     0,7724745     0,1041005       0,0499222      0,1749021     -0,097142    0,0789353
                   13 Ha una funzione depuratrice dell’organismo                     0,5393826    0,3080208     0,2004226        0,251261       0,019158      0,169298    0,1868149
                   14 E’ un latte per tutta la famiglia                              0,1927008    0,1739135     0,664877        -0,141228      0,4725455     0,0593632    0,1554397
                   15 E’ un latte ideale per la preparazione di alimenti             0,3657103    -0,060397     0,5631874       0,3833849      0,0558926     0,2221196    0,1430545
                   16 E’ un latte che mi fa sentire in forma                         0,5977278    0,1908682     0,2327479       0,3210368      0,2715298     0,0864465    0,1256479
                   17 E’ un latte che mi sazia                                       0,8044785    0,0340663     0,0790655       -0,050381      0,1329641     -0,010319    0,2079367

                                                          Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
                                                                                                                                                                                       9
3. Analisi fattoriale (P.C.A.)



  L’analisi della matrice ci permette di escludere fenomeni di cross-loading. Non sembrano esistere infatti attributi fortemente correlati a
  tutti i fattori individuati.
  Riteniamo dunque che i fattori individuati possano essere considerati come pilastri nel nostro modello (tali pilastri sono tra loro non
  correlati ed indipendenti; ciascuno di essi, dunque, con media 0 e varianza 1).




                                  Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
                                                                                                                                               10
4. Analisi Cluster


I 7 fattori individuati costituiscono la base di partenza della cluster analysis.
La cluster analysis è una tecnica di classificazione automatica in gruppi, omogenei internamente e disomogenei esternamente, finalizzata
all’identificazione di gruppi di entità (nel nostro caso persone) che condividano determinate caratteristiche (benefici ricercati nel prodotto,
attitudini, preferenze…)

Nel caso in analisi utilizzeremo una segmentazione per omogeneità (Cluster Diretta, Algoritmo Kmedie).

Obiettivo dell’analisi sarà dunque:

       • Definire il numero di cluster attraverso l’algortimo iterativo delle Kmedia;

       • Verificare la compattezza interna di ciascun cluster;

       • Verificare la respingenza esterna di ciascun cluster;

       • Interpretare e descrivere i cluster (interpretabilità dei cluster).




                                      Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
                                                                                                                                                  11
4. Analisi Cluster: a)Ampiezza del Cluster

                                             Steps per valutare un buon modello: quanti cluster scelgo?
                                               1 Ampiezza Cluster Regola operativa: evitare cluster < 1-3% oppure > 50-60% dei dati
                                               2 Omogeneità -> Anova Test F
                                               3 Interpretabilità

                                             JMP: Analyse Multivariate Methods Cluster                  Y: metto i 7 Fattori
                                             Options: cambio da ‘Hyrarchical’ a ‘Kmeans’
                                             Number of clusters: primo tentativo con K= 3
                                             Standardize data: YES

                                                   Iterative Clustering      Control Panel Number of clusters: 3.

                                             Dopo un determinato numero di iterazioni (46), l’algoritmo converge a soluzione.
                                             Un’analisi dei cluster ottenuti evidenzia una ampiezza eccessiva del cluster 3 (519
                                             individui pari al 57,3% del campione).
                                             Decidiamo di aumentare il numero di cluster fino ad un numero massimo di 6 e di
                                             rilanciare ogni volta l’algoritmo.
                                             I risultati evidenziano la presenza di un “Gruppo unico” all’interno dei cluster considerati.
                                             La sua ampiezza non tende a diminuire e rimane pressoché costante all’aumentare del
                                             numero di cluster.
                                             Per prodotti mass-market (quali il latte) è normale trovare un cluster particolarmente
                                             consistente, di massa e dunque di difficile caratterizzazione.
                                             La scelta ottimale nel nostro caso sembra essere quella di considerare 4 cluster (“cluster
                                             2” in jmp). Un primo tentativo a 5 cluster (“cluster 1” in jmp) aveva dato problemi in fase
                                             di interpetabilità.
                                                                                 numerosità (% su totale) del cluster più ampio
                                                   60,0%
                                                   55,0%
                                                   50,0%
                                                   45,0%
                                                   40,0%
                                                   35,0%                                                                                     12
                                                 Numero clusters    3                   4                       5                 6
4. Analisi Cluster: b) Omogeneità interna e respingenza esterna


                                                              Al fine di verificare l’omogeneità interna e la respingenza esterna dei singoli cluster
                                                              effettuiamo il test Anova- test F.

                                                              Il Test F è determinato dal rapporto tra la varianza tra i gruppi e la varianza nei
                                                              gruppi. Una soluzione di cluster analysis è accettabile quando tutte le variabili
                                                              mostrano un test F significativo.

                                                              La soluzione ottima comporta che ogni singolo fattore sia massimamente diverso
                                                              nei cluster. Vogliamo dunque verificare che, per ogni fattore, sia alta la varianza tra i
                                                              gruppi e sia bassa la varianza nei gruppi (vogliamo cioè che ogni singolo cluster sia
                                                              costituito da persone con attitudini di consumo simili).

                                                              I risultati dell’analisi condotta mostrano, per ogni fattore, prob >F < 0,0001, p-value
                                                              dunque sempre < 5% e rapporto Test F sempre elevato e significativo.

                                                              L’interpretazione dei dati statistici evidenzia dunque come i cluster determinati
                                                              rispettano sia le condizioni di respingenza esterna (diversità tra i cluster, σ2 tra i
                                                              gruppi ALTA) che quelle di compattezza interna (omogeneità all’interno dei cluster,
                                                              σ2 nei i gruppi BASSA).




                                 Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
                                                                                                                                                  13
4. Analisi Cluster: b) Omogeneità interna e respingenza esterna




Tutti i fattori sono standardizzati (e quindi hanno media nulla e varianza uguale a 1). Se le medie non si sovrappongono, i cluster sono massimamente
differenziati in termini di un certo attributo. Verifichiamo che per ogni fattore il test F (F Ratio) sia significativo e che i p-value < 5% per tutti i fattori. Per
verificare la significatività statistica, si può anche analizzare la rappresentazione grafica dell’intervallo di confidenza. Nel nostro caso entrambe le
condizioni sono rispettate.



                                          Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini                         14
4 Analisi Cluster: b) Omogeneità interna e respingenza esterna




E’ importante inoltre verificare la “leggibilità marketing” dei cluster stessi. A tal fine, tanto maggiori saranno i valori assunti dalle medie dei singoli
cluster nei confronti dei differenti fattori, quanto maggiore sarà l’importanza di un fattore per lo specifico cluster considerato.

A titolo esemplificativo, la media di 0,316 del cluster 1 nei confronti del fattore “gusto” implica che il cluster 1 assegni importanza elevata a tale
fattore. Viceversa il cluster 1 non assegna rilevante importanza al fattore “dietetico” (media del -0,51).

La matrice delle medie dei cluster sintetizza tali valori ed è di importante applicazione al fine di meglio descrivere ed interpretare i singoli cluster.

                                                                                                                                                       15
                                      Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
4. Analisi Cluster: c) Interpretabilita’


                                                       PER I GRANDI E                                        POTERE                      Denominazione
     Cluster NUMEROSITA' GUSTO FRESCHEZZA                             DIGERIBILITA' LEGGEREZZA CONVENIENZA
                                                        PER I PICCINI                                      DISSETANTE                        Cluster
        1          218         0,316        -0,046           0,212       -0,882        -0,514     -0,674      -0,101                      Buongustaio
        2          129         -1,438        0,559           0,311       0,310          0,345     -0,299      -0,499                        Esigente
        3          110         -0,370       -1,025          -1,732       0,225         -0,090     0,136       -0,130                     Price-oriented
        4          449         0,350         0,112           0,230       0,285          0,175     0,381        0,223                      Indifferente




Esportando la matrice delle medie dei cluster in excel (cluster 2 nel file jmp), è possibile analizzare i
valori medi assunti dai singoli fattori rispetto ai differenti cluster (analisi per colonna) evidenziando i
valori maggiormente rilevanti..
                                                                                                                                  Buongustaio      Esigente
L’interpretazione dei singoli cluster verrà in seguito effettuata leggendo riga per riga quali siano i fattori
più rilevanti; tale analisi ci permetterà quindi di descrivere e denominare i 4 cluster.                                          Price oriented   Indifferente


 Buongustaio (24,1%): focalizzato sul sapore, sul gusto del prodotto; beve il latte perché gli piace e,
probabilmente, ne fa un uso principalmente a colazione (e per questo vuole che il latte lo sazi e gli dia                                             24%
energia);                                                                                                                     50%
                                                                                                                                                              14%
  Esigente (14,2%): molto attento alla qualità del prodotto, alla sua freschezza, alla leggerezza ed alla
                                                                                                                                                   12%
digeribilità (qualità per le quali è disposto a sacrificare il gusto); lo utilizza abitualmente in famiglia (per
la preparazione di alimenti, per i bambini…);

 Price oriented (12,1%): focalizzato sulla convenienza del prodotto, poco influenzato dalla qualità del
prodotto.

 Indifferente (49,6%): cluster molto omogeneo difficile da caratterizzare.

E’ interessante evidenziare inoltre come uno dei fattori da noi considerati, “dissetante”, non risulti
caratterizzare in particolare nessuno dei cluster determinati (assume importanza solo relativamente al
                                                                                                                                                                  16
cluster “indifferente”).               Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
4. Analisi Cluster: c) Interpretabilita’

E’ interessante inoltre comprendere i profili socio-demografica degli appartenenti ai singoli cluster.
In particolare, attraverso una analisi di contingenza, è necessario verificare se esiste relazione significativa tra i cluster identificati e le ulteriori
variabili descrittive presenti nel database (pack preferito, frequenza di consumo latte fresco, genere, eta’, figli, titolo di studio, shopping online,
pratica abitualmente lo sport, legge quotidiani, quotidiano preferito, regione).
Nello specifico, 5 attributi socio-demografici risultano significativi (prob>chiQ < 0,05) per i 4 cluster identificati.

• Genere (uomo, donna);
• Ha figli (si, no);
• Professione (studente, pensionato, operaio, libero professionista, insegnante, impiegato, casalinga, altro);
• Titolo di studio (scuola media inferiore, licenza elementare, laurea, diploma di scuola media superiore);
• Pratica abitualmente sport (si, no).


Il test di Pearson sull’attributo “età per classi” ha una prob> chiQu = 0,06 che interpretiamo, con un po’ di flessibilità, come significativa (il
valore è infatti prossimo allo 0,05; gli attributi scartati evidenziano invece sempre prob>chiQu> 0,12).

• Età (per classi): 18-30, 31-40, 41- 50, 51-60, 61-70.




                                    Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
                                                                                                                                                      17
4. Analisi Cluster: c) Interpretabilita’




                                    Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
                                                                                                                               18
4. Analisi Cluster: chi compone i cluster



                                  BUONGUSTAIO                         ESIGENTE                    PRICE - ORIENTED                INDIFFERENTE

                                   72,5 % donne                    66,6 % donne                     65,4 % donne                  76,3 % donne
        Genere                     27,5 % uomini                   33,4 % uomini                    34,6 % uomini                 23,7 % uomini



                                Molto frammentata.                                                                            Le fasce 31-40 (20,27%),
                                                                La fascia da 18-40            Le fasce 18-30 (25,45%) e
                              Le fasce 18-30 (24,7%) e                                                                        41-50 (23,16%) e 61-70
      Età (classe)                                                 rappresenta                 61-70 (24,55%) sono le
                              41-50 (23%) sono le più                                                                           (22,27%) sono le più
                                                             complessivamente il 47%              più rappresentate.
                                   rappresentate.                                                                                  rappresentate.


                                       65% si                         60,47% si                         44,5% si                     64,37% si
          Figli

                                                                                                  impiegato: 20,9%
                                 impiegato: 25,2%                impiegato: 27,9%                                                casalinga: 30,3%
                                                                                                  pensionato: 19,1%
                                   casalinga: 22%                pensionato: 17,8%                                              impiegato: 23,2%
                                                                                                   casalinga: 13,6%
 Professione (prime 4)           pensionato: 13,8%                casalinga: 14,7%                                              pensionato: 14,2%
                                                                                                Libero professionista:
                                  studente: 11,9%                 studente: 13,2%                                                 studente: 7,6%
                                                                                                        12,7%


                                                                                                   scuola sup.: 49%              scuola sup.: 46%
                                  scuola sup.: 51%                scuola sup.: 48%
Titolo di studio (primi 2)                                                                            laurea:27%                  scuola inf.: 27%
                                   scuola inf.: 23%                 laurea:31,8%



  Sport abitualmente                  51,8% si                         47,3% si                        56,36% si                     39,87% si
                                   Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
                                                                                                                                                     19
5. Conclusioni – strategie di marketing



  Buongustaio (24,1%):
-Prevalentemente donna, impiegata o casalinga con figli, sotto i 50
anni, istruzione media.
- Ama il latte saporito, lo beve perché le piace, vuole che sia energetico
e nutriente per cominciare bene la giornata.
- Advertising consigliato: il latte scremato non possiede le
caratteristiche giuste per questo cluster di consumatori (è un latte
magro e non saporito, adatto a chi soffre di colesterolo, a chi segue
diete ipocaloriche etc)

  Esigente (14,2%):
-Prevalentemente donna (ma sale la percentuale di uomini rispetto al
cluster precedente), con figli, sotto i 40 anni, istruzione medio-alta.
- molto attento alla qualità del prodotto, alla sua freschezza, alla
leggerezza ed alla digeribilità (qualità per le quali è disposto a
sacrificare il gusto); lo utilizza abitualmente in famiglia (per la
preparazione di alimenti, per i bambini…).
- Advertising consigliato: escluderemmo campagne mkt troppo
focalizzate su famiglie con bambini piccoli (il latte scremato infatti non
è molto nutriente), ci focalizzeremmo su campagne tipo “vita snella”,
“cereali special K”. Il cliente esigente è inoltre disposto a pagare
premium price e dunque va considerato come cluster di clienti
profittevoli.


 Price oriented (12,1%): è poco influenzato dalla caratteristiche del
prodotto; suggeriamo pertanto di non investire in campagne marketing
in quanto cluster di clienti sicuramente non profittevole.
                                       Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
                                                                                                                                  20

Weitere ähnliche Inhalte

Andere mochten auch

Data Mining and Big Data Analytics in Pharma
Data Mining and Big Data Analytics in Pharma Data Mining and Big Data Analytics in Pharma
Data Mining and Big Data Analytics in Pharma
Ankur Khanna
 
Novetats setmana 15_a_22_de_febrer
Novetats setmana 15_a_22_de_febrerNovetats setmana 15_a_22_de_febrer
Novetats setmana 15_a_22_de_febrer
Purabiblioteca
 
Magazine Cover Evaluation
Magazine Cover EvaluationMagazine Cover Evaluation
Magazine Cover Evaluation
guest6d3c71
 
Digital AdAge 2011 Summary Trends
Digital AdAge 2011 Summary TrendsDigital AdAge 2011 Summary Trends
Digital AdAge 2011 Summary Trends
Rapporteuse
 
Drama as a Bridge to Literacy 2012
Drama as a Bridge to Literacy  2012Drama as a Bridge to Literacy  2012
Drama as a Bridge to Literacy 2012
Susan Hillyard
 
Novetats setmanals biblioteca publica_municipal
Novetats setmanals biblioteca publica_municipalNovetats setmanals biblioteca publica_municipal
Novetats setmanals biblioteca publica_municipal
Purabiblioteca
 

Andere mochten auch (15)

IDC Big Data & Analytics Conference 2014
IDC Big Data & Analytics Conference 2014IDC Big Data & Analytics Conference 2014
IDC Big Data & Analytics Conference 2014
 
Data Mining and Big Data Analytics in Pharma
Data Mining and Big Data Analytics in Pharma Data Mining and Big Data Analytics in Pharma
Data Mining and Big Data Analytics in Pharma
 
Big Data in Pharma - Overview and Use Cases
Big Data in Pharma - Overview and Use CasesBig Data in Pharma - Overview and Use Cases
Big Data in Pharma - Overview and Use Cases
 
Toll hike letters
Toll hike lettersToll hike letters
Toll hike letters
 
Performance Testing And Beyond
Performance Testing And BeyondPerformance Testing And Beyond
Performance Testing And Beyond
 
Explo groupperu at-sinc presentation
Explo groupperu   at-sinc presentationExplo groupperu   at-sinc presentation
Explo groupperu at-sinc presentation
 
Hot And Cold
Hot And ColdHot And Cold
Hot And Cold
 
Novetats setmana 15_a_22_de_febrer
Novetats setmana 15_a_22_de_febrerNovetats setmana 15_a_22_de_febrer
Novetats setmana 15_a_22_de_febrer
 
Magazine Cover Evaluation
Magazine Cover EvaluationMagazine Cover Evaluation
Magazine Cover Evaluation
 
Glitch Aesthetics: Exhibiting Video Conference
Glitch Aesthetics: Exhibiting Video ConferenceGlitch Aesthetics: Exhibiting Video Conference
Glitch Aesthetics: Exhibiting Video Conference
 
Ocean In A Drop Of Water
Ocean In A Drop Of WaterOcean In A Drop Of Water
Ocean In A Drop Of Water
 
Digital AdAge 2011 Summary Trends
Digital AdAge 2011 Summary TrendsDigital AdAge 2011 Summary Trends
Digital AdAge 2011 Summary Trends
 
Governor's Program Bill: Property Tax
Governor's Program Bill: Property TaxGovernor's Program Bill: Property Tax
Governor's Program Bill: Property Tax
 
Drama as a Bridge to Literacy 2012
Drama as a Bridge to Literacy  2012Drama as a Bridge to Literacy  2012
Drama as a Bridge to Literacy 2012
 
Novetats setmanals biblioteca publica_municipal
Novetats setmanals biblioteca publica_municipalNovetats setmanals biblioteca publica_municipal
Novetats setmanals biblioteca publica_municipal
 

Ähnlich wie Assignment Advance Quantitative Methods Casolat

Appunti statistica descrittiva 1
Appunti statistica descrittiva 1Appunti statistica descrittiva 1
Appunti statistica descrittiva 1
ESmargiassi
 
Rimini 2014 spread trading quantitativo
Rimini 2014   spread trading quantitativoRimini 2014   spread trading quantitativo
Rimini 2014 spread trading quantitativo
Luigi Piva CQF
 
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
Istituto nazionale di statistica
 

Ähnlich wie Assignment Advance Quantitative Methods Casolat (9)

Utilizzo Di Algoritmi Genetici In Ambito Seo
Utilizzo Di Algoritmi Genetici In Ambito SeoUtilizzo Di Algoritmi Genetici In Ambito Seo
Utilizzo Di Algoritmi Genetici In Ambito Seo
 
Data mining 00-corso2017
Data mining 00-corso2017Data mining 00-corso2017
Data mining 00-corso2017
 
Appunti statistica descrittiva 1
Appunti statistica descrittiva 1Appunti statistica descrittiva 1
Appunti statistica descrittiva 1
 
8 Statistica
8 Statistica8 Statistica
8 Statistica
 
Rimini 2014 spread trading quantitativo
Rimini 2014   spread trading quantitativoRimini 2014   spread trading quantitativo
Rimini 2014 spread trading quantitativo
 
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesCOUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
 
Stili di Attaccamento. Metacognizione e Sistemi Motivazionali: uno studio Cor...
Stili di Attaccamento. Metacognizione e Sistemi Motivazionali: uno studio Cor...Stili di Attaccamento. Metacognizione e Sistemi Motivazionali: uno studio Cor...
Stili di Attaccamento. Metacognizione e Sistemi Motivazionali: uno studio Cor...
 
Machine learning e tecniche statistiche applicate al rischio di credito: il c...
Machine learning e tecniche statistiche applicate al rischio di credito: il c...Machine learning e tecniche statistiche applicate al rischio di credito: il c...
Machine learning e tecniche statistiche applicate al rischio di credito: il c...
 
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
 

Mehr von lanuz

Assignment Corporate Finance Babylon
Assignment Corporate Finance   BabylonAssignment Corporate Finance   Babylon
Assignment Corporate Finance Babylon
lanuz
 
Assignment Corporate Strategy Gruppo De Agostini
Assignment Corporate Strategy   Gruppo De AgostiniAssignment Corporate Strategy   Gruppo De Agostini
Assignment Corporate Strategy Gruppo De Agostini
lanuz
 
Assignment Marketing Big Brother
Assignment Marketing   Big BrotherAssignment Marketing   Big Brother
Assignment Marketing Big Brother
lanuz
 
Assignment Strategic Management Swatch
Assignment Strategic Management   SwatchAssignment Strategic Management   Swatch
Assignment Strategic Management Swatch
lanuz
 

Mehr von lanuz (6)

Leakage detection
Leakage detectionLeakage detection
Leakage detection
 
Pressure Management
Pressure ManagementPressure Management
Pressure Management
 
Assignment Corporate Finance Babylon
Assignment Corporate Finance   BabylonAssignment Corporate Finance   Babylon
Assignment Corporate Finance Babylon
 
Assignment Corporate Strategy Gruppo De Agostini
Assignment Corporate Strategy   Gruppo De AgostiniAssignment Corporate Strategy   Gruppo De Agostini
Assignment Corporate Strategy Gruppo De Agostini
 
Assignment Marketing Big Brother
Assignment Marketing   Big BrotherAssignment Marketing   Big Brother
Assignment Marketing Big Brother
 
Assignment Strategic Management Swatch
Assignment Strategic Management   SwatchAssignment Strategic Management   Swatch
Assignment Strategic Management Swatch
 

Assignment Advance Quantitative Methods Casolat

  • 1. Advanced Quantitative Methods Course Assignment: Analisi di Segmentazione Classica “CasoLat” Gruppo “XYZ” Milano, 11 Maggio 2010 Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
  • 2. Indice 1. Obiettivo dell’analisi di segmentazione classica e descrizione del set di dati considerati (CasoLat); 2. Analisi preliminare e statistica descrittiva; 3. Analisi fattoriale (per l’individuazione di tali macro-elementi); 4. Analisi Cluster (per l’individuazione dei diversi segmenti). 5. Conclusioni; Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
  • 3. 1. Obiettivo dell’analisi di segmentazione classica e descrizione del set di dati considerati (CasoLat); Il database “dati_Casolat” è relativo ad una ricerca di mercato legata alla percezione ed alla valutazione - attraverso 17 item – del “latte Casolat”. Casolat è un latte scremato fresco da lanciare sul mercato italiano e l’azienda vuole individuare e studiare i segmenti più profittevoli per adottare un’adeguata comunicazione. L’indagine comprende una parte relativa alla valutazione di diverse motivazioni d’acquisto per un latte fresco. Gli item da valutare su una scala di importanza soggettiva da 1 a 9 (1 poco importante—9 molto importante) sono i seguenti: 1. È un latte molto buono, gustoso; 2. E’ un latte che mi dà energia; 3. E’ un latte genuino, naturale; 4. E’ un latte che fa bene alla salute; 5. E’ un latte di qualità superiore; 6. E’ un latte dissetante; 7. E’ adatto ai bambini; 8. E’ sicuro e controllato; 9. Ha un buon rapporto qualità/ prezzo; 10. E’ facile da digerire; 11. E’ un latte leggero, poco calorico; 12. E’ un latte fresco; 13. Ha una funzione depuratrice dell’organismo; 14. E’ un latte per tutta la famiglia; 15. E’ un latte ideale per la preparazione di alimenti; 16. E’ un latte che mi fa sentire in forma; 17. E’ un latte che mi sazia; Oltre a tali variabili nel database sono presenti anche alcuni elementi utili per la descrizione dei profili/segmenti da individuare in modo da verificarne l’effettiva raggiungibilità per indirizzare la comunicazione in modo adeguato. Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 2
  • 4. 1. Obiettivo dell’analisi di segmentazione classica e descrizione del set di dati considerati (CasoLat); Con l’analisi di segmentazione classica sintetizzeremo il database della ricerca di mercato a nostra disposizione in macro-elementi di scelta del consumatore su una serie di caratteristiche del latte (17 items di partenza: motivazioni/occasioni d’uso o modalità di comportamento) e successivamente individueremo e costruiremo gruppi omogenei del target rilevante di clienti sulla base dei macro-elementi individuati. L’analisi di segmentazione classica prevede, quindi, la combinazione di due modelli statistici multivariati: • Una analisi fattoriale analisi fattoriale (per l’individuazione di tali macro-elementi); • Una cluster analysis (per l’individuazione dei diversi segmenti). Obiettivo di tale analisi è quello di focalizzare le campagne marketing dell’azienda in funzione degli specifici bisogni dei cluster di potenziali clienti individuati. Domande: a) Si individui e si valuti un modello di analisi fattoriale e si dia un’interpretazione delle componenti principali (o fattori) individuate attraverso l’analisi; b) Si individui e si analizzi un modello di cluster analysis applicato sulla base dei macro-elementi individuati nella parte precedente costruendo gruppi omogenei del target rilevante e si dia un’interpretazione dei cluster ottenuti; c) Si approfondisca l’analisi precedente con i profili socio-demografici dei diversi segmenti ottenuti incrociando l’appartenenza ai cluster con alcune caratteristiche socio-demografiche/anagrafiche del target per verificarne l’effettiva raggiungibilità; 3 Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
  • 5. 2. Analisi preliminare e statistica descrittiva: statistica univariata Prima di cominciare con l’analisi del caso, eliminiamo dal database le osservazioni caratterizzate dalla presenza di dati mancanti (attribuzione del valore 0 ad alcuni attributi dell’intervista); le osservazioni passano da 1001 a 906 con un decremento, ritenuto da noi accettabile, del 9,4%. Identifichiamo le caratteristiche fondamentali della distribuzione di ogni singola variabile senza analizzare per il momento le relazioni congiunte con le altre variabili. Le statistiche univariate sui 17 item evidenziano: - valori medi molto elevati: sempre > 6,86; - distribuzioni polarizzate verso valori alti con valori massimi e quartili di ordine 75 sempre coincidenti 4 Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
  • 6. 2. Analisi preliminare e statistica descrittiva L’analisi fattoriale studia le interrelazioni tra variabili al fine di trovarne un nuovo insieme, di dimensioni minori rispetto all’originario, che esprima ciò che è in comune fra le variabili originarie stesse. Dal punto di vista statistico, obiettivo dell’analisi fattoriale è individuare un numero ridotto di combinazioni lineari delle variabili originarie, fattori, che spieghino gran parte della varianza delle variabili stesse. Ogni combinazione lineare sarà funzione di tutte le variabili originarie, correlandosi in particolare ad alcune di esse. Le componenti saranno non correlate tra di loro. L’input effettivo della tecnica è costituito dalla matrice di correlazione tra le variabili; più forte è la correlazione, maggiore sarà la capacità di sintesi dell’analisi fattoriale. Dallo studio della matrice e del relativo diagramma di dispersione si potrà dunque cogliere la natura e l’intensità dei legami tra le singole coppie di variabili. La presenza di correlazioni importanti tra alcuni attributi (valori > 0,5 per esempio tra “sentirsi in forma” e “mi da energia”, tra “mi da energia “ e “mi sazia”, tra “è sicuro e controllato” e “è genuino e naturale”…) permette di ipotizzare fin dalle fasi di analisi preliminare un corretto funzionamento del modello di analisi fattoriale. Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 5
  • 7. 3. Analisi fattoriale (P.C.A.) JMP: Multivariate Principal Components On Correlations Applichiamo l’algoritmo di analisi fattoriale sulle 17 variabili iniziali al fine di stabilire: - Il numero di fattori da considerare; - la varianza spiegata dai fattori di sintesi; - l’interpretabilità del modello. La colonna “percent” riporta la % di varianza spiegata da ciascuna delle nuove componenti individuate dal modello. Il primo fattore (e’ un latte molto buono, gustoso) è quello con varianza spiegata massimo (39.462%), il secondo fattore è quello con varianza spiegata second best (7.251%) e così via in ordine decrescente. Al fine di determinare il numero di fattori da considerare per ridurre la complessità del modello, è utile considerare che una percentuale del 60-70% della varianza spiegata è da ritenersi generalmente accettabile. Nel nostro caso, 7 fattori spiegherebbero il 70,5% della varianza, 6 fattori il 66,58%. Al fine di determinare il numero ottimale di fattori, puo’ risultare di supporto anche una interpretazione del grafico degli auto valori (Scree Plot); in particolare il grafico evidenzia come in corrispondenza di un appiattimento della curva, un aumento di fattori non comporta significativi incrementi della varianza spiegata. Nel nostro caso (eccezion fatta per il passaggio Da 1 a 2 fattori) si riscontrano 2 cambi di pendenza: uno, più significativo, tra i fattori 6-7 ed un altro tra 11-12. Considerando il notevole aumento di complessita’ che comporterebbe utilizzare 11 fattori invece di 7 (a fronte di un aumento di varianza spiegata di soli 14.1%) assumiamo di utilizzare 7 fattori. In ogni caso, le considerazioni relative alla percentuale di varianza spiegata ed alla riduzione di complessità vanno unite, per la scelta del corretto numero di fattori di una analisi di taglio marketing sull’effettiva interpretabilità dei fattori e sulla loro potenziale rilevanza per l’impostazione delle politiche di marketing. Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 6
  • 8. 3. Analisi fattoriale (P.C.A.) JMP: Principal Components/Factor Analysis Factor Rotation Factoring Method: Principal Components (diagonals=1) How many rotated factors? 7 Rotation Method ‘Varimax’ Esistono infiniti output di analisi fattoriale compatibili con gli stessi dati di input. Questi infiniti output in generale non forniscono interpretazioni del fenomeno pesantemente contrastanti tra di loro, ma differiscono solo marginalmente e nelle aree di ambiguità. Tra gli infiniti output è opportuno pertanto scegliere quelli che meglio mettono in evidenza le correlazioni tra variabili e fattori. Il metodo di rotazione Varimax ha come obiettivo la minimizzazione del numero di variabili che possiedono saturazioni elevate per ciascun fattore. L’applicazione della rotazione Varimax, pertanto, mantiene inalterata la varianza complessiva spiegata dall’insieme dei fattori, 70,54%, ma modifica, massimizzandola, la percentuale di varianza spiegata da ciascun fattore (a titolo di esempio il fattore 1 spiegava da solo il 39,46% della varianza prima della rotazione e risultava correlato con la maggior parte degli item; a seguito di rotazione il fattore 1 passa al 17,65%, la % di varianza rimanente viene “spalmata” sui restanti fattori ed aumenta l’interpretabilità degli altri fattori ). 7 Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
  • 9. 3. Analisi fattoriale (P.C.A.) E’ importante inoltre verificare la comunabilità dei fattori, e quindi verificare quale sia la % di varianza spiegata di ogni singolo attributo di partenza. Nel caso in analisi si evidenzia come le singole variabili vengano spiegate con % che variano da un minimo del 55,3% (funzione depuratrice dell’organismo) ad un massimo del 95% (è un latte dissettante) per un valore medio che si attesta sul 70,5%. In sintesi, la complessità è stata ridotta circa del 60% (da 17 variabili a 7 fattori), la % di varianza spiegata è del 70.54% (con una perdita accettabili del 29.458%), la comunalità è sempre superiore al 55.3% (funzione depuratrice dell’organismo). Una eventuale riduzione dei fattori (6 vs 7) comporterebbe sicuramente una diminuzione della complessità ma a fronte di una diminuzione della varianza spiegata complessivamente (da 70,54% a 66,5%) ed in particolare per specifiche variabili (è un latte dissetante passerebbe dal 95% al 60%). Decidiamo, in ottica marketing, di non perdere tale dettaglio e di continuare con 7 fattori. Analizziamo dunque come si comporta il modello a livello di l’interpretabilità analizzando “la matrice dei fattori ruotata”. JMP: Factor Rotation: Varimax 8 Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
  • 10. 3. Analisi fattoriale (P.C.A.) Al fine di analizzare l’interpretabilità del modello, verifichiamo i valori assunti dalle singole celle della matrice dei fattori ruotata che evidenziano la correlazione di ciascuna delle 17 variabili di partenza ai 7 fattori considerati rappresentati nelle colonne della matrice. Quanto più forte è la correlazione, tanto più la singola variabile caratterizzerà i fattori ottenuti. Ogni singolo fattore è infatti ottenuto come combinazione lineare di tutte le variabili di partenza per come qui di seguito riportato: F1= b1X + b2X + b3X + ………….+ b14X (questo per tutti i fattori) Prendiamo la matrice dei fattori ruotata e la copiamo in excel. Per trovare/evidenziare le correlazioni forti, evidenzio la matrice dei valori, poi Home Formattazione condizionale Scala di colori. L’analisi della matrice ci permette dunque di meglio caratterizzare i singoli fattori e di “battezzarli” a seconda delle peculiari caratteristiche. Rotated Factor Pattern PER I GRANDI E POTERE GUSTO FRESCHEZZA DIGERIBILITA’ LEGGEREZZA CONVENIENZA PER I PICCINI DISSETANTE 1 È un latte molto buono, gustoso 0,585802 0,350436 0,2046678 -0,090928 0,1499449 0,2731628 -0,058654 2 E’ un latte che mi dà energia 0,744176 0,2256356 0,1760879 0,228521 -0,02402 0,083899 0,1073991 3 E’ un latte genuino, naturale 0,2695219 0,6747949 0,1856965 0,1700758 -0,008683 0,237591 0,0667702 4 E’ un latte che fa bene alla salute 0,4765888 0,3644414 0,2826577 0,2876339 0,2552452 0,0101203 -0,03568 5 E’ un latte di qualità superiore 0,352554 0,5270681 0,3143145 0,0441598 0,1952893 0,1271387 0,0883555 6 E’ un latte dissetante 0,2665588 0,1394061 0,089494 0,1115818 0,0966336 0,09657 0,9062882 7 E’ adatto ai bambini 0,2069754 0,327477 0,7370665 0,1483316 -0,114879 0,0365657 -0,022089 8 E’ sicuro e controllato 0,0716118 0,6388794 0,0270259 0,2552731 0,0406213 0,3953705 0,0669589 9 Ha un buon rapporto qualità/ prezzo 0,1350408 0,1599217 0,1041501 0,0653479 0,1343099 0,8817457 0,0857505 10 E’ facile da digerire 0,1515711 0,2648915 0,0954717 0,7898668 0,2247989 0,0700023 0,0985593 11 E’ un latte leggero, poco calorico 0,1811885 0,1659001 0,0243135 0,2826399 0,813613 0,1583432 0,0799922 12 E’ un latte fresco 0,145896 0,7724745 0,1041005 0,0499222 0,1749021 -0,097142 0,0789353 13 Ha una funzione depuratrice dell’organismo 0,5393826 0,3080208 0,2004226 0,251261 0,019158 0,169298 0,1868149 14 E’ un latte per tutta la famiglia 0,1927008 0,1739135 0,664877 -0,141228 0,4725455 0,0593632 0,1554397 15 E’ un latte ideale per la preparazione di alimenti 0,3657103 -0,060397 0,5631874 0,3833849 0,0558926 0,2221196 0,1430545 16 E’ un latte che mi fa sentire in forma 0,5977278 0,1908682 0,2327479 0,3210368 0,2715298 0,0864465 0,1256479 17 E’ un latte che mi sazia 0,8044785 0,0340663 0,0790655 -0,050381 0,1329641 -0,010319 0,2079367 Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 9
  • 11. 3. Analisi fattoriale (P.C.A.) L’analisi della matrice ci permette di escludere fenomeni di cross-loading. Non sembrano esistere infatti attributi fortemente correlati a tutti i fattori individuati. Riteniamo dunque che i fattori individuati possano essere considerati come pilastri nel nostro modello (tali pilastri sono tra loro non correlati ed indipendenti; ciascuno di essi, dunque, con media 0 e varianza 1). Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 10
  • 12. 4. Analisi Cluster I 7 fattori individuati costituiscono la base di partenza della cluster analysis. La cluster analysis è una tecnica di classificazione automatica in gruppi, omogenei internamente e disomogenei esternamente, finalizzata all’identificazione di gruppi di entità (nel nostro caso persone) che condividano determinate caratteristiche (benefici ricercati nel prodotto, attitudini, preferenze…) Nel caso in analisi utilizzeremo una segmentazione per omogeneità (Cluster Diretta, Algoritmo Kmedie). Obiettivo dell’analisi sarà dunque: • Definire il numero di cluster attraverso l’algortimo iterativo delle Kmedia; • Verificare la compattezza interna di ciascun cluster; • Verificare la respingenza esterna di ciascun cluster; • Interpretare e descrivere i cluster (interpretabilità dei cluster). Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 11
  • 13. 4. Analisi Cluster: a)Ampiezza del Cluster Steps per valutare un buon modello: quanti cluster scelgo? 1 Ampiezza Cluster Regola operativa: evitare cluster < 1-3% oppure > 50-60% dei dati 2 Omogeneità -> Anova Test F 3 Interpretabilità JMP: Analyse Multivariate Methods Cluster Y: metto i 7 Fattori Options: cambio da ‘Hyrarchical’ a ‘Kmeans’ Number of clusters: primo tentativo con K= 3 Standardize data: YES Iterative Clustering Control Panel Number of clusters: 3. Dopo un determinato numero di iterazioni (46), l’algoritmo converge a soluzione. Un’analisi dei cluster ottenuti evidenzia una ampiezza eccessiva del cluster 3 (519 individui pari al 57,3% del campione). Decidiamo di aumentare il numero di cluster fino ad un numero massimo di 6 e di rilanciare ogni volta l’algoritmo. I risultati evidenziano la presenza di un “Gruppo unico” all’interno dei cluster considerati. La sua ampiezza non tende a diminuire e rimane pressoché costante all’aumentare del numero di cluster. Per prodotti mass-market (quali il latte) è normale trovare un cluster particolarmente consistente, di massa e dunque di difficile caratterizzazione. La scelta ottimale nel nostro caso sembra essere quella di considerare 4 cluster (“cluster 2” in jmp). Un primo tentativo a 5 cluster (“cluster 1” in jmp) aveva dato problemi in fase di interpetabilità. numerosità (% su totale) del cluster più ampio 60,0% 55,0% 50,0% 45,0% 40,0% 35,0% 12 Numero clusters 3 4 5 6
  • 14. 4. Analisi Cluster: b) Omogeneità interna e respingenza esterna Al fine di verificare l’omogeneità interna e la respingenza esterna dei singoli cluster effettuiamo il test Anova- test F. Il Test F è determinato dal rapporto tra la varianza tra i gruppi e la varianza nei gruppi. Una soluzione di cluster analysis è accettabile quando tutte le variabili mostrano un test F significativo. La soluzione ottima comporta che ogni singolo fattore sia massimamente diverso nei cluster. Vogliamo dunque verificare che, per ogni fattore, sia alta la varianza tra i gruppi e sia bassa la varianza nei gruppi (vogliamo cioè che ogni singolo cluster sia costituito da persone con attitudini di consumo simili). I risultati dell’analisi condotta mostrano, per ogni fattore, prob >F < 0,0001, p-value dunque sempre < 5% e rapporto Test F sempre elevato e significativo. L’interpretazione dei dati statistici evidenzia dunque come i cluster determinati rispettano sia le condizioni di respingenza esterna (diversità tra i cluster, σ2 tra i gruppi ALTA) che quelle di compattezza interna (omogeneità all’interno dei cluster, σ2 nei i gruppi BASSA). Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 13
  • 15. 4. Analisi Cluster: b) Omogeneità interna e respingenza esterna Tutti i fattori sono standardizzati (e quindi hanno media nulla e varianza uguale a 1). Se le medie non si sovrappongono, i cluster sono massimamente differenziati in termini di un certo attributo. Verifichiamo che per ogni fattore il test F (F Ratio) sia significativo e che i p-value < 5% per tutti i fattori. Per verificare la significatività statistica, si può anche analizzare la rappresentazione grafica dell’intervallo di confidenza. Nel nostro caso entrambe le condizioni sono rispettate. Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 14
  • 16. 4 Analisi Cluster: b) Omogeneità interna e respingenza esterna E’ importante inoltre verificare la “leggibilità marketing” dei cluster stessi. A tal fine, tanto maggiori saranno i valori assunti dalle medie dei singoli cluster nei confronti dei differenti fattori, quanto maggiore sarà l’importanza di un fattore per lo specifico cluster considerato. A titolo esemplificativo, la media di 0,316 del cluster 1 nei confronti del fattore “gusto” implica che il cluster 1 assegni importanza elevata a tale fattore. Viceversa il cluster 1 non assegna rilevante importanza al fattore “dietetico” (media del -0,51). La matrice delle medie dei cluster sintetizza tali valori ed è di importante applicazione al fine di meglio descrivere ed interpretare i singoli cluster. 15 Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
  • 17. 4. Analisi Cluster: c) Interpretabilita’ PER I GRANDI E POTERE Denominazione Cluster NUMEROSITA' GUSTO FRESCHEZZA DIGERIBILITA' LEGGEREZZA CONVENIENZA PER I PICCINI DISSETANTE Cluster 1 218 0,316 -0,046 0,212 -0,882 -0,514 -0,674 -0,101 Buongustaio 2 129 -1,438 0,559 0,311 0,310 0,345 -0,299 -0,499 Esigente 3 110 -0,370 -1,025 -1,732 0,225 -0,090 0,136 -0,130 Price-oriented 4 449 0,350 0,112 0,230 0,285 0,175 0,381 0,223 Indifferente Esportando la matrice delle medie dei cluster in excel (cluster 2 nel file jmp), è possibile analizzare i valori medi assunti dai singoli fattori rispetto ai differenti cluster (analisi per colonna) evidenziando i valori maggiormente rilevanti.. Buongustaio Esigente L’interpretazione dei singoli cluster verrà in seguito effettuata leggendo riga per riga quali siano i fattori più rilevanti; tale analisi ci permetterà quindi di descrivere e denominare i 4 cluster. Price oriented Indifferente Buongustaio (24,1%): focalizzato sul sapore, sul gusto del prodotto; beve il latte perché gli piace e, probabilmente, ne fa un uso principalmente a colazione (e per questo vuole che il latte lo sazi e gli dia 24% energia); 50% 14% Esigente (14,2%): molto attento alla qualità del prodotto, alla sua freschezza, alla leggerezza ed alla 12% digeribilità (qualità per le quali è disposto a sacrificare il gusto); lo utilizza abitualmente in famiglia (per la preparazione di alimenti, per i bambini…); Price oriented (12,1%): focalizzato sulla convenienza del prodotto, poco influenzato dalla qualità del prodotto. Indifferente (49,6%): cluster molto omogeneo difficile da caratterizzare. E’ interessante evidenziare inoltre come uno dei fattori da noi considerati, “dissetante”, non risulti caratterizzare in particolare nessuno dei cluster determinati (assume importanza solo relativamente al 16 cluster “indifferente”). Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini
  • 18. 4. Analisi Cluster: c) Interpretabilita’ E’ interessante inoltre comprendere i profili socio-demografica degli appartenenti ai singoli cluster. In particolare, attraverso una analisi di contingenza, è necessario verificare se esiste relazione significativa tra i cluster identificati e le ulteriori variabili descrittive presenti nel database (pack preferito, frequenza di consumo latte fresco, genere, eta’, figli, titolo di studio, shopping online, pratica abitualmente lo sport, legge quotidiani, quotidiano preferito, regione). Nello specifico, 5 attributi socio-demografici risultano significativi (prob>chiQ < 0,05) per i 4 cluster identificati. • Genere (uomo, donna); • Ha figli (si, no); • Professione (studente, pensionato, operaio, libero professionista, insegnante, impiegato, casalinga, altro); • Titolo di studio (scuola media inferiore, licenza elementare, laurea, diploma di scuola media superiore); • Pratica abitualmente sport (si, no). Il test di Pearson sull’attributo “età per classi” ha una prob> chiQu = 0,06 che interpretiamo, con un po’ di flessibilità, come significativa (il valore è infatti prossimo allo 0,05; gli attributi scartati evidenziano invece sempre prob>chiQu> 0,12). • Età (per classi): 18-30, 31-40, 41- 50, 51-60, 61-70. Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 17
  • 19. 4. Analisi Cluster: c) Interpretabilita’ Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 18
  • 20. 4. Analisi Cluster: chi compone i cluster BUONGUSTAIO ESIGENTE PRICE - ORIENTED INDIFFERENTE 72,5 % donne 66,6 % donne 65,4 % donne 76,3 % donne Genere 27,5 % uomini 33,4 % uomini 34,6 % uomini 23,7 % uomini Molto frammentata. Le fasce 31-40 (20,27%), La fascia da 18-40 Le fasce 18-30 (25,45%) e Le fasce 18-30 (24,7%) e 41-50 (23,16%) e 61-70 Età (classe) rappresenta 61-70 (24,55%) sono le 41-50 (23%) sono le più (22,27%) sono le più complessivamente il 47% più rappresentate. rappresentate. rappresentate. 65% si 60,47% si 44,5% si 64,37% si Figli impiegato: 20,9% impiegato: 25,2% impiegato: 27,9% casalinga: 30,3% pensionato: 19,1% casalinga: 22% pensionato: 17,8% impiegato: 23,2% casalinga: 13,6% Professione (prime 4) pensionato: 13,8% casalinga: 14,7% pensionato: 14,2% Libero professionista: studente: 11,9% studente: 13,2% studente: 7,6% 12,7% scuola sup.: 49% scuola sup.: 46% scuola sup.: 51% scuola sup.: 48% Titolo di studio (primi 2) laurea:27% scuola inf.: 27% scuola inf.: 23% laurea:31,8% Sport abitualmente 51,8% si 47,3% si 56,36% si 39,87% si Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 19
  • 21. 5. Conclusioni – strategie di marketing Buongustaio (24,1%): -Prevalentemente donna, impiegata o casalinga con figli, sotto i 50 anni, istruzione media. - Ama il latte saporito, lo beve perché le piace, vuole che sia energetico e nutriente per cominciare bene la giornata. - Advertising consigliato: il latte scremato non possiede le caratteristiche giuste per questo cluster di consumatori (è un latte magro e non saporito, adatto a chi soffre di colesterolo, a chi segue diete ipocaloriche etc) Esigente (14,2%): -Prevalentemente donna (ma sale la percentuale di uomini rispetto al cluster precedente), con figli, sotto i 40 anni, istruzione medio-alta. - molto attento alla qualità del prodotto, alla sua freschezza, alla leggerezza ed alla digeribilità (qualità per le quali è disposto a sacrificare il gusto); lo utilizza abitualmente in famiglia (per la preparazione di alimenti, per i bambini…). - Advertising consigliato: escluderemmo campagne mkt troppo focalizzate su famiglie con bambini piccoli (il latte scremato infatti non è molto nutriente), ci focalizzeremmo su campagne tipo “vita snella”, “cereali special K”. Il cliente esigente è inoltre disposto a pagare premium price e dunque va considerato come cluster di clienti profittevoli. Price oriented (12,1%): è poco influenzato dalla caratteristiche del prodotto; suggeriamo pertanto di non investire in campagne marketing in quanto cluster di clienti sicuramente non profittevole. Edgardo Calvaresi, Giancarlo Chetta, Maddalena Citterio, Andrea Lanuzza, Moreno Perugini 20