2. Matrice Dati (n x p)
Colonne = Variabili quantitative
X1 X2 X3 … Xj … Xp
1 x11 x12 x1j x1p
2 x21
3
…
i xi1
…
n xn1 xnj xnp
Righe= Unità PROFILO INDIVIDUALE
3. Obiettivo:
Ridurre il numero di variabili (da p a q<p) in presenza di un insieme di
variabili fortemente correlate (= informazioni ridondanti)
FATTORIZZAZIONE
Comprende una serie di metodi per distinguere le variabili che
spiegano la maggior parte dell’informazione :
Varianza alta = Punti dispersi = Maggiore spiegabilità
ANALISI CORRISPONDENZE (variabili qualitative)
ANALISI DELLE COMPONENTI PRINCIPALI (variabili quantitative)
4. Se non ci sono correlazioni significative tra le variabili
metodi fattorizzazione non attuabili
Per correlazioni significative si intende che almeno la metà dei coefficienti
di correlazione siano maggiori di |0.3|.
Altrimenti, ciascuna variabile rappresenterebbe una dimensione a se stante,
una CP.
E se le variabili fossero invece tutte altamente correlate?
Ci sarebbe una sola CP che spiegherebbe quasi il 100% della variabilità
totale della nuvola dei punti originaria e quindi la ricerca di dimensioni
sottostanti le variabili originarie non avrebbe senso.
PREMESSA FONDAMENTALE: LA CORRELAZIONE
6. In termini matematici…
Descrivere la variabilità globale di un insieme di variabili mediante un
sottoinsieme di nuove variabili, dette componenti principali, tra loro
incorrelate (=indipendenti) ottenute come combinazioni lineari delle
variabili originarie ed ordinate in modo tale che la prima componente
sintetizzi la quota massima di variabilità:
in cui il coefficiente rappresenta il peso (loading) che ogni
variabile ha nel determinare la componente stessa e permette
l’interpretazione della componente stessa.
pipiiii
pp
XaXaXaXaY
XaXaXaXaY
...
...
332211
13132121111
ija
iX
7. Scelta del numero di componenti:
•Scree Plot: considero le componenti il cui autovalore è più alto del
punto di esso o “gomito" (Harman, 1976);
•Soglia di varianza cumulata: trattengo solo le componenti principali
che consentono di ottenere una variabilità cumulata pari a circa il 75-
80%. Se già la prima componente la spiega, mi fermo alla prima;
•Regola di Kaiser (Kaiser, 1960): trattengo solo le componenti principali
e gli autovettori corrispondenti ad autovalori maggiori o uguale a 1.
8. ACP: Ausili all’interpretazione
Contributo assoluto: indica il contribuito dato dalla variabile nella
costruzione dell’ asse fattoriale (coordinata al quadrato, rapportata
all’inerzia associata dell’ asse, autovalore).
La qualità della rappresentazione è in funzione dei contributi assoluti e
relativi dei vari punti.
9. ACP: Ausili all’interpretazione
Contributo relativo: indica quanto la variabile è ben rappresentata
sull’asse ricordando che la proiezione non sempre riesce a riprodurre
la distanza iniziale tra due punti.
Si calcola il quadrato del coseno dell’angolo formato dai vettori
corrispondenti al punto nello spazio originario ed alla sua proiezione.
Quanto più tale valore si avvicina ad 1 tanto più piccolo sarà l’angolo
formato dai due vettori e tanto migliore quindi la rappresentazione.
10. Dataset: crimini.txt (disponibile online)
Campione: i 50 stati componenti gli Stati Uniti d’America
Analisi delle componenti principali: esempio
11. MURDER: numero di arresti per omicidio (su 100.000 ab.)
ASSAULT: numero di arresti per aggressioni (su 100.000 ab.)
URBANPOP: percentuale di popolazione urbana
RAPE: numero di arresti per stupro (su 100.000 ab.)
Variabili analizzate
13. Grafici Autovalori
Dim1 Dim2 Dim3 Dim4
0.00.51.01.52.02.5
BAR PLOT AUTOVALORI SCREE PLOT AUTOVALORI
1 2 3 4
12
Numero Componente
Autovalori
1 2 3 4
708090100
Numero Componente
Percentualevarianzacumulata
VARIANZA CUMULATA SCELTA DEL NUMERO DI COMPONENTI:
Scree Plot: considero le componenti il cui
autovalore e piu alto del punto di esso ogomito
Soglia di varianza cumulata: trattengo solo le
componenti principali che consentono di ottenere
una variabilita cumulata pari a circa il 75-80%;
Regola di Kaiser: trattengo solo le componenti
principali il cui autovalore e maggiore o uguale a 1.
1
2
3
14. Matrice autovalori
- Traccia della Matrice = Inerzia Totale = Somma Autovalori.
Se le variabili originarie sono Standardizzate : Inerzia Totale =
Numero variabili originarie = 4;
- Eigenvalue = Autovalore (j)= Inerzia (varianza) spiegata dalla
j-esima componente principale;
- % of variance = parte di inerzia totale spiegata dalla j-esima
componente principale;
- cumulative % of variance = parte di inerzia totale spiegata
dalla j-esima componente principale e dalle componenti ad
essa precedenti.
15. Output Variabili
N.B. Nel linguaggio di R Dim.j = Comp j
N.B. Se le variabili originarie sono standardizzate:
COORDINATA = CORRELAZIONE.
Per conoscere l'importanza di ciascuna variabile rispetto ad un fattore,
è sufficiente guardare le sue coordinate (correlazioni):
più elevate sono le coordinate, più il punto e vicino sia alla
circonferenza che all'asse, più incide nella costruzione dell'asse stesso.
COORDINATE variabili/componenti: CORRELAZIONE variabili/componenti:
16. Output Variabili
COSENO AL QUADRATO CONTRIBUTI
N.B. E sempre vero che: COSENO2=CORRELAZIONE2
Mentre solo se le variabili originarie sono standardizzate: COSENO2=COORDINATA2
Il coseno al quadrato, o contributo relativo, risponde alla domanda:
o Quanto ciascuna componente spiega una variabile?
Il contributo, o contributo assoluto, risponde alla domanda:
o Quanto ciascuna variabile spiega (in termini di inerzia) la componente?
(Contributo assoluto medio = 100/4 = 25%)
17. Cerchio correlazioni: 1-2 COMPONENTE
-1.0 -0.5 0.0 0.5 1.0
-1.0-0.50.00.51.0
Variables factor map (PCA)
Dim 1 (62.01%)
Dim2(24.74%)
Murder
Assault
UrbanPop
Rape
N.B. Sono riportate solo le variabili con cos2 > 0:5 nel piano.
18. Grafico Individui
-4 -2 0 2 4
-3-2-1012
Individuals factor map (PCA)
Dim 1 (62.01%)
Dim2(24.74%)
Alabama Alaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
IndianaIowa
Kansas
Kentucky Louisiana
Maine Maryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
Nevada
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
OregonPennsylvania
Rhode Island
South Carolina
South Dakota Tennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming
20. Biplot: Variabili ed Individui
-0.2 -0.1 0.0 0.1 0.2 0.3
-0.2-0.10.00.10.20.3
Comp.1
Comp.2
AlabamaAlaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana Iowa
Kansas
Kentucky
Louisiana
MaineMaryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
Nevada
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
OregonPennsylvania
Rhode Island
South Carolina
South DakotaTennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming
-5 0 5
-505
Murder
Assault
UrbanPop
Rape