SlideShare ist ein Scribd-Unternehmen logo
1 von 21
ANALISI DELLE
COMPONENTI PRINCIPALI
Paola Pozzolo
sos.unistat@gmail.com
Matrice Dati (n x p)
Colonne = Variabili quantitative
X1 X2 X3 … Xj … Xp
1 x11 x12 x1j x1p
2 x21
3
…
i xi1
…
n xn1 xnj xnp
Righe= Unità PROFILO INDIVIDUALE
Obiettivo:
Ridurre il numero di variabili (da p a q<p) in presenza di un insieme di
variabili fortemente correlate (= informazioni ridondanti)
FATTORIZZAZIONE
Comprende una serie di metodi per distinguere le variabili che
spiegano la maggior parte dell’informazione :
Varianza alta = Punti dispersi = Maggiore spiegabilità
 ANALISI CORRISPONDENZE (variabili qualitative)
ANALISI DELLE COMPONENTI PRINCIPALI (variabili quantitative)
Se non ci sono correlazioni significative tra le variabili
metodi fattorizzazione non attuabili
Per correlazioni significative si intende che almeno la metà dei coefficienti
di correlazione siano maggiori di |0.3|.
Altrimenti, ciascuna variabile rappresenterebbe una dimensione a se stante,
una CP.
E se le variabili fossero invece tutte altamente correlate?
Ci sarebbe una sola CP che spiegherebbe quasi il 100% della variabilità
totale della nuvola dei punti originaria e quindi la ricerca di dimensioni
sottostanti le variabili originarie non avrebbe senso.
PREMESSA FONDAMENTALE: LA CORRELAZIONE
Matrice Varianze /Covarianze
X1 X2
X1 Var(X1) Cov(X1,X2)
X2 Cov(X2,X1) Var(X2)
Diagonale principale = Varianze
N.B. COVARIANZA STANDARDIZZATA = CORRELAZIONE
In termini matematici…
Descrivere la variabilità globale di un insieme di variabili mediante un
sottoinsieme di nuove variabili, dette componenti principali, tra loro
incorrelate (=indipendenti) ottenute come combinazioni lineari delle
variabili originarie ed ordinate in modo tale che la prima componente
sintetizzi la quota massima di variabilità:
in cui il coefficiente rappresenta il peso (loading) che ogni
variabile ha nel determinare la componente stessa e permette
l’interpretazione della componente stessa.
pipiiii
pp
XaXaXaXaY
XaXaXaXaY


...
...
332211
13132121111
ija
iX
Scelta del numero di componenti:
•Scree Plot: considero le componenti il cui autovalore è più alto del
punto di esso o “gomito" (Harman, 1976);
•Soglia di varianza cumulata: trattengo solo le componenti principali
che consentono di ottenere una variabilità cumulata pari a circa il 75-
80%. Se già la prima componente la spiega, mi fermo alla prima;
•Regola di Kaiser (Kaiser, 1960): trattengo solo le componenti principali
e gli autovettori corrispondenti ad autovalori maggiori o uguale a 1.
ACP: Ausili all’interpretazione
Contributo assoluto: indica il contribuito dato dalla variabile nella
costruzione dell’ asse fattoriale (coordinata al quadrato, rapportata
all’inerzia associata dell’ asse, autovalore).
La qualità della rappresentazione è in funzione dei contributi assoluti e
relativi dei vari punti.
ACP: Ausili all’interpretazione
Contributo relativo: indica quanto la variabile è ben rappresentata
sull’asse ricordando che la proiezione non sempre riesce a riprodurre
la distanza iniziale tra due punti.
Si calcola il quadrato del coseno dell’angolo formato dai vettori
corrispondenti al punto nello spazio originario ed alla sua proiezione.
Quanto più tale valore si avvicina ad 1 tanto più piccolo sarà l’angolo
formato dai due vettori e tanto migliore quindi la rappresentazione.
Dataset: crimini.txt (disponibile online)
Campione: i 50 stati componenti gli Stati Uniti d’America
Analisi delle componenti principali: esempio
 MURDER: numero di arresti per omicidio (su 100.000 ab.)
 ASSAULT: numero di arresti per aggressioni (su 100.000 ab.)
 URBANPOP: percentuale di popolazione urbana
 RAPE: numero di arresti per stupro (su 100.000 ab.)
Variabili analizzate
Matrice di correlazione
Grafici Autovalori
Dim1 Dim2 Dim3 Dim4
0.00.51.01.52.02.5
BAR PLOT AUTOVALORI SCREE PLOT AUTOVALORI
1 2 3 4
12
Numero Componente
Autovalori
1 2 3 4
708090100
Numero Componente
Percentualevarianzacumulata
VARIANZA CUMULATA SCELTA DEL NUMERO DI COMPONENTI:
Scree Plot: considero le componenti il cui
autovalore e piu alto del punto di esso ogomito
Soglia di varianza cumulata: trattengo solo le
componenti principali che consentono di ottenere
una variabilita cumulata pari a circa il 75-80%;
Regola di Kaiser: trattengo solo le componenti
principali il cui autovalore e maggiore o uguale a 1.
1
2
3
Matrice autovalori
- Traccia della Matrice = Inerzia Totale = Somma Autovalori.
Se le variabili originarie sono Standardizzate : Inerzia Totale =
Numero variabili originarie = 4;
- Eigenvalue = Autovalore (j)= Inerzia (varianza) spiegata dalla
j-esima componente principale;
- % of variance = parte di inerzia totale spiegata dalla j-esima
componente principale;
- cumulative % of variance = parte di inerzia totale spiegata
dalla j-esima componente principale e dalle componenti ad
essa precedenti.
Output Variabili
N.B. Nel linguaggio di R Dim.j = Comp j
N.B. Se le variabili originarie sono standardizzate:
COORDINATA = CORRELAZIONE.
Per conoscere l'importanza di ciascuna variabile rispetto ad un fattore,
è sufficiente guardare le sue coordinate (correlazioni):
più elevate sono le coordinate, più il punto e vicino sia alla
circonferenza che all'asse, più incide nella costruzione dell'asse stesso.
COORDINATE variabili/componenti: CORRELAZIONE variabili/componenti:
Output Variabili
COSENO AL QUADRATO CONTRIBUTI
N.B. E sempre vero che: COSENO2=CORRELAZIONE2
Mentre solo se le variabili originarie sono standardizzate: COSENO2=COORDINATA2
Il coseno al quadrato, o contributo relativo, risponde alla domanda:
o Quanto ciascuna componente spiega una variabile?
Il contributo, o contributo assoluto, risponde alla domanda:
o Quanto ciascuna variabile spiega (in termini di inerzia) la componente?
(Contributo assoluto medio = 100/4 = 25%)
Cerchio correlazioni: 1-2 COMPONENTE
-1.0 -0.5 0.0 0.5 1.0
-1.0-0.50.00.51.0
Variables factor map (PCA)
Dim 1 (62.01%)
Dim2(24.74%)
Murder
Assault
UrbanPop
Rape
N.B. Sono riportate solo le variabili con cos2 > 0:5 nel piano.
Grafico Individui
-4 -2 0 2 4
-3-2-1012
Individuals factor map (PCA)
Dim 1 (62.01%)
Dim2(24.74%)
Alabama Alaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
IndianaIowa
Kansas
Kentucky Louisiana
Maine Maryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
Nevada
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
OregonPennsylvania
Rhode Island
South Carolina
South Dakota Tennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming
Output Individui
COORDINATE Variabili/Componenti: CONTRIBUTO:
COSENO al QUADRATO:
Biplot: Variabili ed Individui
-0.2 -0.1 0.0 0.1 0.2 0.3
-0.2-0.10.00.10.20.3
Comp.1
Comp.2
AlabamaAlaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana Iowa
Kansas
Kentucky
Louisiana
MaineMaryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
Nevada
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
OregonPennsylvania
Rhode Island
South Carolina
South DakotaTennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming
-5 0 5
-505
Murder
Assault
UrbanPop
Rape
Interpretazione componenti principali
Componente 1 
indice inverso di criminalità
Componente 2 
indice di ruralità

Weitere ähnliche Inhalte

Was ist angesagt?

Logistic regression
Logistic regressionLogistic regression
Logistic regression
saba khan
 
Ibm spss decision trees
Ibm spss decision treesIbm spss decision trees
Ibm spss decision trees
isamil
 

Was ist angesagt? (20)

Logistic regression
Logistic regressionLogistic regression
Logistic regression
 
Support Vector Machines (SVM)
Support Vector Machines (SVM)Support Vector Machines (SVM)
Support Vector Machines (SVM)
 
7 - Model Assessment and Selection
7 - Model Assessment and Selection7 - Model Assessment and Selection
7 - Model Assessment and Selection
 
Principal Component Analysis
Principal Component AnalysisPrincipal Component Analysis
Principal Component Analysis
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Dimensionality Reduction and feature extraction.pptx
Dimensionality Reduction and feature extraction.pptxDimensionality Reduction and feature extraction.pptx
Dimensionality Reduction and feature extraction.pptx
 
Pca ppt
Pca pptPca ppt
Pca ppt
 
Présentation acp
Présentation acpPrésentation acp
Présentation acp
 
Ibm spss decision trees
Ibm spss decision treesIbm spss decision trees
Ibm spss decision trees
 
Lect4 principal component analysis-I
Lect4 principal component analysis-ILect4 principal component analysis-I
Lect4 principal component analysis-I
 
Statistical classification: A review on some techniques
Statistical classification: A review on some techniquesStatistical classification: A review on some techniques
Statistical classification: A review on some techniques
 
Principal component analysis
Principal component analysisPrincipal component analysis
Principal component analysis
 
Data Visualization and Dashboard Design
Data Visualization and Dashboard DesignData Visualization and Dashboard Design
Data Visualization and Dashboard Design
 
Anomaly Detection in Seasonal Time Series
Anomaly Detection in Seasonal Time SeriesAnomaly Detection in Seasonal Time Series
Anomaly Detection in Seasonal Time Series
 
Anomaly Detection
Anomaly DetectionAnomaly Detection
Anomaly Detection
 
Introduction to Principle Component Analysis
Introduction to Principle Component AnalysisIntroduction to Principle Component Analysis
Introduction to Principle Component Analysis
 
CART: Not only Classification and Regression Trees
CART: Not only Classification and Regression TreesCART: Not only Classification and Regression Trees
CART: Not only Classification and Regression Trees
 
Anomaly Detection
Anomaly DetectionAnomaly Detection
Anomaly Detection
 
Optimization in deep learning
Optimization in deep learningOptimization in deep learning
Optimization in deep learning
 
Methods of Optimization in Machine Learning
Methods of Optimization in Machine LearningMethods of Optimization in Machine Learning
Methods of Optimization in Machine Learning
 

Ähnlich wie ACP - Analisi delle componenti principali

Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control charts
Luca Vecchiato
 
Algebra lineare
Algebra lineareAlgebra lineare
Algebra lineare
Voglio 10
 
Presentazione Tesi Laurea 2010
Presentazione Tesi Laurea 2010Presentazione Tesi Laurea 2010
Presentazione Tesi Laurea 2010
Alessio Polidoro
 
Introduzione v
Introduzione vIntroduzione v
Introduzione v
imartini
 

Ähnlich wie ACP - Analisi delle componenti principali (15)

Lss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excelLss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excel
 
5 Control Charts
5 Control Charts5 Control Charts
5 Control Charts
 
Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control charts
 
Appunti di Elaborazione automatica dei dati: il simplesso
Appunti di Elaborazione automatica dei dati: il simplessoAppunti di Elaborazione automatica dei dati: il simplesso
Appunti di Elaborazione automatica dei dati: il simplesso
 
Metodo dei minimi quadrati
Metodo dei minimi quadratiMetodo dei minimi quadrati
Metodo dei minimi quadrati
 
Algoritmi di ordinamento
Algoritmi di ordinamentoAlgoritmi di ordinamento
Algoritmi di ordinamento
 
Umano vs Computer: un esempio pratico
Umano vs Computer: un esempio praticoUmano vs Computer: un esempio pratico
Umano vs Computer: un esempio pratico
 
Schema Risolutivo Delle Serie
Schema Risolutivo Delle SerieSchema Risolutivo Delle Serie
Schema Risolutivo Delle Serie
 
Algebra lineare
Algebra lineareAlgebra lineare
Algebra lineare
 
Medie di calcolo e medie di posizione
Medie di calcolo e medie di posizioneMedie di calcolo e medie di posizione
Medie di calcolo e medie di posizione
 
Il modello Logistico
Il modello LogisticoIl modello Logistico
Il modello Logistico
 
Presentazione Tesi Laurea 2010
Presentazione Tesi Laurea 2010Presentazione Tesi Laurea 2010
Presentazione Tesi Laurea 2010
 
Slide matematica Alessandrini
Slide matematica AlessandriniSlide matematica Alessandrini
Slide matematica Alessandrini
 
Introduzione v
Introduzione vIntroduzione v
Introduzione v
 
I fenomeni bivariati
I fenomeni bivariatiI fenomeni bivariati
I fenomeni bivariati
 

ACP - Analisi delle componenti principali

  • 1. ANALISI DELLE COMPONENTI PRINCIPALI Paola Pozzolo sos.unistat@gmail.com
  • 2. Matrice Dati (n x p) Colonne = Variabili quantitative X1 X2 X3 … Xj … Xp 1 x11 x12 x1j x1p 2 x21 3 … i xi1 … n xn1 xnj xnp Righe= Unità PROFILO INDIVIDUALE
  • 3. Obiettivo: Ridurre il numero di variabili (da p a q<p) in presenza di un insieme di variabili fortemente correlate (= informazioni ridondanti) FATTORIZZAZIONE Comprende una serie di metodi per distinguere le variabili che spiegano la maggior parte dell’informazione : Varianza alta = Punti dispersi = Maggiore spiegabilità  ANALISI CORRISPONDENZE (variabili qualitative) ANALISI DELLE COMPONENTI PRINCIPALI (variabili quantitative)
  • 4. Se non ci sono correlazioni significative tra le variabili metodi fattorizzazione non attuabili Per correlazioni significative si intende che almeno la metà dei coefficienti di correlazione siano maggiori di |0.3|. Altrimenti, ciascuna variabile rappresenterebbe una dimensione a se stante, una CP. E se le variabili fossero invece tutte altamente correlate? Ci sarebbe una sola CP che spiegherebbe quasi il 100% della variabilità totale della nuvola dei punti originaria e quindi la ricerca di dimensioni sottostanti le variabili originarie non avrebbe senso. PREMESSA FONDAMENTALE: LA CORRELAZIONE
  • 5. Matrice Varianze /Covarianze X1 X2 X1 Var(X1) Cov(X1,X2) X2 Cov(X2,X1) Var(X2) Diagonale principale = Varianze N.B. COVARIANZA STANDARDIZZATA = CORRELAZIONE
  • 6. In termini matematici… Descrivere la variabilità globale di un insieme di variabili mediante un sottoinsieme di nuove variabili, dette componenti principali, tra loro incorrelate (=indipendenti) ottenute come combinazioni lineari delle variabili originarie ed ordinate in modo tale che la prima componente sintetizzi la quota massima di variabilità: in cui il coefficiente rappresenta il peso (loading) che ogni variabile ha nel determinare la componente stessa e permette l’interpretazione della componente stessa. pipiiii pp XaXaXaXaY XaXaXaXaY   ... ... 332211 13132121111 ija iX
  • 7. Scelta del numero di componenti: •Scree Plot: considero le componenti il cui autovalore è più alto del punto di esso o “gomito" (Harman, 1976); •Soglia di varianza cumulata: trattengo solo le componenti principali che consentono di ottenere una variabilità cumulata pari a circa il 75- 80%. Se già la prima componente la spiega, mi fermo alla prima; •Regola di Kaiser (Kaiser, 1960): trattengo solo le componenti principali e gli autovettori corrispondenti ad autovalori maggiori o uguale a 1.
  • 8. ACP: Ausili all’interpretazione Contributo assoluto: indica il contribuito dato dalla variabile nella costruzione dell’ asse fattoriale (coordinata al quadrato, rapportata all’inerzia associata dell’ asse, autovalore). La qualità della rappresentazione è in funzione dei contributi assoluti e relativi dei vari punti.
  • 9. ACP: Ausili all’interpretazione Contributo relativo: indica quanto la variabile è ben rappresentata sull’asse ricordando che la proiezione non sempre riesce a riprodurre la distanza iniziale tra due punti. Si calcola il quadrato del coseno dell’angolo formato dai vettori corrispondenti al punto nello spazio originario ed alla sua proiezione. Quanto più tale valore si avvicina ad 1 tanto più piccolo sarà l’angolo formato dai due vettori e tanto migliore quindi la rappresentazione.
  • 10. Dataset: crimini.txt (disponibile online) Campione: i 50 stati componenti gli Stati Uniti d’America Analisi delle componenti principali: esempio
  • 11.  MURDER: numero di arresti per omicidio (su 100.000 ab.)  ASSAULT: numero di arresti per aggressioni (su 100.000 ab.)  URBANPOP: percentuale di popolazione urbana  RAPE: numero di arresti per stupro (su 100.000 ab.) Variabili analizzate
  • 13. Grafici Autovalori Dim1 Dim2 Dim3 Dim4 0.00.51.01.52.02.5 BAR PLOT AUTOVALORI SCREE PLOT AUTOVALORI 1 2 3 4 12 Numero Componente Autovalori 1 2 3 4 708090100 Numero Componente Percentualevarianzacumulata VARIANZA CUMULATA SCELTA DEL NUMERO DI COMPONENTI: Scree Plot: considero le componenti il cui autovalore e piu alto del punto di esso ogomito Soglia di varianza cumulata: trattengo solo le componenti principali che consentono di ottenere una variabilita cumulata pari a circa il 75-80%; Regola di Kaiser: trattengo solo le componenti principali il cui autovalore e maggiore o uguale a 1. 1 2 3
  • 14. Matrice autovalori - Traccia della Matrice = Inerzia Totale = Somma Autovalori. Se le variabili originarie sono Standardizzate : Inerzia Totale = Numero variabili originarie = 4; - Eigenvalue = Autovalore (j)= Inerzia (varianza) spiegata dalla j-esima componente principale; - % of variance = parte di inerzia totale spiegata dalla j-esima componente principale; - cumulative % of variance = parte di inerzia totale spiegata dalla j-esima componente principale e dalle componenti ad essa precedenti.
  • 15. Output Variabili N.B. Nel linguaggio di R Dim.j = Comp j N.B. Se le variabili originarie sono standardizzate: COORDINATA = CORRELAZIONE. Per conoscere l'importanza di ciascuna variabile rispetto ad un fattore, è sufficiente guardare le sue coordinate (correlazioni): più elevate sono le coordinate, più il punto e vicino sia alla circonferenza che all'asse, più incide nella costruzione dell'asse stesso. COORDINATE variabili/componenti: CORRELAZIONE variabili/componenti:
  • 16. Output Variabili COSENO AL QUADRATO CONTRIBUTI N.B. E sempre vero che: COSENO2=CORRELAZIONE2 Mentre solo se le variabili originarie sono standardizzate: COSENO2=COORDINATA2 Il coseno al quadrato, o contributo relativo, risponde alla domanda: o Quanto ciascuna componente spiega una variabile? Il contributo, o contributo assoluto, risponde alla domanda: o Quanto ciascuna variabile spiega (in termini di inerzia) la componente? (Contributo assoluto medio = 100/4 = 25%)
  • 17. Cerchio correlazioni: 1-2 COMPONENTE -1.0 -0.5 0.0 0.5 1.0 -1.0-0.50.00.51.0 Variables factor map (PCA) Dim 1 (62.01%) Dim2(24.74%) Murder Assault UrbanPop Rape N.B. Sono riportate solo le variabili con cos2 > 0:5 nel piano.
  • 18. Grafico Individui -4 -2 0 2 4 -3-2-1012 Individuals factor map (PCA) Dim 1 (62.01%) Dim2(24.74%) Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware Florida Georgia Hawaii Idaho Illinois IndianaIowa Kansas Kentucky Louisiana Maine Maryland Massachusetts Michigan Minnesota Mississippi Missouri Montana Nebraska Nevada New Hampshire New Jersey New Mexico New York North Carolina North Dakota Ohio Oklahoma OregonPennsylvania Rhode Island South Carolina South Dakota Tennessee Texas Utah Vermont Virginia Washington West Virginia Wisconsin Wyoming
  • 19. Output Individui COORDINATE Variabili/Componenti: CONTRIBUTO: COSENO al QUADRATO:
  • 20. Biplot: Variabili ed Individui -0.2 -0.1 0.0 0.1 0.2 0.3 -0.2-0.10.00.10.20.3 Comp.1 Comp.2 AlabamaAlaska Arizona Arkansas California Colorado Connecticut Delaware Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas Kentucky Louisiana MaineMaryland Massachusetts Michigan Minnesota Mississippi Missouri Montana Nebraska Nevada New Hampshire New Jersey New Mexico New York North Carolina North Dakota Ohio Oklahoma OregonPennsylvania Rhode Island South Carolina South DakotaTennessee Texas Utah Vermont Virginia Washington West Virginia Wisconsin Wyoming -5 0 5 -505 Murder Assault UrbanPop Rape
  • 21. Interpretazione componenti principali Componente 1  indice inverso di criminalità Componente 2  indice di ruralità