1. Chapitre 4:
ACP: Analyse en Composante Principale
28/04/2014 1
Pr. MERBOUHA Analyse des données
Economie/Gestion
2. I. Introduction
L’analyse en composante principale
(ACP) est une méthode statistique
essentiellement descriptive: son
objectif est de présenter, sous une
forme graphique, le maximum de
l’information contenue dans un tableau
de données.
28/04/2014 2
Pr. MERBOUHA Analyse des données
Economie/Gestion
3. Ce tableau doit être constitué, en ligne,
par des individus:
(animaux, clients, ménage … etc ) sur
lesquels sont mesurées des variables
qualitatives ou pouvant être
considérées comme telles (rendement,
chiffre d’affaire etc … ) disposées en
colonne.
28/04/2014 3
Pr. MERBOUHA Analyse des données
Economie/Gestion
4. Si sont les
variables et n le nombre
d’individus. X est une
matrice rectangulaire à n
lignes et p colonnes:
28/04/2014 4
Pr. MERBOUHA Analyse des données
Economie/Gestion
6. Variable
Une colonne du tableau
Individu
Une ligne du tableau
28/04/2014 6
Pr. MERBOUHA Analyse des données
Economie/Gestion
7. Le choix des individus doit être en
accord avec les objectifs désirés. Ils
seraient issus d’une population comme
il peuvent être diversifiés.
Le choix des variables à introduire
devront caractériser aussi bien que
possible les phénomènes qu’on veut
étudier
28/04/2014 7
Pr. MERBOUHA Analyse des données
Economie/Gestion
8. 1 Les problèmes qui peuvent être abordés par l’ACP:
L’ACP sert à:
a. Expliquer le rendement d’une culture; du chiffre
d’affaire d’une entreprise, PIB d’un pays, etc ….
b. Sélectionner les variables sensées expliquer un
phénomène à l’étude.
c. Constituer des groupes d’individus qui se ressemblent
aux vues d’un certain nombre de variables
quantitatives, pour caractériser les individus de
mêmes groupes.
28/04/2014 8
Pr. MERBOUHA Analyse des données
Economie/Gestion
9. L’ACP permet d’obtenir des graphiques où l’on peut
observer, aussi objectivement que possible, les
ressemblances et dissemblances des individus,
L’ACP est utilisée pour savoir
- Comment se structurent les variables.
- Et/ou comment se répartissent les individus.
28/04/2014 9
Pr. MERBOUHA Analyse des données
Economie/Gestion
10. 2. Principe de l’ACP
Si un tableau de données a p variables quantitatives, on
dira que les individus peuvent être représentés dans un
espace de dimension p.
Si p > 3, il est difficile voir impossible de voir la
diposition des individus dans un tel espace.
Le but de l’ACP est de trouver des espaces de de
dimensions plus petites dans lesquels il soit possible
d’y observer ‘« au mieux » les individus.
28/04/2014 10
Pr. MERBOUHA Analyse des données
Economie/Gestion
11. Pour des raisons évidentes de facilité de
visualisation, les espaces retenus seront
à une dimension (c’est-à-dire des
droites) ou, et ce sera le cas le plus
fréquent, à deux dimensions (c’est-à-
dire des plans)
28/04/2014 11
Pr. MERBOUHA Analyse des données
Economie/Gestion
12. C’est ce qui se passe lorsque nous réalisons
des photographies: on passe d’un espace de
dimension 3 « où nous vivons » à un espace
à deux dimensions: la photos que nous
réalisons.
Ce pendant, selon l’angle sous lequel, on
prend notre sujet, toutes nos photos
n’apporteront pas la même information sur
celui-ci;
28/04/2014 12
Pr. MERBOUHA Analyse des données
Economie/Gestion
13. Exemple 1
Un autre exemple est celui des couleurs des photos:
Nous avons tous des milliers de photos sur nos PCs et
cela prend beaucoup de place sur nos disques. Cela est
en partie du au fait que chaque image est en couleur:
rouge ,vert, bleu (RGB). Chaque pixel, chaque site
(x,y), contient une information couleur sur l'intensité
du rouge, l'intensité du vert, l'intensité du bleu. Il est
donc possible de diviser par trois la taille d'une image,
en ne conservant qu'un seul canal.
28/04/2014 13
Pr. MERBOUHA Analyse des données
Economie/Gestion
14. Figure: L'image dont on veut réduire l'espace couleur
28/04/2014 14
Pr. MERBOUHA Analyse des données
Economie/Gestion
15. (a) (b) (c)
Figure: (a) : Image projetée sur l’axe « rouge ». (b) Image projetée sur l’axe « vert ».
(c) Image projetée sur l'axe « bleu ».
28/04/2014 15
Pr. MERBOUHA Analyse des données
Economie/Gestion
17. - Les droites et les plans d’une ACP sont réalisés avec
des combinaisons linéaire des variables initiales
qu’on appelle indices synthétiques.
- Parmi tous les indices synthétiques, l’ACP
recherche d’abord celui qui permet au mieux de
voir les individus i.e celui pour lequel la variance
des individus est maximale: cet indice est appelé
première composante principale, ou encore
premier axe principale. Une certaine proportion de
la variation totale des individus est expliquée (ou
visible) par cette composante principale.
28/04/2014 17
Pr. MERBOUHA Analyse des données
Economie/Gestion
18. Ensuite, une deuxième composante
principale est recherchée, et ceci
sous deux conditions:
- Avoir une corrélation nulle avec la
première
- Avoir à son tour, la plus grande
variance.
28/04/2014 18
Pr. MERBOUHA Analyse des données
Economie/Gestion
19. Le processus continue jusqu’à l’obtention de
la p ème composante principale, les parts
d’information expliquées par chacune d’elles
devenant de plus en plus faible.
En résumé, la phase essentielle de l’ACP,
consiste à transformer les p variables
quantitatives initiales, toutes plus ou moins
corrélées entre elles, en p nouvelles variables
quantitatives, non corrélées, appelées
composantes principales.
28/04/2014 19
Pr. MERBOUHA Analyse des données
Economie/Gestion
20. 3. Présentation des résultats de l’ACP
Tout logiquement, c’est le plan engendré
par les axes 1 et 2 qui sera examiné en
premier: par construction, c’est le plan
sur lequel le maximum de
l’information est visible, il est appelé le
«plan principal» ou «plan 1-2».
28/04/2014 20
Pr. MERBOUHA Analyse des données
Economie/Gestion
21. Selon la part d’information prise en
compte par ce plan, il sera nécessaire
ou non d’en examiner d’autres.
Sur ces plans, il sera nécessaire de
reporter les directions des variables
initiales, afin de connaitre celles qui
ont joué un rôle prépondérant dans la
constitution des composantes
principales.
28/04/2014 21
Pr. MERBOUHA Analyse des données
Economie/Gestion
22. Mais il faudrait se méfier; deux individus
proches sur un plan, pourraient ne pas
l’être dans la réalité.
Il serait extrêmement utile de regarder
quelque indicateurs complémentaires,
calculé par tout bon logiciel et qui
permet de juger de la qualité de la
représentation de ces individus.
28/04/2014 22
Pr. MERBOUHA Analyse des données
Economie/Gestion
23. 4. Type de tableau pouvant être
traités par l’ACP
Les variables doivent être quantitatives ou pouvant
être considérées comme telles.
Selon la nature de ces variables, on peut distinguer
trois grands types de tableaux:
28/04/2014 23
Pr. MERBOUHA Analyse des données
Economie/Gestion
24. a. Les tableaux de mesures: les variables sont
obtenues à partir de comptage (nombres
d’enfants par ménage, nombre d’épis, … etc)
ou sont obtenues à partir d’appareils de mesure
(balance, humidimètre, … etc).
b. Les tableaux de notes: (note par exemple entre 0
et 20) d’intensité d’une maladie, de niveau de
satisfaction d’un produit … etc. ce sont des
variables aléatoires ordinales mais qui peuvent
être généralement assimilées à des variables
aléatoires continues.
28/04/2014 24
Pr. MERBOUHA Analyse des données
Economie/Gestion
25. c. Les tableaux de rangs: Les variables
sont des rangs; les n individus sont
classés de 1 à n, du meilleur au plus
mauvais, du plus rapide au plus long
par exemple.
28/04/2014 25
Pr. MERBOUHA Analyse des données
Economie/Gestion
26. Remarque importante:
En pratique, Les tableaux à analyser sont le
plus souvent de différentes natures (mixte);
et c’est les variables les plus dispersées qui
engendre les premières composantes. Pour
remédier à cet inconvénient, il est
recommandé de donner la même
importance à toute les variables en les
réduisant.
28/04/2014 26
Pr. MERBOUHA Analyse des données
Economie/Gestion
27. L’ACP est réalisé soit:
- sur les données centrées, les
variables qui sont les plus
dispersées auront plus de poids.
- sur les données centrées et réduites
pour donner la même importance à
toutes les variables
28/04/2014 27
Pr. MERBOUHA Analyse des données
Economie/Gestion
29. Attention
Si l’opération de réduction diminue
l’importance des variables les plus
dispersées, elle peut inversement,
augmenter l’importance des variables
peu dispersées.
Une variable qui aurait à peu près la
même valeur, se verrait attribuer un
poids important, alors que le bon sens
conduirait à l’éliminer.
28/04/2014 29
Pr. MERBOUHA Analyse des données
Economie/Gestion
30. Les matrices à considérer pour une ACP sont alors la
matrices de variance-covariance V ou la matrice de
corrélations R.
où V est la matrice de variance-covariance
28/04/2014 30
Pr. MERBOUHA Analyse des données
Economie/Gestion
32. Exemple 2: BDD SPSS caractéristiques des dentifrices
Il s’agit d’une étude qui porte sur les avantages
fondamentaux recherchés par les consommateurs
lors de l’achat d’un dentifrice. Le sondage est
réalisé dans 1 centre commercial auprès d’un
échantillon de 30 personnes, qui ont donné leur
avis sur les affirmations suivantes, sur 1 échelle de 1
(en total désaccord) à 7 (entièrement d’accord)
même nombre d’échelons
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 32
33. -V1 : Il est important d’utiliser un dentifrice qui
prévient la formation des caries.
- V2 : Un dentifrice doit rendre les dents brillantes.
- V3 : Un dentifrice doit renforcer les gencives.
- V4 : Un dentifrice doit rafraîchir l’haleine.
- V5 : La prévention des caries n’est pas un avantage
important du dentifrice (sic).
- V6 : Un dentifrice doit avant tout donner de belles
dents
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 33
35. II. Lexique d’interprétation des paramètres
Pour transformer les p variables initiales
inter-corrélées en p nouvelles variables
non corrélées, appelées composantes
principales, on procède en deux étapes:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 35
36. - La première consiste à élaborer:
- soit la matrice de variance covariance
- soit la matrice de corrélation
La deuxième étape est la diagonalisation: Cette
opération impossible à exécuter à la main, fournit
essentiellement deux matrices:
- Une matrice de vecteurs propres.
- Une matrice diagonale de valeurs propres rangées dans
le sens dégressives:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 36
37. Facteurs principaux:
Pour une ACP sur données centrées et réduites: La
matrices à considérer est la matrice de corrélation R de
vecteurs propres appelés facteurs principaux:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 37
38. Utilisation de l’information fournie par les valeurs propres:
On montre que qu’une valeur propre
représente la variance des individus sur l’axe
correspondant. Chaque valeur propre peut
être exprimée en valeur relative de la
variance totale est qui est donc la somme
des ces valeurs propres:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 38
39. Remarque
Dans le cas d’une ACP sur des données
centrées et réduites, chaque variable a par
définition une variance égale à un, donc la
somme des variances est égale au nombre de
ces variables initiales. Par conséquent, le
rapport de chaque valeur propre à la
somme de toutes les valeurs propres
fournit un renseignement intéressant: la
part de toute l’information initiale visible
sur chaque axe.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 39
40. Puis ce que les valeurs sont classées de la plus
grande à la plus petite, c’est sur le premier
axe principale que sera visible le maximum
d’information en comparaison avec
n’importe quel autre axe.
Etant donné que le deuxième axe principal est
choisi avec une corrélation nulle avec le
premier, c’est le plan principale que sera
visible le maximum de l’information du
nuage de point en comparaison avec
n’importe quel autre plan.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 40
41. Quant à la matrice des vecteurs propres,
elle est formée en colonne par les
vecteurs propres de la matrice MV, c’est
les axes principaux.
Ces vecteurs propres contiennent les
coefficient des combinaisons linéaires:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 41
42. Les composantes principales sont alors les vecteurs
de
avec
Y étant le tableau des données centrées et D la
matrice diagonale:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 42
43. C’est-à-dire
Les sont les données centrées ou centrées et
réduites
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 43
44. On montre que le vecteur propre
associé à la plus grande valeur propre
explique le maximum de toute
l’information du nuage de points (les
données) parmi tout les autres axes.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 44
45. Puis ce que les valeurs sont classées de la plus
grande à la plus petite, c’est sur le premier axe
principale que sera visible le maximum de
l’information totale en comparaison avec
n’importe quel autre axe.
Lorsque le deuxième axe principal est choisi
avec une corrélation nulle avec le premier,
c’est sur le plan principale que sera visible le
maximum de l’information du nuage de point
en comparaison avec n’importe quel autre
plan.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 45
46. Nombre d’axe à retenir:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 46
Dimension de l'espace des individus L'ACP visant a réduire la
dimension de l'espace des individus, on veut conserver aussi
peu d'axes que possible. Il faut pour cela que les variables
d'origine soient raisonnablement corrélées entre elles. Les seuls
critères utilisables sont empiriques.
Interprétation des axes
on s'efforce de ne retenir que des axes a propos desquels une
forme d'interprétation est possible (soit directement, soit en
terme des variables avec lesquels ils sont très corrélées).
Critère de Kaiser (variables centrées réduites)
on ne retient que les axes associes a des valeurs propres
supérieures a 1, c'est-à-dire dont la variance est supérieure a
celle des variables d'origine.
Une autre interprétation est que la moyenne des valeurs propres
étant 1, on ne garde que celles qui sont supérieures a cette
moyenne.
47. Éboulis des valeurs propres
Autre façon de choisir le nombre de classes est de
chercher un coude dans le graphe des valeurs
propres
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 47
48. Retour à l’exemple 2,
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 48
Dans notre exemple 2, si l’on retient les valeurs propres > 1, alors nous devrions
retenir 2 axes factoriels.
49. Corrélation entre composantes et variables initiales
Quand on travaille sur les variables centrées-réduites, la
corrélation entre une composante principale ck et une
variable zj est
et donc le vecteur des corrélations de ck avec Z est
Comme
on a finalement
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 49
50. Le cercle des corrélations r(zj;c2).
Qu'est-ce que c'est?
c'est une représentation ou, pour deux composantes principales, par exemple c1
et c2, on représente chaque variable zj par un point d'abscisse r(zj; c1) et
d'ordonnée r(zj;c2).
Effet « taille »
cela arrive quand toutes les variables sont corrélées positivement avec la
première composante principale. Cette composante est alors appelée facteur de
taille, la seconde facteur de forme.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 50
51. Les coefficients de corrélation entre variables
initiales et facteurs (également appelés
poids factoriels ou loadings) : plus la
corrélation entre une variable et un facteur
est élevée, plus cette variable apporte du
sens au facteur. Idéalement pour
l’interprétation, une variable contribue
fortement à un facteur (valeur > à 0,5 ou 0,6
en v.a.) et faiblement aux autres facteurs
(valeurs < 0,3 en v.a).
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 51
52. 28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 52
Un dentifrice semble a priori être acheté pour 2 raisons principales : soit
« santé » (caries/gencives) soit pour des attentes plus « sociales »
(brillance/belles dents ou haleine fraîche).
Le facteur 2 est représenté par les
variables brillance, haleine et belles
dents.
Le facteur 1 oppose caries/gencives
à prévention caries (qui est codée
dans l’autre sens).
54. Représentation des individus sur le plan principal
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 54
55. 28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 55
Dans notre exemple 2, ceci présente peu d’intérêt. Cependant, si l’on avait
été renseigné sur la marque consommée par ces différents individus, ce
graphe complémentaire aurait été beaucoup plus intéressant. Ajoutons 1
colonne « conso » censée représentée la marque de dentifrice consommée
par l’individu interrogée. On code (affichage des variables valeurs)
1:Sanogyl
2:parogencyl
3:fluocaril
4:tonigencil
5:colgate
6:signal
7:rembrandt
8:ultrabrite
On réalise un nouveau graph, mais cette
fois on va étiqueter les observations par
marque consommée.
Remarque : on peut de la même manière
faire apparaître les variables de notre choix
sur la graph.
57. Les données considérées sont centrées, elles ne sont pas réduites.
Matrice de variance-covariance:
Matrice de vecteurs propres:
Matrice des valeurs propres
28/04/2014 57
58. On a
La proportion de l’information totale visible sur l’axe
principale dépasse 90%.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 58
59. 28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 59
(a) (b) (c)
Figure: (a) : Image originale. (b) Image projetée sur le plan pricipal de
l'ACP. (c) Image projetée sur le premier axe principale.
60. VI. Variables supplémentaires et Individus supplémentaires.
a. Variables supplémentaires
L’utilisation de variables supplémentaires s’imposent
quand on veut chercher s’l y a des liens (linéaires) entre une
variable qui représente un intérêt particulier, et d’autres
variables censées «l’expliquer».
Une variable supplémentaire est donc une variable
«à expliquer». Elle ne participe pas à la construction des
axes. Ce n’est qu’à cette condition que l’observation des
liaisons entre la variable à expliquer et les variables actives
est objective.
28/04/2014 60
Pr. MERBOUHA Analyse des données
Economie/Gestion
61. b. Individus supplémentaires
Les individus supplémentaires ne participent pas à la
construction des axes. Mais peuvent être représentés
sur les plans principaux.
Ces individus serviront d'échantillon test pour
vérifier les hypothèses tirées de l'ACP sur les
individus actifs.
28/04/2014 61
Pr. MERBOUHA Analyse des données
Economie/Gestion