SlideShare ist ein Scribd-Unternehmen logo
1 von 61
Downloaden Sie, um offline zu lesen
Chapitre 4:
ACP: Analyse en Composante Principale
28/04/2014 1
Pr. MERBOUHA Analyse des données
Economie/Gestion
I. Introduction
L’analyse en composante principale
(ACP) est une méthode statistique
essentiellement descriptive: son
objectif est de présenter, sous une
forme graphique, le maximum de
l’information contenue dans un tableau
de données.
28/04/2014 2
Pr. MERBOUHA Analyse des données
Economie/Gestion
Ce tableau doit être constitué, en ligne,
par des individus:
(animaux, clients, ménage … etc ) sur
lesquels sont mesurées des variables
qualitatives ou pouvant être
considérées comme telles (rendement,
chiffre d’affaire etc … ) disposées en
colonne.
28/04/2014 3
Pr. MERBOUHA Analyse des données
Economie/Gestion
Si sont les
variables et n le nombre
d’individus. X est une
matrice rectangulaire à n
lignes et p colonnes:
28/04/2014 4
Pr. MERBOUHA Analyse des données
Economie/Gestion
28/04/2014 5
Pr. MERBOUHA Analyse des données
Economie/Gestion
Variable
Une colonne du tableau
Individu
Une ligne du tableau
28/04/2014 6
Pr. MERBOUHA Analyse des données
Economie/Gestion
Le choix des individus doit être en
accord avec les objectifs désirés. Ils
seraient issus d’une population comme
il peuvent être diversifiés.
Le choix des variables à introduire
devront caractériser aussi bien que
possible les phénomènes qu’on veut
étudier
28/04/2014 7
Pr. MERBOUHA Analyse des données
Economie/Gestion
1 Les problèmes qui peuvent être abordés par l’ACP:
L’ACP sert à:
a. Expliquer le rendement d’une culture; du chiffre
d’affaire d’une entreprise, PIB d’un pays, etc ….
b. Sélectionner les variables sensées expliquer un
phénomène à l’étude.
c. Constituer des groupes d’individus qui se ressemblent
aux vues d’un certain nombre de variables
quantitatives, pour caractériser les individus de
mêmes groupes.
28/04/2014 8
Pr. MERBOUHA Analyse des données
Economie/Gestion
L’ACP permet d’obtenir des graphiques où l’on peut
observer, aussi objectivement que possible, les
ressemblances et dissemblances des individus,
L’ACP est utilisée pour savoir
- Comment se structurent les variables.
- Et/ou comment se répartissent les individus.
28/04/2014 9
Pr. MERBOUHA Analyse des données
Economie/Gestion
2. Principe de l’ACP
Si un tableau de données a p variables quantitatives, on
dira que les individus peuvent être représentés dans un
espace de dimension p.
Si p > 3, il est difficile voir impossible de voir la
diposition des individus dans un tel espace.
Le but de l’ACP est de trouver des espaces de de
dimensions plus petites dans lesquels il soit possible
d’y observer ‘« au mieux » les individus.
28/04/2014 10
Pr. MERBOUHA Analyse des données
Economie/Gestion
Pour des raisons évidentes de facilité de
visualisation, les espaces retenus seront
à une dimension (c’est-à-dire des
droites) ou, et ce sera le cas le plus
fréquent, à deux dimensions (c’est-à-
dire des plans)
28/04/2014 11
Pr. MERBOUHA Analyse des données
Economie/Gestion
C’est ce qui se passe lorsque nous réalisons
des photographies: on passe d’un espace de
dimension 3 « où nous vivons » à un espace
à deux dimensions: la photos que nous
réalisons.
Ce pendant, selon l’angle sous lequel, on
prend notre sujet, toutes nos photos
n’apporteront pas la même information sur
celui-ci;
28/04/2014 12
Pr. MERBOUHA Analyse des données
Economie/Gestion
 Exemple 1
Un autre exemple est celui des couleurs des photos:
Nous avons tous des milliers de photos sur nos PCs et
cela prend beaucoup de place sur nos disques. Cela est
en partie du au fait que chaque image est en couleur:
rouge ,vert, bleu (RGB). Chaque pixel, chaque site
(x,y), contient une information couleur sur l'intensité
du rouge, l'intensité du vert, l'intensité du bleu. Il est
donc possible de diviser par trois la taille d'une image,
en ne conservant qu'un seul canal.
28/04/2014 13
Pr. MERBOUHA Analyse des données
Economie/Gestion
Figure: L'image dont on veut réduire l'espace couleur
28/04/2014 14
Pr. MERBOUHA Analyse des données
Economie/Gestion
(a) (b) (c)
Figure: (a) : Image projetée sur l’axe « rouge ». (b) Image projetée sur l’axe « vert ».
(c) Image projetée sur l'axe « bleu ».
28/04/2014 15
Pr. MERBOUHA Analyse des données
Economie/Gestion
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 16
- Les droites et les plans d’une ACP sont réalisés avec
des combinaisons linéaire des variables initiales
qu’on appelle indices synthétiques.
- Parmi tous les indices synthétiques, l’ACP
recherche d’abord celui qui permet au mieux de
voir les individus i.e celui pour lequel la variance
des individus est maximale: cet indice est appelé
première composante principale, ou encore
premier axe principale. Une certaine proportion de
la variation totale des individus est expliquée (ou
visible) par cette composante principale.
28/04/2014 17
Pr. MERBOUHA Analyse des données
Economie/Gestion
Ensuite, une deuxième composante
principale est recherchée, et ceci
sous deux conditions:
- Avoir une corrélation nulle avec la
première
- Avoir à son tour, la plus grande
variance.
28/04/2014 18
Pr. MERBOUHA Analyse des données
Economie/Gestion
 Le processus continue jusqu’à l’obtention de
la p ème composante principale, les parts
d’information expliquées par chacune d’elles
devenant de plus en plus faible.
 En résumé, la phase essentielle de l’ACP,
consiste à transformer les p variables
quantitatives initiales, toutes plus ou moins
corrélées entre elles, en p nouvelles variables
quantitatives, non corrélées, appelées
composantes principales.
28/04/2014 19
Pr. MERBOUHA Analyse des données
Economie/Gestion
3. Présentation des résultats de l’ACP
Tout logiquement, c’est le plan engendré
par les axes 1 et 2 qui sera examiné en
premier: par construction, c’est le plan
sur lequel le maximum de
l’information est visible, il est appelé le
«plan principal» ou «plan 1-2».
28/04/2014 20
Pr. MERBOUHA Analyse des données
Economie/Gestion
Selon la part d’information prise en
compte par ce plan, il sera nécessaire
ou non d’en examiner d’autres.
Sur ces plans, il sera nécessaire de
reporter les directions des variables
initiales, afin de connaitre celles qui
ont joué un rôle prépondérant dans la
constitution des composantes
principales.
28/04/2014 21
Pr. MERBOUHA Analyse des données
Economie/Gestion
Mais il faudrait se méfier; deux individus
proches sur un plan, pourraient ne pas
l’être dans la réalité.
Il serait extrêmement utile de regarder
quelque indicateurs complémentaires,
calculé par tout bon logiciel et qui
permet de juger de la qualité de la
représentation de ces individus.
28/04/2014 22
Pr. MERBOUHA Analyse des données
Economie/Gestion
4. Type de tableau pouvant être
traités par l’ACP
Les variables doivent être quantitatives ou pouvant
être considérées comme telles.
Selon la nature de ces variables, on peut distinguer
trois grands types de tableaux:
28/04/2014 23
Pr. MERBOUHA Analyse des données
Economie/Gestion
a. Les tableaux de mesures: les variables sont
obtenues à partir de comptage (nombres
d’enfants par ménage, nombre d’épis, … etc)
ou sont obtenues à partir d’appareils de mesure
(balance, humidimètre, … etc).
b. Les tableaux de notes: (note par exemple entre 0
et 20) d’intensité d’une maladie, de niveau de
satisfaction d’un produit … etc. ce sont des
variables aléatoires ordinales mais qui peuvent
être généralement assimilées à des variables
aléatoires continues.
28/04/2014 24
Pr. MERBOUHA Analyse des données
Economie/Gestion
c. Les tableaux de rangs: Les variables
sont des rangs; les n individus sont
classés de 1 à n, du meilleur au plus
mauvais, du plus rapide au plus long
par exemple.
28/04/2014 25
Pr. MERBOUHA Analyse des données
Economie/Gestion
Remarque importante:
En pratique, Les tableaux à analyser sont le
plus souvent de différentes natures (mixte);
et c’est les variables les plus dispersées qui
engendre les premières composantes. Pour
remédier à cet inconvénient, il est
recommandé de donner la même
importance à toute les variables en les
réduisant.
28/04/2014 26
Pr. MERBOUHA Analyse des données
Economie/Gestion
L’ACP est réalisé soit:
- sur les données centrées, les
variables qui sont les plus
dispersées auront plus de poids.
- sur les données centrées et réduites
pour donner la même importance à
toutes les variables
28/04/2014 27
Pr. MERBOUHA Analyse des données
Economie/Gestion
28/04/2014 28
Pr. MERBOUHA Analyse des données
Economie/Gestion
Attention
Si l’opération de réduction diminue
l’importance des variables les plus
dispersées, elle peut inversement,
augmenter l’importance des variables
peu dispersées.
Une variable qui aurait à peu près la
même valeur, se verrait attribuer un
poids important, alors que le bon sens
conduirait à l’éliminer.
28/04/2014 29
Pr. MERBOUHA Analyse des données
Economie/Gestion
Les matrices à considérer pour une ACP sont alors la
matrices de variance-covariance V ou la matrice de
corrélations R.
où V est la matrice de variance-covariance
28/04/2014 30
Pr. MERBOUHA Analyse des données
Economie/Gestion
et
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 31
Exemple 2: BDD SPSS caractéristiques des dentifrices
Il s’agit d’une étude qui porte sur les avantages
fondamentaux recherchés par les consommateurs
lors de l’achat d’un dentifrice. Le sondage est
réalisé dans 1 centre commercial auprès d’un
échantillon de 30 personnes, qui ont donné leur
avis sur les affirmations suivantes, sur 1 échelle de 1
(en total désaccord) à 7 (entièrement d’accord) 
même nombre d’échelons
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 32
-V1 : Il est important d’utiliser un dentifrice qui
prévient la formation des caries.
- V2 : Un dentifrice doit rendre les dents brillantes.
- V3 : Un dentifrice doit renforcer les gencives.
- V4 : Un dentifrice doit rafraîchir l’haleine.
- V5 : La prévention des caries n’est pas un avantage
important du dentifrice (sic).
- V6 : Un dentifrice doit avant tout donner de belles
dents
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 33
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 34
II. Lexique d’interprétation des paramètres
Pour transformer les p variables initiales
inter-corrélées en p nouvelles variables
non corrélées, appelées composantes
principales, on procède en deux étapes:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 35
- La première consiste à élaborer:
- soit la matrice de variance covariance
- soit la matrice de corrélation
La deuxième étape est la diagonalisation: Cette
opération impossible à exécuter à la main, fournit
essentiellement deux matrices:
- Une matrice de vecteurs propres.
- Une matrice diagonale de valeurs propres rangées dans
le sens dégressives:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 36
Facteurs principaux:
Pour une ACP sur données centrées et réduites: La
matrices à considérer est la matrice de corrélation R de
vecteurs propres appelés facteurs principaux:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 37
Utilisation de l’information fournie par les valeurs propres:
On montre que qu’une valeur propre
représente la variance des individus sur l’axe
correspondant. Chaque valeur propre peut
être exprimée en valeur relative de la
variance totale est qui est donc la somme
des ces valeurs propres:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 38
Remarque
Dans le cas d’une ACP sur des données
centrées et réduites, chaque variable a par
définition une variance égale à un, donc la
somme des variances est égale au nombre de
ces variables initiales. Par conséquent, le
rapport de chaque valeur propre à la
somme de toutes les valeurs propres
fournit un renseignement intéressant: la
part de toute l’information initiale visible
sur chaque axe.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 39
Puis ce que les valeurs sont classées de la plus
grande à la plus petite, c’est sur le premier
axe principale que sera visible le maximum
d’information en comparaison avec
n’importe quel autre axe.
Etant donné que le deuxième axe principal est
choisi avec une corrélation nulle avec le
premier, c’est le plan principale que sera
visible le maximum de l’information du
nuage de point en comparaison avec
n’importe quel autre plan.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 40
Quant à la matrice des vecteurs propres,
elle est formée en colonne par les
vecteurs propres de la matrice MV, c’est
les axes principaux.
Ces vecteurs propres contiennent les
coefficient des combinaisons linéaires:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 41
Les composantes principales sont alors les vecteurs
de
avec
Y étant le tableau des données centrées et D la
matrice diagonale:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 42
C’est-à-dire
Les sont les données centrées ou centrées et
réduites
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 43
On montre que le vecteur propre
associé à la plus grande valeur propre
explique le maximum de toute
l’information du nuage de points (les
données) parmi tout les autres axes.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 44
Puis ce que les valeurs sont classées de la plus
grande à la plus petite, c’est sur le premier axe
principale que sera visible le maximum de
l’information totale en comparaison avec
n’importe quel autre axe.
Lorsque le deuxième axe principal est choisi
avec une corrélation nulle avec le premier,
c’est sur le plan principale que sera visible le
maximum de l’information du nuage de point
en comparaison avec n’importe quel autre
plan.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 45
Nombre d’axe à retenir:
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 46
Dimension de l'espace des individus L'ACP visant a réduire la
dimension de l'espace des individus, on veut conserver aussi
peu d'axes que possible. Il faut pour cela que les variables
d'origine soient raisonnablement corrélées entre elles. Les seuls
critères utilisables sont empiriques.
Interprétation des axes
on s'efforce de ne retenir que des axes a propos desquels une
forme d'interprétation est possible (soit directement, soit en
terme des variables avec lesquels ils sont très corrélées).
Critère de Kaiser (variables centrées réduites)
on ne retient que les axes associes a des valeurs propres
supérieures a 1, c'est-à-dire dont la variance est supérieure a
celle des variables d'origine.
Une autre interprétation est que la moyenne des valeurs propres
étant 1, on ne garde que celles qui sont supérieures a cette
moyenne.
Éboulis des valeurs propres
Autre façon de choisir le nombre de classes est de
chercher un coude dans le graphe des valeurs
propres
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 47
Retour à l’exemple 2,
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 48
Dans notre exemple 2, si l’on retient les valeurs propres > 1, alors nous devrions
retenir 2 axes factoriels.
 Corrélation entre composantes et variables initiales
 Quand on travaille sur les variables centrées-réduites, la
corrélation entre une composante principale ck et une
variable zj est
et donc le vecteur des corrélations de ck avec Z est
 Comme
on a finalement
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 49
Le cercle des corrélations r(zj;c2).
 Qu'est-ce que c'est?
c'est une représentation ou, pour deux composantes principales, par exemple c1
et c2, on représente chaque variable zj par un point d'abscisse r(zj; c1) et
d'ordonnée r(zj;c2).
 Effet « taille »
cela arrive quand toutes les variables sont corrélées positivement avec la
première composante principale. Cette composante est alors appelée facteur de
taille, la seconde facteur de forme.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 50
Les coefficients de corrélation entre variables
initiales et facteurs (également appelés
poids factoriels ou loadings) : plus la
corrélation entre une variable et un facteur
est élevée, plus cette variable apporte du
sens au facteur. Idéalement pour
l’interprétation, une variable contribue
fortement à un facteur (valeur > à 0,5 ou 0,6
en v.a.) et faiblement aux autres facteurs
(valeurs < 0,3 en v.a).
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 51
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 52
Un dentifrice semble a priori être acheté pour 2 raisons principales : soit
« santé » (caries/gencives) soit pour des attentes plus « sociales »
(brillance/belles dents ou haleine fraîche).
Le facteur 2 est représenté par les
variables brillance, haleine et belles
dents.
Le facteur 1 oppose caries/gencives
à prévention caries (qui est codée
dans l’autre sens).
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 53
Représentation graphique des variables :
Représentation des individus sur le plan principal
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 54
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 55
Dans notre exemple 2, ceci présente peu d’intérêt. Cependant, si l’on avait
été renseigné sur la marque consommée par ces différents individus, ce
graphe complémentaire aurait été beaucoup plus intéressant. Ajoutons 1
colonne « conso » censée représentée la marque de dentifrice consommée
par l’individu interrogée. On code (affichage des variables  valeurs)
1:Sanogyl
2:parogencyl
3:fluocaril
4:tonigencil
5:colgate
6:signal
7:rembrandt
8:ultrabrite
On réalise un nouveau graph, mais cette
fois on va étiqueter les observations par
marque consommée.
Remarque : on peut de la même manière
faire apparaître les variables de notre choix
sur la graph.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 56
Marques
sociales
Marques santé
Marques
généralistes
Les données considérées sont centrées, elles ne sont pas réduites.
Matrice de variance-covariance:
Matrice de vecteurs propres:
Matrice des valeurs propres
28/04/2014 57
On a
La proportion de l’information totale visible sur l’axe
principale dépasse 90%.
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 58
28/04/2014
Pr. MERBOUHA Analyse des données
Economie/Gestion 59
 (a) (b) (c)
Figure: (a) : Image originale. (b) Image projetée sur le plan pricipal de
l'ACP. (c) Image projetée sur le premier axe principale.
VI. Variables supplémentaires et Individus supplémentaires.
a. Variables supplémentaires
L’utilisation de variables supplémentaires s’imposent
quand on veut chercher s’l y a des liens (linéaires) entre une
variable qui représente un intérêt particulier, et d’autres
variables censées «l’expliquer».
Une variable supplémentaire est donc une variable
«à expliquer». Elle ne participe pas à la construction des
axes. Ce n’est qu’à cette condition que l’observation des
liaisons entre la variable à expliquer et les variables actives
est objective.
28/04/2014 60
Pr. MERBOUHA Analyse des données
Economie/Gestion
b. Individus supplémentaires
Les individus supplémentaires ne participent pas à la
construction des axes. Mais peuvent être représentés
sur les plans principaux.
Ces individus serviront d'échantillon test pour
vérifier les hypothèses tirées de l'ACP sur les
individus actifs.
28/04/2014 61
Pr. MERBOUHA Analyse des données
Economie/Gestion

Más contenido relacionado

Was ist angesagt?

Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire Adad Med Chérif
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1Adad Med Chérif
 
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)Adad Med Chérif
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multipleAdad Med Chérif
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Adad Med Chérif
 
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsJean-Marc Dupont
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
 
Analyse descriptive en VBA Excel
Analyse descriptive en VBA Excel Analyse descriptive en VBA Excel
Analyse descriptive en VBA Excel Adad Med Chérif
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 
Analyse discriminante (1).pptx
Analyse discriminante (1).pptxAnalyse discriminante (1).pptx
Analyse discriminante (1).pptxboutaynabendialli
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée Adad Med Chérif
 
T test sur des échantillons appariés avec test de normalité
T test sur des  échantillons appariés  avec  test de normalité T test sur des  échantillons appariés  avec  test de normalité
T test sur des échantillons appariés avec test de normalité Adad Med Chérif
 
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et RAB IR
 
Analyse de données avec SPSS (1).pdf
Analyse de données avec SPSS (1).pdfAnalyse de données avec SPSS (1).pdf
Analyse de données avec SPSS (1).pdfImadSa
 
Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.arnaudm
 
Merise 60 affaires classées
Merise 60 affaires classées  Merise 60 affaires classées
Merise 60 affaires classées oussama ben rejeb
 

Was ist angesagt? (20)

Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
 
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multiple
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
 
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoins
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Analyse descriptive en VBA Excel
Analyse descriptive en VBA Excel Analyse descriptive en VBA Excel
Analyse descriptive en VBA Excel
 
Bi
BiBi
Bi
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
Analyse discriminante (1).pptx
Analyse discriminante (1).pptxAnalyse discriminante (1).pptx
Analyse discriminante (1).pptx
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée
 
Test khi deux
Test khi deuxTest khi deux
Test khi deux
 
T test sur des échantillons appariés avec test de normalité
T test sur des  échantillons appariés  avec  test de normalité T test sur des  échantillons appariés  avec  test de normalité
T test sur des échantillons appariés avec test de normalité
 
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et R
 
Analyse de données avec SPSS (1).pdf
Analyse de données avec SPSS (1).pdfAnalyse de données avec SPSS (1).pdf
Analyse de données avec SPSS (1).pdf
 
Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.
 
Merise 60 affaires classées
Merise 60 affaires classées  Merise 60 affaires classées
Merise 60 affaires classées
 

Andere mochten auch

Analyse des Données - Une Approche Innovante pour le Secteur Financier
Analyse des Données - Une Approche Innovante pour le Secteur FinancierAnalyse des Données - Une Approche Innovante pour le Secteur Financier
Analyse des Données - Une Approche Innovante pour le Secteur FinancierTrick Consulting
 
Azizi descriptif cours_analysestatistiqueappliquéesousspss
Azizi descriptif cours_analysestatistiqueappliquéesousspssAzizi descriptif cours_analysestatistiqueappliquéesousspss
Azizi descriptif cours_analysestatistiqueappliquéesousspssSouad Azizi
 
Avp02 aménagement église westhoffen
Avp02 aménagement église   westhoffenAvp02 aménagement église   westhoffen
Avp02 aménagement église westhoffenMairie de Westhoffen
 
Aménagement Paysager U de S
Aménagement Paysager U de SAménagement Paysager U de S
Aménagement Paysager U de SDaniel Vallières
 
In01 - Programmation Android - Travaux pratiques
In01 - Programmation Android - Travaux pratiquesIn01 - Programmation Android - Travaux pratiques
In01 - Programmation Android - Travaux pratiquesYann Caron
 
Principes de base aménagement paysager.
Principes de base aménagement paysager.Principes de base aménagement paysager.
Principes de base aménagement paysager.Plani-paysage inc.
 
In01 - Programmation Android - 04 - databases
In01 - Programmation Android - 04 - databasesIn01 - Programmation Android - 04 - databases
In01 - Programmation Android - 04 - databasesYann Caron
 
Espaces exterieurs et jardins
Espaces exterieurs et jardinsEspaces exterieurs et jardins
Espaces exterieurs et jardinsSami Sahli
 
Les espaces verts et les jardins
Les espaces verts et les jardinsLes espaces verts et les jardins
Les espaces verts et les jardinsHiba Architecte
 
Telecharger Exercices corrigés sqlplus
Telecharger Exercices corrigés sqlplusTelecharger Exercices corrigés sqlplus
Telecharger Exercices corrigés sqlpluswebreaker
 
Espaces verts 08
Espaces verts 08Espaces verts 08
Espaces verts 08Sami Sahli
 

Andere mochten auch (20)

Analyse des Données - Une Approche Innovante pour le Secteur Financier
Analyse des Données - Une Approche Innovante pour le Secteur FinancierAnalyse des Données - Une Approche Innovante pour le Secteur Financier
Analyse des Données - Une Approche Innovante pour le Secteur Financier
 
Chapitre 04 : les fonctions
Chapitre 04 : les fonctionsChapitre 04 : les fonctions
Chapitre 04 : les fonctions
 
Chapitre05 : Les tableaux
Chapitre05 : Les tableauxChapitre05 : Les tableaux
Chapitre05 : Les tableaux
 
Chapitre 03 : Structures de contrôle
Chapitre 03 : Structures de contrôleChapitre 03 : Structures de contrôle
Chapitre 03 : Structures de contrôle
 
Chapitre 02 : Variables, Expressions et Instructions
Chapitre 02 : Variables, Expressions et InstructionsChapitre 02 : Variables, Expressions et Instructions
Chapitre 02 : Variables, Expressions et Instructions
 
Chapitre 01 - Notions de base
Chapitre 01 - Notions de baseChapitre 01 - Notions de base
Chapitre 01 - Notions de base
 
TP C++ : enoncé
TP C++ : enoncéTP C++ : enoncé
TP C++ : enoncé
 
TP C++ : Correction
TP C++ : CorrectionTP C++ : Correction
TP C++ : Correction
 
Azizi descriptif cours_analysestatistiqueappliquéesousspss
Azizi descriptif cours_analysestatistiqueappliquéesousspssAzizi descriptif cours_analysestatistiqueappliquéesousspss
Azizi descriptif cours_analysestatistiqueappliquéesousspss
 
Avp02 aménagement église westhoffen
Avp02 aménagement église   westhoffenAvp02 aménagement église   westhoffen
Avp02 aménagement église westhoffen
 
Aménagement Paysager U de S
Aménagement Paysager U de SAménagement Paysager U de S
Aménagement Paysager U de S
 
In01 - Programmation Android - Travaux pratiques
In01 - Programmation Android - Travaux pratiquesIn01 - Programmation Android - Travaux pratiques
In01 - Programmation Android - Travaux pratiques
 
Principes de base aménagement paysager.
Principes de base aménagement paysager.Principes de base aménagement paysager.
Principes de base aménagement paysager.
 
In01 - Programmation Android - 04 - databases
In01 - Programmation Android - 04 - databasesIn01 - Programmation Android - 04 - databases
In01 - Programmation Android - 04 - databases
 
Espaces exterieurs et jardins
Espaces exterieurs et jardinsEspaces exterieurs et jardins
Espaces exterieurs et jardins
 
Jardins 03
Jardins 03Jardins 03
Jardins 03
 
Jardins 02
Jardins 02Jardins 02
Jardins 02
 
Les espaces verts et les jardins
Les espaces verts et les jardinsLes espaces verts et les jardins
Les espaces verts et les jardins
 
Telecharger Exercices corrigés sqlplus
Telecharger Exercices corrigés sqlplusTelecharger Exercices corrigés sqlplus
Telecharger Exercices corrigés sqlplus
 
Espaces verts 08
Espaces verts 08Espaces verts 08
Espaces verts 08
 

Ähnlich wie Ch4 andoneco [mode de compatibilité]

9b567ad91347677ab6736e76a4115c80 statistique
9b567ad91347677ab6736e76a4115c80 statistique9b567ad91347677ab6736e76a4115c80 statistique
9b567ad91347677ab6736e76a4115c80 statistiqueSamad Oulasri
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfFootballLovers9
 
Statistiques ofppt
Statistiques ofpptStatistiques ofppt
Statistiques ofpptkhawla atir
 
Modulestatistiques 120308132649-phpapp01
Modulestatistiques 120308132649-phpapp01Modulestatistiques 120308132649-phpapp01
Modulestatistiques 120308132649-phpapp01ilhamto katosa
 
2014 modele economice
 2014 modele economice 2014 modele economice
2014 modele economiceZamfir Mihaela
 
Cartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deCartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deJovani NDABTJE
 
7490_chap02.pdf
7490_chap02.pdf7490_chap02.pdf
7490_chap02.pdfSaidSousdi
 
cour complet de microeconomie
cour complet de microeconomiecour complet de microeconomie
cour complet de microeconomieJamal Yasser
 
La statistique sanitaire - CSI--1.pptx
La statistique sanitaire - CSI--1.pptxLa statistique sanitaire - CSI--1.pptx
La statistique sanitaire - CSI--1.pptxtaoufikakabli3
 
Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01printif
 

Ähnlich wie Ch4 andoneco [mode de compatibilité] (13)

9b567ad91347677ab6736e76a4115c80 statistique
9b567ad91347677ab6736e76a4115c80 statistique9b567ad91347677ab6736e76a4115c80 statistique
9b567ad91347677ab6736e76a4115c80 statistique
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
 
Statistiques ofppt
Statistiques ofpptStatistiques ofppt
Statistiques ofppt
 
Modulestatistiques 120308132649-phpapp01
Modulestatistiques 120308132649-phpapp01Modulestatistiques 120308132649-phpapp01
Modulestatistiques 120308132649-phpapp01
 
2014 modele economice
 2014 modele economice 2014 modele economice
2014 modele economice
 
Wp bon
Wp bonWp bon
Wp bon
 
Statistiques descriptives
Statistiques descriptivesStatistiques descriptives
Statistiques descriptives
 
Cartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deCartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire de
 
7490_chap02.pdf
7490_chap02.pdf7490_chap02.pdf
7490_chap02.pdf
 
cour complet de microeconomie
cour complet de microeconomiecour complet de microeconomie
cour complet de microeconomie
 
modele economice
 modele economice modele economice
modele economice
 
La statistique sanitaire - CSI--1.pptx
La statistique sanitaire - CSI--1.pptxLa statistique sanitaire - CSI--1.pptx
La statistique sanitaire - CSI--1.pptx
 
Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01
 

Ch4 andoneco [mode de compatibilité]

  • 1. Chapitre 4: ACP: Analyse en Composante Principale 28/04/2014 1 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 2. I. Introduction L’analyse en composante principale (ACP) est une méthode statistique essentiellement descriptive: son objectif est de présenter, sous une forme graphique, le maximum de l’information contenue dans un tableau de données. 28/04/2014 2 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 3. Ce tableau doit être constitué, en ligne, par des individus: (animaux, clients, ménage … etc ) sur lesquels sont mesurées des variables qualitatives ou pouvant être considérées comme telles (rendement, chiffre d’affaire etc … ) disposées en colonne. 28/04/2014 3 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 4. Si sont les variables et n le nombre d’individus. X est une matrice rectangulaire à n lignes et p colonnes: 28/04/2014 4 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 5. 28/04/2014 5 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 6. Variable Une colonne du tableau Individu Une ligne du tableau 28/04/2014 6 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 7. Le choix des individus doit être en accord avec les objectifs désirés. Ils seraient issus d’une population comme il peuvent être diversifiés. Le choix des variables à introduire devront caractériser aussi bien que possible les phénomènes qu’on veut étudier 28/04/2014 7 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 8. 1 Les problèmes qui peuvent être abordés par l’ACP: L’ACP sert à: a. Expliquer le rendement d’une culture; du chiffre d’affaire d’une entreprise, PIB d’un pays, etc …. b. Sélectionner les variables sensées expliquer un phénomène à l’étude. c. Constituer des groupes d’individus qui se ressemblent aux vues d’un certain nombre de variables quantitatives, pour caractériser les individus de mêmes groupes. 28/04/2014 8 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 9. L’ACP permet d’obtenir des graphiques où l’on peut observer, aussi objectivement que possible, les ressemblances et dissemblances des individus, L’ACP est utilisée pour savoir - Comment se structurent les variables. - Et/ou comment se répartissent les individus. 28/04/2014 9 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 10. 2. Principe de l’ACP Si un tableau de données a p variables quantitatives, on dira que les individus peuvent être représentés dans un espace de dimension p. Si p > 3, il est difficile voir impossible de voir la diposition des individus dans un tel espace. Le but de l’ACP est de trouver des espaces de de dimensions plus petites dans lesquels il soit possible d’y observer ‘« au mieux » les individus. 28/04/2014 10 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 11. Pour des raisons évidentes de facilité de visualisation, les espaces retenus seront à une dimension (c’est-à-dire des droites) ou, et ce sera le cas le plus fréquent, à deux dimensions (c’est-à- dire des plans) 28/04/2014 11 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 12. C’est ce qui se passe lorsque nous réalisons des photographies: on passe d’un espace de dimension 3 « où nous vivons » à un espace à deux dimensions: la photos que nous réalisons. Ce pendant, selon l’angle sous lequel, on prend notre sujet, toutes nos photos n’apporteront pas la même information sur celui-ci; 28/04/2014 12 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 13.  Exemple 1 Un autre exemple est celui des couleurs des photos: Nous avons tous des milliers de photos sur nos PCs et cela prend beaucoup de place sur nos disques. Cela est en partie du au fait que chaque image est en couleur: rouge ,vert, bleu (RGB). Chaque pixel, chaque site (x,y), contient une information couleur sur l'intensité du rouge, l'intensité du vert, l'intensité du bleu. Il est donc possible de diviser par trois la taille d'une image, en ne conservant qu'un seul canal. 28/04/2014 13 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 14. Figure: L'image dont on veut réduire l'espace couleur 28/04/2014 14 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 15. (a) (b) (c) Figure: (a) : Image projetée sur l’axe « rouge ». (b) Image projetée sur l’axe « vert ». (c) Image projetée sur l'axe « bleu ». 28/04/2014 15 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 16. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 16
  • 17. - Les droites et les plans d’une ACP sont réalisés avec des combinaisons linéaire des variables initiales qu’on appelle indices synthétiques. - Parmi tous les indices synthétiques, l’ACP recherche d’abord celui qui permet au mieux de voir les individus i.e celui pour lequel la variance des individus est maximale: cet indice est appelé première composante principale, ou encore premier axe principale. Une certaine proportion de la variation totale des individus est expliquée (ou visible) par cette composante principale. 28/04/2014 17 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 18. Ensuite, une deuxième composante principale est recherchée, et ceci sous deux conditions: - Avoir une corrélation nulle avec la première - Avoir à son tour, la plus grande variance. 28/04/2014 18 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 19.  Le processus continue jusqu’à l’obtention de la p ème composante principale, les parts d’information expliquées par chacune d’elles devenant de plus en plus faible.  En résumé, la phase essentielle de l’ACP, consiste à transformer les p variables quantitatives initiales, toutes plus ou moins corrélées entre elles, en p nouvelles variables quantitatives, non corrélées, appelées composantes principales. 28/04/2014 19 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 20. 3. Présentation des résultats de l’ACP Tout logiquement, c’est le plan engendré par les axes 1 et 2 qui sera examiné en premier: par construction, c’est le plan sur lequel le maximum de l’information est visible, il est appelé le «plan principal» ou «plan 1-2». 28/04/2014 20 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 21. Selon la part d’information prise en compte par ce plan, il sera nécessaire ou non d’en examiner d’autres. Sur ces plans, il sera nécessaire de reporter les directions des variables initiales, afin de connaitre celles qui ont joué un rôle prépondérant dans la constitution des composantes principales. 28/04/2014 21 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 22. Mais il faudrait se méfier; deux individus proches sur un plan, pourraient ne pas l’être dans la réalité. Il serait extrêmement utile de regarder quelque indicateurs complémentaires, calculé par tout bon logiciel et qui permet de juger de la qualité de la représentation de ces individus. 28/04/2014 22 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 23. 4. Type de tableau pouvant être traités par l’ACP Les variables doivent être quantitatives ou pouvant être considérées comme telles. Selon la nature de ces variables, on peut distinguer trois grands types de tableaux: 28/04/2014 23 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 24. a. Les tableaux de mesures: les variables sont obtenues à partir de comptage (nombres d’enfants par ménage, nombre d’épis, … etc) ou sont obtenues à partir d’appareils de mesure (balance, humidimètre, … etc). b. Les tableaux de notes: (note par exemple entre 0 et 20) d’intensité d’une maladie, de niveau de satisfaction d’un produit … etc. ce sont des variables aléatoires ordinales mais qui peuvent être généralement assimilées à des variables aléatoires continues. 28/04/2014 24 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 25. c. Les tableaux de rangs: Les variables sont des rangs; les n individus sont classés de 1 à n, du meilleur au plus mauvais, du plus rapide au plus long par exemple. 28/04/2014 25 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 26. Remarque importante: En pratique, Les tableaux à analyser sont le plus souvent de différentes natures (mixte); et c’est les variables les plus dispersées qui engendre les premières composantes. Pour remédier à cet inconvénient, il est recommandé de donner la même importance à toute les variables en les réduisant. 28/04/2014 26 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 27. L’ACP est réalisé soit: - sur les données centrées, les variables qui sont les plus dispersées auront plus de poids. - sur les données centrées et réduites pour donner la même importance à toutes les variables 28/04/2014 27 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 28. 28/04/2014 28 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 29. Attention Si l’opération de réduction diminue l’importance des variables les plus dispersées, elle peut inversement, augmenter l’importance des variables peu dispersées. Une variable qui aurait à peu près la même valeur, se verrait attribuer un poids important, alors que le bon sens conduirait à l’éliminer. 28/04/2014 29 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 30. Les matrices à considérer pour une ACP sont alors la matrices de variance-covariance V ou la matrice de corrélations R. où V est la matrice de variance-covariance 28/04/2014 30 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 31. et 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 31
  • 32. Exemple 2: BDD SPSS caractéristiques des dentifrices Il s’agit d’une étude qui porte sur les avantages fondamentaux recherchés par les consommateurs lors de l’achat d’un dentifrice. Le sondage est réalisé dans 1 centre commercial auprès d’un échantillon de 30 personnes, qui ont donné leur avis sur les affirmations suivantes, sur 1 échelle de 1 (en total désaccord) à 7 (entièrement d’accord)  même nombre d’échelons 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 32
  • 33. -V1 : Il est important d’utiliser un dentifrice qui prévient la formation des caries. - V2 : Un dentifrice doit rendre les dents brillantes. - V3 : Un dentifrice doit renforcer les gencives. - V4 : Un dentifrice doit rafraîchir l’haleine. - V5 : La prévention des caries n’est pas un avantage important du dentifrice (sic). - V6 : Un dentifrice doit avant tout donner de belles dents 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 33
  • 34. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 34
  • 35. II. Lexique d’interprétation des paramètres Pour transformer les p variables initiales inter-corrélées en p nouvelles variables non corrélées, appelées composantes principales, on procède en deux étapes: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 35
  • 36. - La première consiste à élaborer: - soit la matrice de variance covariance - soit la matrice de corrélation La deuxième étape est la diagonalisation: Cette opération impossible à exécuter à la main, fournit essentiellement deux matrices: - Une matrice de vecteurs propres. - Une matrice diagonale de valeurs propres rangées dans le sens dégressives: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 36
  • 37. Facteurs principaux: Pour une ACP sur données centrées et réduites: La matrices à considérer est la matrice de corrélation R de vecteurs propres appelés facteurs principaux: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 37
  • 38. Utilisation de l’information fournie par les valeurs propres: On montre que qu’une valeur propre représente la variance des individus sur l’axe correspondant. Chaque valeur propre peut être exprimée en valeur relative de la variance totale est qui est donc la somme des ces valeurs propres: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 38
  • 39. Remarque Dans le cas d’une ACP sur des données centrées et réduites, chaque variable a par définition une variance égale à un, donc la somme des variances est égale au nombre de ces variables initiales. Par conséquent, le rapport de chaque valeur propre à la somme de toutes les valeurs propres fournit un renseignement intéressant: la part de toute l’information initiale visible sur chaque axe. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 39
  • 40. Puis ce que les valeurs sont classées de la plus grande à la plus petite, c’est sur le premier axe principale que sera visible le maximum d’information en comparaison avec n’importe quel autre axe. Etant donné que le deuxième axe principal est choisi avec une corrélation nulle avec le premier, c’est le plan principale que sera visible le maximum de l’information du nuage de point en comparaison avec n’importe quel autre plan. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 40
  • 41. Quant à la matrice des vecteurs propres, elle est formée en colonne par les vecteurs propres de la matrice MV, c’est les axes principaux. Ces vecteurs propres contiennent les coefficient des combinaisons linéaires: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 41
  • 42. Les composantes principales sont alors les vecteurs de avec Y étant le tableau des données centrées et D la matrice diagonale: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 42
  • 43. C’est-à-dire Les sont les données centrées ou centrées et réduites 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 43
  • 44. On montre que le vecteur propre associé à la plus grande valeur propre explique le maximum de toute l’information du nuage de points (les données) parmi tout les autres axes. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 44
  • 45. Puis ce que les valeurs sont classées de la plus grande à la plus petite, c’est sur le premier axe principale que sera visible le maximum de l’information totale en comparaison avec n’importe quel autre axe. Lorsque le deuxième axe principal est choisi avec une corrélation nulle avec le premier, c’est sur le plan principale que sera visible le maximum de l’information du nuage de point en comparaison avec n’importe quel autre plan. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 45
  • 46. Nombre d’axe à retenir: 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 46 Dimension de l'espace des individus L'ACP visant a réduire la dimension de l'espace des individus, on veut conserver aussi peu d'axes que possible. Il faut pour cela que les variables d'origine soient raisonnablement corrélées entre elles. Les seuls critères utilisables sont empiriques. Interprétation des axes on s'efforce de ne retenir que des axes a propos desquels une forme d'interprétation est possible (soit directement, soit en terme des variables avec lesquels ils sont très corrélées). Critère de Kaiser (variables centrées réduites) on ne retient que les axes associes a des valeurs propres supérieures a 1, c'est-à-dire dont la variance est supérieure a celle des variables d'origine. Une autre interprétation est que la moyenne des valeurs propres étant 1, on ne garde que celles qui sont supérieures a cette moyenne.
  • 47. Éboulis des valeurs propres Autre façon de choisir le nombre de classes est de chercher un coude dans le graphe des valeurs propres 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 47
  • 48. Retour à l’exemple 2, 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 48 Dans notre exemple 2, si l’on retient les valeurs propres > 1, alors nous devrions retenir 2 axes factoriels.
  • 49.  Corrélation entre composantes et variables initiales  Quand on travaille sur les variables centrées-réduites, la corrélation entre une composante principale ck et une variable zj est et donc le vecteur des corrélations de ck avec Z est  Comme on a finalement 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 49
  • 50. Le cercle des corrélations r(zj;c2).  Qu'est-ce que c'est? c'est une représentation ou, pour deux composantes principales, par exemple c1 et c2, on représente chaque variable zj par un point d'abscisse r(zj; c1) et d'ordonnée r(zj;c2).  Effet « taille » cela arrive quand toutes les variables sont corrélées positivement avec la première composante principale. Cette composante est alors appelée facteur de taille, la seconde facteur de forme. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 50
  • 51. Les coefficients de corrélation entre variables initiales et facteurs (également appelés poids factoriels ou loadings) : plus la corrélation entre une variable et un facteur est élevée, plus cette variable apporte du sens au facteur. Idéalement pour l’interprétation, une variable contribue fortement à un facteur (valeur > à 0,5 ou 0,6 en v.a.) et faiblement aux autres facteurs (valeurs < 0,3 en v.a). 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 51
  • 52. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 52 Un dentifrice semble a priori être acheté pour 2 raisons principales : soit « santé » (caries/gencives) soit pour des attentes plus « sociales » (brillance/belles dents ou haleine fraîche). Le facteur 2 est représenté par les variables brillance, haleine et belles dents. Le facteur 1 oppose caries/gencives à prévention caries (qui est codée dans l’autre sens).
  • 53. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 53 Représentation graphique des variables :
  • 54. Représentation des individus sur le plan principal 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 54
  • 55. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 55 Dans notre exemple 2, ceci présente peu d’intérêt. Cependant, si l’on avait été renseigné sur la marque consommée par ces différents individus, ce graphe complémentaire aurait été beaucoup plus intéressant. Ajoutons 1 colonne « conso » censée représentée la marque de dentifrice consommée par l’individu interrogée. On code (affichage des variables  valeurs) 1:Sanogyl 2:parogencyl 3:fluocaril 4:tonigencil 5:colgate 6:signal 7:rembrandt 8:ultrabrite On réalise un nouveau graph, mais cette fois on va étiqueter les observations par marque consommée. Remarque : on peut de la même manière faire apparaître les variables de notre choix sur la graph.
  • 56. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 56 Marques sociales Marques santé Marques généralistes
  • 57. Les données considérées sont centrées, elles ne sont pas réduites. Matrice de variance-covariance: Matrice de vecteurs propres: Matrice des valeurs propres 28/04/2014 57
  • 58. On a La proportion de l’information totale visible sur l’axe principale dépasse 90%. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 58
  • 59. 28/04/2014 Pr. MERBOUHA Analyse des données Economie/Gestion 59  (a) (b) (c) Figure: (a) : Image originale. (b) Image projetée sur le plan pricipal de l'ACP. (c) Image projetée sur le premier axe principale.
  • 60. VI. Variables supplémentaires et Individus supplémentaires. a. Variables supplémentaires L’utilisation de variables supplémentaires s’imposent quand on veut chercher s’l y a des liens (linéaires) entre une variable qui représente un intérêt particulier, et d’autres variables censées «l’expliquer». Une variable supplémentaire est donc une variable «à expliquer». Elle ne participe pas à la construction des axes. Ce n’est qu’à cette condition que l’observation des liaisons entre la variable à expliquer et les variables actives est objective. 28/04/2014 60 Pr. MERBOUHA Analyse des données Economie/Gestion
  • 61. b. Individus supplémentaires Les individus supplémentaires ne participent pas à la construction des axes. Mais peuvent être représentés sur les plans principaux. Ces individus serviront d'échantillon test pour vérifier les hypothèses tirées de l'ACP sur les individus actifs. 28/04/2014 61 Pr. MERBOUHA Analyse des données Economie/Gestion