2. la relation doit être linéaire
Les variables explicatives (variables indépendantes) et la variable à expliquer (variable
dépendante) sont indépendantes
Les variables explicatives sont indépendantes entre elles.
Les variables indépendants ne doivent pas avoir de relation linéaire parfaite elles
( pas de multicolinéarité parfaite)
la distribution de la variable à expliquer y et les variables explicatives x₁, x₂, x₃,…..xp
suivent une loi normale dans le cas où l’une de ces dernières est continue.
Un bon modèle de régression comprend un nombre optimal de variables indépendantes,
cela signifie qu’il faut prendre les meilleurs variables indépendante en vue d’une
prédiction fiable.
Le modèle doit prendre en compte des variables énoncées dans les objectifs
Une variable indépendante pourrait être exclue du modèle si le degré d’association avec
la variable indépendante n’est pas assez fort.
Conditions d’utilisation de l’analyse de régression
linéaire multiple
3. x₁
x₂
x₃
xp
Y
Variable
dépendante
VI 1
VI 2
VI 3
VI P
• Il est possible d’utiliser l'équation de régression pour pouvoir prédire les
données de la variable dépendante dont les mesures n'ont pas encore été
obtenues ou pourraient être difficiles à obtenir.
La régression nous donne un pas au-delà de la corrélation qui s’intéresse seulement à
la force de l'association, mais nous voulons être en mesure de décrire sa nature avec
une précision suffisante pour pouvoir faire des prédictions, Pour être en mesure
d’accomplir cette tache, nous devons être capables de définir les variables
indépendantes et la variable dépendante dans le cas de la régression multiple. Cette
dernière est plus complète et plus sophistiquée.
L'objectif général de la régression multiple est de tester la relation qui existe entre
plusieurs variables indépendantes (quantitatives et/ou qualitatives ) et une variable
dépendante (quantitative et continue) .
VI= Variable Indépendante
Y
Variable
dépendante
VI
Simple régression
Multiple régression
Relations entre VI
à éviter
4. Pour atteindre cet objectif, on doit se référer à l’équation de régression.
a₁ : la pente de la variable 1
a₂ : la pente de la variable 2
a₃ : la pente de la variable 3
ap : la pente de la variable p
x₁ : la variable indépendante 1
x₂ : la variable indépendante 2
x₃ : la variable indépendante 3
xp : la variable indépendante p
b: la constante
Ɛ : erreur
y: la variable dépendante
En termes plus clairs, la relation entre x1, x2, x3…xp et y est matérialisée par une
ligne droite dont les pentes sont « a₁, a₂, a₃, … ap » et la constante est b .
• Les variables
x₁, x₂, x₃,….,xp = Variables explicatives continues ou
catégorielles (variables indépendantes)
y = la seule variable à expliquer continue (variable
dépendante) . Y représente les valeurs possibles de la
variable dépendante qui peuvent être expliquées par le
modèle général de régression. Par contre Ɛ ne peut être
expliquée par ce même modèle,
Cette équation de la droite exprime une relation linéaire entre et , la
valeur de la variable dépendante (y) est fonction de la valeur de la ou des
variable(s) indépendante(s) (x), y=f(x).
5. •Régression multiple / 2 ou plusieurs variables indépendantes (x₁, x₂,x3,x4) sont
associées à une seule variable dépendante (y) tel que
y= a₁x₁+ a₂x₂+ a3x3+ a4x4 + b
1ère exemple
température intérieure (ti)=f[température extérieure (te) , humidité relative (H%),
vitesse de l’aire, l’isolation thermique ].
ti= a₁(te)+ a₂(H%)+ a₃(va) + a4(it)+ b
2ème exemple
Revenu (y)= a₁ (expérience en année)+ a₂ ( niveau scolaire en année)+ b
Exemples de régression multiple
6. La méthode de régression nous guide vers
la manière d’introduire les variables dans le
modèle de régression.
A- La régression hiérarchique
B- La régression avec entrée forcée : toutes
les variables sont entrées simultanément.
C- La régression avec entrée progressive:
1. la méthode pas-à-pas (stepwise)
2. descendante (backward): la variable ayant la plus faible contribution au
modèle est éliminée du modèle automatiquement si la variation
du R2 n’est pas significative.
3. la méthode ascendante (forward)
Habituellement, la méthode Entrée est utilisée à moins d'a priori théoriques
particuliers. (a première variable indépendante soit incluse dans le modèle).
7. Nous allons donc voir maintenant comment il est possible de prédire la variance
d’une variable dépendante y à l’aide d’une combinaison linéaire de variables
indépendantes x1, x2, x3,…..xp
Hypothèse nulle
L’hypothèse nulle: il n’y a pas de relation linéaire entre la combinaison
des variables prédicteurs (x1, x2, x3… xp) et la variable à prédire (Y).
Hypothèse alternative
L’hypothèse alternative (ou de recherche): l’association combinée des
variables indépendantes est statistiquement significative à la variable
dépendante (l’observation).
8. Variable dépendante y (Résultat)
La moyenne d'espérance de vie d'un homme
Variable indépendant x1
Les personnes qui lisent (%)
Variable indépendant x2
Apport calorique quotidien
Variable indépendant x3
Produit intérieur brut / capita
L’hypothèse nulle
Il n’y a pas de relation linéaire entre la combinaison des variables
indépendantes « les personnes qui lient », «l’apport calorifique quotidien »,
«le produit intérieur brut » et la variable dépendante « la moyenne
d’espérance de vie d’un homme ».
L’hypothèse alternative
Il y a une relation linéaire significative entre la combinaison des variables
indépendantes « les personnes qui lient », «l’apport calorifique quotidien », « le
produit intérieur brut » et la variable dépendante « La moyenne de l’espérance de vie
d’un homme ».
9. Utilisons l’analyse de régression multiple….
1
…. dans le but de tester la relation qui
pourrait exister entre les 3 variables
prédicteurs ensemble pour prédire la
moyenne de l’espère de vie d’un
hommes.
10. Les variables indépendantes et la variable
dépendante sont insérées séparément dans des
boites différentes : la variable dépendante dans
«Dépendant:» et les variables indépendantes
dans « Variables indépendantes: »
Pour « la méthode de régression »,
Choisir « Entrée » , ici toutes
les variables sont entrées
simultanément. . C’est la méthode
standard .
Appuyez sur l’option « statistiques » et cocher
comme indiquer puis poursuivre .
Mesure et corrélations partielles : Corrélation entre chaque
VI et la VD. Corrélation partielle entre chaque VI et VD
Tests de colinéarité : évaluation de la multicolinéarité
dans l’analyse (Variance Inflation Factor ). variables
indépendantes ne doivent pas être parfaitement associées entre elles
d’où les corrélations ne doivent pas être trop fortes ou la
multicolinéarité parfaite n’est recommandée. Ceci est vérifié par le
VIF. Si, arbitrairement, VIF<10, notre modèle est à l’abri de ce
Qualité de l’ajustement: le test pour évaluer l’ensemble du
modèle (F), le R multiple, le R2 correspondant et le R2 ajusté,
Variation de R-deux: changement du R2 après l’ajout d’un
nouveau bloc de VI
Estimations: la constante b pour toutes les variables
indépendantes et le test de signification
Intervalles de confiance à 95%
2
11. Appuyez sur l’option « Diagrammes »
- Insérer dans le camps Y * ZRESID (résiduel)
- Insérer dans le champs X *ZPRED (Prédiction)
- Diagramme de répartition gaussien
- Poursuivre
Appuyez sur l’option « Options »
3
Cocher « Exclure seulement les composantes non
valides », C-à-d que tout sujet, qui manque une des
variables, qu’elle soit indépendant ou dépendante, sera
exclu de l’analyse .
Pour l’option « Enregistrer », on garde ce qui est
par défaut.
12. Cliquer sur OK,
4
Remarque: la version la plus simple de la régression multiple consiste à garder toutes les
options telles qu’elles se présentent par défaut. En d’autres termes, ne rien toucher aux
options, insérer uniquement les variables dans leurs champs correspondants. C’est une
méthode assez acceptable pour la majorité des régressions multiples.
13. Cette analyse de corrélation ne fait pas parti du test de régression multiple.
Dans ce tableau, le résultat de l’analyse de corrélation simple. Nous pouvons dire que la corrélation
entre la VD et chaque VI est très forte (0.765,0.639, 0.809) et la relation est aussi très significative
(.000 <0,05). Aussi les corrélation entre les VI ne sont pas très élévées , inférieur à 0.7 , sauf pour un
seul cas.
3
Test de corrélation
VD
VI
Analyse de corrélation simple entre la VD et chaque variable indépendante (VI)
5
Grâce à ce tableau, nous pouvons vérifier nos hypothèses , VD et les VI , si elles sont fortement
corrélées ou non.
14. La base de données
Dans ce tableau, toutes les 3 VI sont indiquées.
Ce qui nous intéresse ici R et R² :
R= coefficient de corrélation de la régression multiple . C’est l’association de toutes les variables
indépendantes . Il est très élevé (0.862). Cela signifie que les VI prédisent la variable
dépendante ( R est global, il se pourrait qu’une VI ne contribue pas au résultat, donc il faut voir
le tableau « Coefficients » pour se rendre compte).
R²=0.744 (=74.4%). Ce coefficient indique de combien les 3 VI ont agi sur la VD. Dans ce cas, les
3 VI ensembles expliquent la VD dans un fort pourcentage de 74.4.
La variable à prédire (VD)
6
15. Avec la très faible valeur de la probabilité, on peut dire que
le modèle de régression s’adapte bien p-value=0.000 <0.05
et que la prédiction n’est pas due au hasard.
Tests de colinéarité :
le VIF < 10 « Variance Inflation Factor », donc avec ces
mesures, nous pouvons dire que la multicolinéarité n’est pas
de rigueur. Les variables indépendantes ne doivent pas être
parfaitement associées entre elles. Cela est exigée par
notre modèle.
La tolérance > 0.10, les valeurs indiquées sur le tableau
sont supérieures à 0.10. Ces mesures aussi indiquent que
la multicolinéarité n’est pas de rigueur.
Si une VI a ses indices non conformes à ce qui est exigé,
alors il faut la supprimer ou la remplacer par une autre.
Dans la colonne A , nous avons la constante b=32.430 si
x=0, et les pentes a1=0,005,a2=0.000, a3=0.215.
On peut faire appel à l’équation de régression multiple pour
rédire les différente y de la VD.
Toutes les VI ont une relation significative avec VD , sauf
VD , « Produit intérieur brut », Sig = 0.289 > 0,05.
Cela signifie que cette variable ne contribue pas
significativement à la prédiction du résultat obtenu (VD).
Aussi Bêta cette variable « Produit intérieur brut » est
0.098, cela signifie qu’il n’a pas de contribution de celle-ci à
la prédiction du résultat, à l’inverse des 2 autres variables
0.330 et 0.529 (on fait abstraction du signe).
7
16. On continue notre interprétation
Une autre information utile les corrélations
Corrélation partie de chaque VI: cela montre la contribution de chaque VI à la corrélation totale R (0.862, coefficient
de la régression multiple indiquée dans le tableau « récapitulatif des modèles »). D’où si, par exemple, on retire la VI« Les personnes qui
lisent » du modèle, la corrélation totale va diminuer. Ainsi, 0.386 [coefficient individuel (partie)] de la VI « Les personnes qui lisent »]
retranché de 0.744, on aura donc 0.744 - 0.386= 0.358, d’où l’intensité de la corrélation totale a considérablement diminué, R²= 0.358 est
sa nouvelle valeur. Les 2 VI restantes participent à la prédiction du résultat que de 35.8% .
Aussi, si on porte 0.386 au carré (0.386)² =0.148 , cela signifie que cette corrélation individuelle participe à 14.8 % à l’explication du
résultat final (VD) « Moyenne d’espérance de vie d’un homme » .
Il faut aussi noter que la somme des corrélations parties n’est pas égale à R² = 0,744 car la régression multiple prends en compte la
combinaison de toutes les VI prédire le résultat.
Par ailleurs comme vous pouvez le voir R de la VI « Produit intérieur brut/capitat » est très significatif (0.639) qui dénote l’existence
d’une forte corrélation entre cette variable et la VD « Moyenne d’espérance de vie d’un homme » , prises séparément mais ce même R
est très faible (0.065) dans le modèle de régression multiple , cela signifie que cette variable n’est plus significativement associée à dans
le cadre de la régression multiple. Pourquoi ? la régression multiple prends en compte la combinaison de toutes les VI ensemble et
non séparées pour prédire le résultat. Cela est une façon plus fiable en comparaison avec les VI prises séparément.
On peut dire à la fin que les 2 VI « Apport calorifique quotidien » (0.002 < 0.05) et « Les personnes qui lisent »
(0.000 < 0.05) ont une contribution statistiquement significative à la prédiction des résultats alors que la VI « Produit
intérieur brut » (0.289 > 0.05) n’a pas de contribution statistiquement significative au modèle .
Aussi, le modèle tout entier a une corrélation multiple de 0.862 , ce qui est une grande valeur et une amélioration
substantielle par rapport à la corrélation de chaque VI prise séparément. ( 0.91, 0.065, 0.386)
8
Hinweis der Redaktion
Cette présentation illustre les nouvelles fonctionnalités de PowerPoint, qui sont optimisées pour un affichage sous forme de diaporama. Ces diapositives visent à vous donner des idées pour créer des présentations captivantes dans PowerPoint 2010.
Pour obtenir d’autres exemples de modèles, cliquez sur l’onglet Fichier puis, dans l’onglet Nouveau, cliquez sur Exemples de modèles.