1. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Mod`eles de pr´evision
Partie 1 - r´egression - # 2
Arthur Charpentier
charpentier.arthur@uqam.ca
http ://freakonometrics.hypotheses.org/
´Et´e 2014
1
2. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Plan du cours - donn´ees individuelles
◦ Rappels de statistique
• Motivation et introduction aux mod`eles de r´egression
• Le mod`ele lin´eaire simple
◦ R´esultats g´en´eraux
◦ Approche matricielle
• Le mod`ele lin´eaire multiple
◦ R´esultats g´en´eraux
◦ Tests, choix de mod`ele, diagnostique
• Aller plus loin
◦ Les mod`eles non lin´eaires param´etriques
◦ Les mod`eles non lin´eaires nonparam´etriques
2
3. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Petit rappel sur la significativit´e, test de H0 : βj = 0
Les r´esultats pr´ec´edants permettent de proposer un test simple de
H0 : βj = 0 contre l’hypoth`ese H1 : βj = 0.
La statistique de test
Tj =
βj
V ar(βj)
∼ St(n − k) sous H0.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
speed 3.9324 0.4155 9.464 1.49e-12 ***
3
4. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Les deux lectures possibles d’un test
• donner la region de rejet, de la forme [±T1−α/2], avec un seuil α fix´e
arbitrairement ( par d´faut 95%)
• donner le seuil α tel que la r´egion de rejet soit [±t] (la plus petite region de
rejet `a laquelle appartienne la statistique observ´ee), i.e. la probabilit´e que de
rejeter H0 si H0 ´etait vraie.
Dans ce dernier cas, on parle de p-value, p = P(rejeter H0|H0 vraie) : si p est
faible, on rejette H0, car il y a peu de chances qu’H0 soit vraie.
4
5. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Lecture du test de Student
−6 −4 −2 0 2 4 6
0.00.10.20.30.4
Region de rejet du test de Student
ACCEPTATION
DE H0
REJET
DE H0
REJET
DE H0
Aire totale = 5%
5
6. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Lecture du test de Student
−6 −4 −2 0 2 4 6
0.00.10.20.30.4
p−value associée à un test de Student
Aire totale = 1,23%
6
7. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Analyse d’une sortie de r´egression
Des tests de student de H0 : βi = 0, contre H1 : βi = 0 sont propos´es, avec
t0 =
β0 − β0
V ar(β0)
=
−17.5791 − 0
6.7584
= −2.601 sousH0
t1 =
β1 − β1
V ar(β0)
=
3.9324 − 0
0.4155
= 9.464 sousH0
Ces valeurs sont `a comparer avec le quantile de Student `a 95% (`a 49 degr´es de
libert´e).
Une alternative est d’utiliser la p-value, i.e. si Z ∼ St(49),
p0 = P(|Z| > t0) = 0.0123 et p1 = P(|Z| > t1) = 1.49 × 10−12
.
7
8. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
La p value est alors donn´ee par
> 2*(1-pt(abs(REG$coefficients[1]/summary(REG)$coefficients[1,2]), df=n-2))
(Intercept)
0.01231882
σ = 15.38, i.e. summary(reg)$sigma
> confint(reg)
2.5 % 97.5 %
(Intercept) -31.167850 -3.990340
speed 3.096964 4.767853
Pour la constante, par exemple, l’intervalle de confiance est donn´e par
> REG$coefficients[1]+qt(c(.025,.975),n-2)* summary(REG)$coefficients[1,2]
[1] -31.16785 -3.99034
8
9. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
La matrice de variance-covariance des coefficients, Var(β) est ici
> vcov(reg)
(Intercept) speed
(Intercept) 45.676514 -2.6588234
speed -2.658823 0.1726509
9
10. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Introduction aux tests multiples, e.g. H0 : β1 = · · · = βj = 0
On a vu comment tester H0 : β2 = 0 et H0 : β3 = 0, mais ces deux tests peuvent
ˆetre valid´e, sans pour autant avoir H0 : β2 = β3 = 0.
> US=read.table("http://freakonometrics.free.fr/US.txt",
+ header=TRUE,sep=";")
> US$Density=US$Population/US$Area
> model1 = lm(Murder ~ Income + HS.Grad + Frost +
+ Population + Illiteracy + Life.Exp +
+ Area + Density, data=US)
> summary(model1)
Call:
lm(formula = Murder ~ Income + HS.Grad + Frost + Population +
Illiteracy + Life.Exp + Area + Density, data = US)
Residuals:
Min 1Q Median 3Q Max
-3.10973 -0.92363 -0.07636 0.74884 2.92362
10
11. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.121e+02 1.684e+01 6.657 5.04e-08 ***
Income 1.018e-03 6.642e-04 1.532 0.133084
HS.Grad 1.318e-02 5.315e-02 0.248 0.805412
Frost -7.301e-03 7.074e-03 -1.032 0.308040
Population 2.180e-04 6.051e-05 3.602 0.000845 ***
Illiteracy 2.208e+00 8.184e-01 2.699 0.010068 *
Life.Exp -1.579e+00 2.374e-01 -6.652 5.12e-08 ***
Area -9.413e-07 4.228e-06 -0.223 0.824911
Density -4.369e+00 1.499e+00 -2.915 0.005740 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.608 on 41 degrees of freedom
Multiple R-squared: 0.8412, Adjusted R-squared: 0.8102
F-statistic: 27.14 on 8 and 41 DF, p-value: 4.813e-14
Sur cette exemple, on valide les tests H0 : β1 = 0, H0 : β2 = 0 et H0 : β3 = 0.
Mais peut-on valider H0 : β1 = β2 = β3 = 0 ?
11
13. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
et le mod`ele non-contraint (sous H1),
β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1
, Rβ = q}
Pour le premier mod`ele, on cherche `a minimiser
h(β) = (Y − Xβ) (Y − Xβ)
et dans le second mod`ele, c’est de la minimisation sous-contrainte. On optimise le
Lagrangien,
(β, λ) = (Y − Xβ) (Y − Xβ) + λ(Rβ − q)
Dans ce cas, les conditions du premier ordre sont
∂ (β, λ)
∂β
= 2X (Y − Xβ) + R λ = 0
et
∂ (β, λ)
∂λ
= Rβ − q = 0,
13
14. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
pour β = β . On a finallement un syst`eme de deux (syst`emes d’) ´equations
X X R
R 0
β
λ
=
X Y
q
Comme β = (X X)−1
X Y , on peut ´ecrire
β = β − C[Rβ − q]
o`u
C = (X X)−1
R [R(X X)−1
R ]−1
.
Si on pose ε = Y − Xβ et ε = Y − Xβ, alors
ε ε − ε ε = [Rβ − q] (R(X X)−1
R )[Rβ − q]
Or d’apr`es la seconde condition du premier ordre, Rβ = q. Donc sous H0, la
statistique de test est
F =
ε ε − ε ε
dim(q)
·
n − k
ε ε
14
15. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
qui doit suivre une loi de Fisher, F(dim(q), n − k).
> (EE=sum(residuals(model1)^2))
[1] 106.0532
> model2 = lm(Murder ~
+ Population + Illiteracy + Life.Exp +
+ Area + Density, data=US)
> (EEc=sum(residuals(model2)^2))
[1] 119.6924
> (F=(EEc-EE)/3*(nrow(US)-9)/(EE))
[1] 1.757643
> 1-pf(F,3,nrow(US)-9)
[1] 0.170363
Pour savoir si on rejette, ou si on accepte H0, on calcule la p-value,
> 1-pf(F,3,nrow(US)-9)
[1] 0.170363
i.e. on peut accepter ici H0 (les trois coefficients sont nuls simultan´ement).
Cette analyse de variance peut se faire via
15
16. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
> library(car)
> linearHypothesis(model1,
+ c("Income","HS.Grad","Frost"),c(0,0,0))
Linear hypothesis test
Hypothesis:
Income = 0
HS.Grad = 0
Frost = 0
Model 1: restricted model
Model 2: Murder ~ Income + HS.Grad + Frost +
Population + Illiteracy + Life.Exp + Area + Density
Res.Df RSS Df Sum of Sq F Pr(>F)
1 44 119.69
2 41 106.05 3 13.639 1.7576 0.1704
16
17. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Diagnostique et r´egression, le R2
Le coefficient de d´etermination R2
d´efini `a partir le rapport entre la variance des
r´esidus et la variance de Y ,
R2
= 1 −
Variance non expliqu´ee
Variance totale
=
Variance expliqu´ee
Variance totale
.
ou pour la version empirique
R2
= 1 −
somme des carr´es des r´esidus
somme des carr´es de la r´egression
= 1 −
n
i=1
Yi − Yi
2
n
i=1
Yi − Y
2
17
18. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Diagnostique et r´egression, le R2
On utilise pour cela la formule de d´ecomposition de la variance
V ar(Y )
variance totale
= V ar[E(Y |X)]
variance expliqu´ee par X
+ E[V ar(Y |X)]
variance r´eisudelle
.
On notera que cette grandeur est un estimateur bais´e du vrai R2
,
E(R2
) = R2
+
k − 1
n − 1
[1 − R2
] + O
1
n2
Le coefficient d’ajustement est R2
= 0.6511 et R
2
= 0.6438.
> summary(reg)$r.squared
[1] 0.6510794
Le calcul se fait de la mani`ere suivante
> 1-deviance(REG)/sum((Y-mean(Y))^2)
[1] 0.6510794
18
19. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Afin de prendre en compte le nombre de param`etre, et de corriger du biais, on
peut utiliser le R2
ajust´e,
R
2
= 1 − (1 − R2
)
n − 1
n − (k − 1) − 1
=
(n − 1)R2
− (k − 1)
n − k − 2
o`u (k − 1) est le nombre de variables explicatives (sans la constante). Notons que
ce R
2
peut ˆetre n´egatif.
Remarque En rajoutant des variables explicatives, on ne peut que augmenter le
R2
, mais si ces derni`eres sont peu corr´el´ees avec Y .
Remarque Dans un mod`ele sans constante, le R2
n’a plus aucun sens. En fait,
sans constante, rien ne garantit que le plan de r´egression passe par le centre de
gravit´e du nuage, (x, y). Et donc la somme des r´esidus n’est alors pas forc´ement
nulle. La formule de d´ecomposition de la variance n’est alors plus valide.
19
20. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
De l’utilisation du R2
Consid´erons une r´egression lin´eaire
TINt = β0 + β1TIFt + εt,
o`u TIN d´esigne le taux d’int´erˆt nomial, TIF le taux d’inflation et TIR le taux
d’int´erˆet r´eel, i.e. TIN = TIR + TIF. Au lieu de mod´eliser le taux d’int´erˆet
nominal en fonction de l’inflation, supposons que l’on cherche `a mod´eliser le taux
d’int´erˆet r´eel,
TIRt = α0 + α1TIFt + ηt.
Notons que de la premi`ere ´equation TINt = β0 + β1TIFt + εt = TIRt + TIFt, on
en d´eduit
TIRt = β0
=α0
+ [β1 − 1]
=β0
TIFt + εt
=ηt
,
autrement dit les deux ´equations sont ´equivalentes.
20
21. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Pourtant
R2
nominal = 1 −
V ar(η)
V ar(TIN)
= 1 −
V ar(η)
V ar(TIR + TIF)
≥ 1 −
V ar(η)
V ar(TIR)
= R2
r´eel
aussi, on peut artificiellement augmenter un R2
, tout en ´etudiant un mod`ele
rigoureusement ´equivalent.
1960 1970 1980 1990 2000
051015
21
22. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
De l’utilisation du R2
Les sorties montrent que les deux sorties sont effectivement ´equivalence entre les
deux mod`eles
> summary(lm(TIR~TIF,data=D))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.65040 0.44301 10.497 8.5e-14 ***
TIF -0.29817 0.07211 -4.135 0.000149 ***
> summary(lm(TIN~TIF,data=D))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.65040 0.44301 10.497 8.50e-14 ***
TIF 0.70183 0.07211 9.733 9.55e-13 ***
22
23. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
De l’utilisation du R2
Mais surtout, on note que le R2
du premier mod`ele est beaucoup plus faible que
le second
> summary(lm(TIR~TIF,data=D))
Multiple R-Squared: 0.271, Adjusted R-squared: 0.2551
> summary(lm(TIN~TIF,data=D))
Multiple R-Squared: 0.6731, Adjusted R-squared: 0.666
23
24. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Diagnostique dans le mod`ele lin´eaire
La fonction plot(REG) produit 6 graphiques de diagnostique
1. r´esidus contre valeurs estim´ees, (Yi, εi) (plot of residuals against fitted values)
2. (Yi, |εi|) (Scale-Location plot),
3. un graphique quantile-quantile des r´esidus (Normal Q-Q plot),
4. un graphique de distances de Cook (plot of Cook’s distances versus row
labels),
5. un graphique de leverage (plot of residuals against leverages)
6. (plot of Cook’s distances against leverage/(1-leverage))
Remarque dans la plupart des graphiques, on utilise les r´esidus standardis´es,
i.e. ε/σ, centr´es et de variance unitaire.
24
31. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Les points atypiques et influents
La notion d’outliers ou de points ab´erants.
La distance de Cook mesure l’impact sur la r´egression de l’absence d’une
observation. Aussi
Ci =
n
j=1( ˆYj − ˆYj(i))2
p · MSE
ou encore,
Ci =
ε2
i
p · MSE
hii
(1 − hii)2
o`u hi,i est l´el´ement diagonale de la matrice H = X (X X)
−1
X (que l’on notera
parfois hi). Les hi = [X(X X)−1
X]i,i = Hi,i sont appel´es (leverage).
31
32. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Le vecteur des leverages h = (h1, · · · , hn) est obtenu ais´ement sous R,
> diag(X%*%solve(t(X)%*%X)%*%t(X))[1:6]
[1] 0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781
> influence(REG)[1:6]
$hat
1 2 3 4 5 6
0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781
Les hypoth`eses sont que E(εi) = 0 et V ar(εi) = σ2
. En r´ealit´e, E(εi) = 0 mais
V ar(εi) = [I − H]i,iσ2
= σ2
Notons que puisque Y = HY + ε,
ε = Y − Y = [I − H]Y = [I − H](Xβ + ε) = [I − H]ε,
et donc V ar(ε) = V ar([I − H]ε) = [I − H]σ2
. Aussi, V ar(εi) = [1 − hi]σ2
.
Les r´esidus Studentis´es sont les
εi =
ε
σ
√
1 − hi
.
32
33. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Notons que Var(εi) = 1.
> diag(X%*%solve(t(X)%*%X)%*%t(X))
> rstudent(REG)[1:6]
1 2 3 4 5 6
0.26345000 0.81607841 -0.39781154 0.81035256 0.14070334 -0.51716052
> mean(rstudent(REG))
[1] 0.01347908
> sd(rstudent(REG))
[1] 1.045681
Sur la matrice de leverage (matrice de projection orthogonale), notons que
Yi = HY = hi,iYi +
j=i
hi,jYj.
Aussi, hi,i est le poids accord´e `a Yi pour sa propre pr´ediction.
• si hi,i = 1, Yi est uniquement d´etermin´e par Yi (hi,j = 0 pour j = i),
• si hi,i = 0, Yi est n’est nullement influenc´e par Yi.
33
34. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
On parelera de point levier i si hi,i est trop grand, i.e.
• si hi,i > 2k/n, d’apr`es Hoaglin & Welsch (1978),
• si hi,i > 3k/n pour k > 6 et n − k > 12, d’apr`es Welleman & Welsch (1981),
• si hi,i > 1/2, d’apr`es Huber (1981).
Cette m´ethode permet de d´etecter des points atypiques, ou plutˆots des points
influents.
Afin de mesurer l’impact d’une observation sur la r´egression, il peut aussi ˆetre
utile de regarder les r´esultats de la r´egression si l’on supprime une des
observations.
Apr`es suppression de la i`eme observation, les estimateurs des moindres carr´es
s’´ecrivent
β(i) = β − (X X)−1
Xi ·
εi
1 − hi,i
σ2
(i) =
1
n − k − 1
(n − k)σ2 ε2
i
1 − hi,i
34
38. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Remarque Beaucoup d’autres distances, bas´ees sur la fonction d’influence, ont
´et´e propos´ees
Cook :Ci =
(β − β(i)) X X(β − β(i))
kσ2
Welsh-Kuh :WKi =
|Xi(β − β(i))|
σ2
(i) hi,i
Welsh :Wi = WKi
n − 1
1 − hi,i
vraisemblance :LDi = 2 L(β, σ2
) − L β(i), σ2
(i)
Remarque : les points aberrants ont des valeurs de Y aberrantes, mais on
pourrait aussi vouloir tester une ab´eration en X.
38
39. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Analyse graphique des r´esidus, example
Pour illustrer, consid´erons les d´epenses dans les ´ecoles publiques, par ´etat (aux
U.S.A.)
> library(sandwich)
> data(PublicSchools)
>
> tail(PublicSchools)
Expenditure Income
Virginia 356 7624
Washington 415 8450
Washington DC 428 10022
West Virginia 320 6456
Wisconsin NA 7597
Wyoming 500 9096
39
44. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Analyse des r´esidus : quelles alternatives
Les hypoth`eses fondamentales sur les r´esidus sont
• E(ε|X) = 0
• Var(ε|X) = σ2
I
et ´eventuellement
• ε|X ∼ N(0, σ2
I)
Un “mauvais mod`ele est un mod`ele pour lequel une de ces hypoth`eses n’est pas
valide
44
52. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Exemple : tester l’hypoth`ese d’homosc´edasticit´e
Tester l’hypoth`ese d’homosc´edasticit´e est d´elicat : il faut sp´ecifier une alternative.
Par exemple, au lieu d’avoir Var(ε|X) = σ2
on pourrait avoir
Var(ε|X) = σ2
h(α0 + α1X2
) Le test de Breusch-Pagan revient `a tester
H0 : α1 = 0 (homosc´edasticit´e) contre H0 : α1 = 0 (h´et´erosc´edasticit´e).
L’id´ee est d’utiliser un test du score (appel´e aussi test du multiplicateur de
Lagrange), dans un mod`ele
Y = β0 + β1X + ε o`u ε2
= γ0 + γ1X + η.
La proc´edure g´en´erale est simple,
• faire la r´egression Y = β0 + β1X1 + · · · + βkXk + ε
• sur ε, faire la r´egression ε2
= γ0 + γ1X1 + · · · + γkXk + η
• tester si γ1 = · · · = γk = 0, i.e. test de significativit´e globale de Fisher,
i.e. T = nR2
qui suit (sous H0) une loi χ2
(k)
> library(lmtest)
> bptest(REG)
52
53. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
studentized Breusch-Pagan test
data: model1
BP = 10.2903, df = 8, p-value = 0.2452
On peut le faire `a la main pour v´erifier
> E=residuals(REG)
> REG2=lm(E^2~cars$speed)
> summary(REG2)$r.squared*50
[1] 3.21488
> 1-pchisq(summary(REG2)$r.squared*50,1)
[1] 0.07297155
> summary(REG2)
Call:
lm(formula = E^2 ~ cars$speed)
Residuals:
Min 1Q Median 3Q Max
-388.45 -175.07 -96.03 22.56 1607.53
53
54. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -61.05 167.56 -0.364 0.7172
cars$speed 18.71 10.30 1.816 0.0756 .
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 381.3 on 48 degrees of freedom
Multiple R-squared: 0.0643, Adjusted R-squared: 0.0448
F-statistic: 3.298 on 1 and 48 DF, p-value: 0.0756
Remarque On reviendra par la suite sur les mod`ele permettant de prendre en
compte de l’h´et´erosc´edasticit´e.
54
55. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Tester l’ind´ependance des r´esidus
Tester l’ind´ependance des r´esidus n´ecessite d’expliciter la forme de l’alternative.
Par exemple, au lieu d’avoir cor(εi, εi+1) = 0 on pourrait avoir cor(εi, εi+1) = r
(= 0).
La statistique de Durbin-Watson est bas´ee sur
DW =
(εi − εi−1)2
(εi)2
qui est dans le package lmtest, via la fonction dwtest.
> library(lmtest)
> REG=lm(dist~speed,data=cars)
> dwtest(REG)
Durbin-Watson test
data: reg
DW = 1.6762, p-value = 0.09522
alternative hypothesis: true autocorrelation is greater than 0
55
56. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Les r´esidus sont ici ordonn´es comme dans la base. On pourrait suspecter un lien
avec les X. Dans ce cas, on peut faire une r´egression sur la base r´eordonn´ee.
> indice=rank(cars$speed,ties.method="random")
> reg=lm(dist~speed,data=cars[indice,])
> dwtest(reg)
Durbin-Watson test
data: reg
DW = 1.7993, p-value = 0.1935
alternative hypothesis: true autocorrelation is greater than 0
On va accepter ici l’hypoth`ese d’absence d’autocorr´elation des r´esidus.
56
57. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Tester l’ind´ependance spatiale des r´esidus
Pour des donn´ees spatiales, on devra se contenter de regarder si, visuellement,
l’ind´ependance spatiale est une hypoth`ese qui semble valide,
> US=read.table("http://freakonometrics.free.fr/US.txt",
+ header=TRUE,sep=";")
> abreviation=read.table(
+ "http://freakonometrics.blog.free.fr/public/data/etatus.csv",
> header=TRUE,sep=",")
> US$USPS=rownames(US)
> US=merge(US,abreviation)
> US$nom=tolower(US$NOM)
> library(maps)
> VL0=strsplit(map("state")$names,":")
> VL=VL0[[1]]
> for(i in 2:length(VL0)){VL=c(VL,VL0[[i]][1])}
> ETAT=match(VL,US$nom)
57
58. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
On peut faire une fonction mettant de la couleur appropri´ee dans chacune des
´etats,
> library(RColorBrewer)
> carte=function(V=US$Murder,titre=
+ "Taux d’homicides aux Etats-Unis"){
+ variable=as.numeric(as.character(cut(V,
+ quantile(V,seq(0,1,by=1/6)),labels=1:6)))
+ niveau=variable[ETAT]
+ couleur=rev(brewer.pal(6, "RdBu"))
+ noml=levels(cut(V,quantile(V,seq(0,1,by=1/6))))
+ map("state", fill = TRUE, col=couleur[niveau]);
+ legend(-78,34,legend=noml,fill=couleur,
+ cex=1,bty="n");
+ title(titre)}
58
59. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
>
>
> carte(US$Frost, titre="Nombre de jours de gel par an")
(0,45]
(45,83]
(83,114]
(114,127]
(127,159]
(159,188]
Nombre de jours de gel par an
59
60. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
> reg=lm(Murder~.-NOM-USPS-nom,data=US)
> regs=step(reg)
> carte(residuals(regs), titre="Rsidus de la rgression")
(−3.3,−1.75]
(−1.75,−0.741]
(−0.741,−0.112]
(−0.112,0.744]
(0.744,1.67]
(1.67,3.47]
Résidus de la régression
60
61. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Choix de mod`ele, AIC et SIC/BIC
Le crit`ere d’Akaike, not´e souvent AIC
AIC = 2k − 2 log(L) = 2k + n log 2π
1
n
n
i=1
ε2
i + 1
dans le cas Gaussien.
Le crit`ere de Schwarz, not´e SIC (Schwarz Information Criterion), ou crit`ere
Bay´esien, not´e BIC
BIC = −2 log(L) + k ln(n) = n ln
n
i=1
ε2
i + k ln(n).
> AIC(reg)
[1] 419.1569
> logLik(reg)
’log Lik.’ -206.5784 (df=3)
61
62. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Choix de mod`ele : s´election des variables
Parfois on dispose de beaucoup de variables explicatives, et on ne sait quel
mod`ele choisir.
dodge=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/dodge.csv",
header=TRUE,sep=",")
La variable FIRE correspond au nombre d’incendies (/1000 m´enages) dans le
quartier i = 1, · · · , 47 de Chicago, en 1975. X1 est la proportion d’habitations
construites avant 1940, X2 le nombre de vols commis, et X3 le revenu m´edian du
quartier.
62
63. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Choix de mod`ele : s´election des variables
Les 8 mod`eles possibles sont les suivants
(0) Y = β0 + ε
(1) Y = β0 + β1X1ε
(2) Y = β0 + β2X2ε
(3) Y = β0 + β3X3ε
(12) Y = β0 + β1X1 + β2X2ε
(13) Y = β0 + β1X1 + β3X3ε
(23) Y = β0 + β2X2 + β3X3ε
(123) Y = β0 + β1X1 + β2X2 + β3X3ε
63
64. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Choix de mod`ele : s´election des variables
mod`ele R2
R
2
log L AIC degr´es libert´e
(0) 0.0000 0.0000 -166.4638 336.9277 1
(1) 0.1423920 0.1233340 -162.8540537 331.7081074 2
(2) 0.1355551 0.1163452 -163.0406536 332.0813071 2
(3) 0.2522118 0.2355942 -159.6339128 325.2678255 2
(12) 0.2276727 0.1925669 -160.3926938 328.7853875 3
(13) 0.2703887 0.2372245 -159.0556280 326.1112560 3
(23) 0.4414889 0.4161020 -152.7755479 313.5510959 3
(123) 0.4416723 0.4027192 -152.7678305 315.5356609 4
Dans ce cas, le meilleur mod`ele est le mod`ele Y = β0 + β2X2 + β3X3 + ε, quel
que soit le crit`ere de choix.
64
65. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Choix de mod`ele : s´election des variables
1.0 1.5 2.0 2.5 3.0 3.5 4.0
0.00.10.20.30.4
degrés de liberté
(0)
(1)(2)
(3)
(12)
(13)
(23) (123)
(0)
(1)(2)
(3)
(12)
(13)
(23)
(123)
1.0 1.5 2.0 2.5 3.0 3.5 4.0
315320325330335
degrés de liberté
(0)
(1)(2)
(3)
(12)
(13)
(23)
(123)
Une s´election automatique bas´ee sur un minimisation du AIC peut ˆetre faite, soit
backward `a partir du mod`ele complet, soit forward `a partir du mod`ele le plus
simple.
65
66. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Choix de mod`ele : s´election des variables
> step(lm(Fire~.,data=D),direction = "backward")
Start: AIC=180.16
Fire ~ X_1 + X_2 + X_3
Df Sum of Sq RSS AIC
- X_1 1 0.60 1832.36 178.17
<none> 1831.75 180.16
- X_2 1 561.94 2393.70 190.73
- X_3 1 702.09 2533.84 193.41
Step: AIC=178.17
Fire ~ X_2 + X_3
Df Sum of Sq RSS AIC
<none> 1832.36 178.17
- X_2 1 620.98 2453.33 189.89
- X_3 1 1003.70 2836.06 196.70
Call:
66
67. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
lm(formula = Fire ~ X_2 + X_3, data = D)
Coefficients:
(Intercept) X_2 X_3
21.4965 0.2213 -1.5248
67
69. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Exemple d’application : cigarettes et esp´erance de vie
> summary(lm(Y~X))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.799e+01 1.371e+00 34.995 < 2e-16 ***
X 8.528e-03 9.007e-04 9.468 1.33e-15 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 8.158 on 101 degrees of freedom
(86 observations deleted due to missingness)
Multiple R-Squared: 0.4702, Adjusted R-squared: 0.465
F-statistic: 89.64 on 1 and 101 DF, p-value: 1.333e-15
Interpr´etation (rapide et sans doute falacieuse) : β1 ∼ 0.00852, i.e. en fumant une
cigarette de plus par an, on augmente l’esp´erance de vie de 0.00852 ann´ees.
Aussi, fumer 1 cigarette de plus (ou de moins) par jour augmente (ou diminue)
l’esp´erance de vie de 3.11 ann´ees.
69
71. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Exemple d’application : cigarettes et esp´erance de vie
L’interpr´etation est bien entendu fausse et vient du type de donn´ees utilis´e´ees
> head(dl,10)
X Country Continent LE CigCon
1 1 Afghanistan Asia 35.5 98
2 2 Albania Europe 61.4 NA
3 3 Algeria Africa 60.6 1021
4 4 Andorra Europe 72.2 NA
5 5 Angola Africa 33.4 571
6 6 Antigua and Barbuda South America 61.9 NA
7 7 Argentina South America 65.3 1495
8 8 Armenia Europe 61.0 1095
9 9 Australia Australia 72.6 1907
10 10 Austria Europe 71.4 2073
Les consommations les plus ´elev´ees de cigarettes sont observ´ees dans les pays les
plus riches, o`u l’esp´erance de vie est la plus grande.
Remarque Une r´egression lin´eaire est l’ananlyse d’une corr´elation et pas d’une
relation de causalit´e.
71
72. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Tester la normalit´e
Tous les r´esultats ont ´et´es obtenus sous l’hypoth`ese de normalit´e des r´esidus.
−20 0 20 40
0.00.20.40.60.81.0
Regression residuals
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
Regression residuals
−20 0 20 40
0.0000.0050.0100.0150.0200.0250.030
72
73. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Tester la normalit´e
Le test de Kolmogorov Smirnov permet de tester l’ajustement d’un loi normale
N(0, 152
) pour les r´esidus,
> ks.test(reg$residuals, "pnorm", 0,15)
One-sample Kolmogorov-Smirnov test
data: E
D = 0.128, p-value = 0.3859
alternative hypothesis: two-sided
Warning message:
In ks.test(E, "pnorm", 0, 15) : cannot compute correct p-values with ties
73
74. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Rappelons que le test de Kolmogorov Smirnov, de l’hypoth`ese H0 : F = F
(contre l’hypoth`ese alternative H0 : F = F ) est bas´e sur la statistique
D = sup
x∈R
F (x) − Fn(x) ,
Le th´eor`eme de Glivenko-Cantelli garantissant que
sup
x∈R
F (x) − Fn(x)
p.s.
−→ 0
lorsque n → ∞, sous H0, i.e. si F est effectivement la vraie loie.
Mais formellement ce n’est pas un test de normalit´e : on teste ici
H0 : F = N(µ , σ2
) et non pas H0 : F = N( , ).
74
75. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Tester la normalit´e
> shapiro.test(reg$residuals)
Shapiro-Wilk normality test
W = 0.9451, p-value = 0.02153
> ad.test(reg$residuals)
Anderson-Darling normality test
A = 0.7941, p-value = 0.0369
Ces tests sont techniques, et sont d´etaill´es dans les livres des statistiques (cf blog).
Le test de Cram´er-von-Mises repose sur
nW2
= n
∞
−∞
[F(x) − F (x)]2
dF (x)
75
76. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
soit, en pratique
T = nW2
=
1
12n
+
n
i=1
2i − 1
2n
− F (xi:n)
2
,
o`u F est la loi th´eorique que l’on cherche `a tester, i.e. Φ.
> cvm.test(reg$residuals)
Cramer-von Mises normality test
W = 0.1257, p-value = 0.0483
> pearson.test(reg$residuals)
Pearson chi-square normality test
P = 8.4, p-value = 0.2986
Le test de Jarque-Bera repose sur
JB =
n
6
S2
+
(K − 3)2
4
,
76
77. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
o`u n est le nombre de degr´es de libert´es, S est la skewness empirique, et K la
kurtosis empirique,
S =
µ3
σ3
=
µ3
(σ2)
3/2
=
1
n
n
i=1 (xi − ¯x)
3
1
n
n
i=1 (xi − ¯x)
2
3/2
K =
µ4
σ4
=
µ4
(σ2)
2 =
1
n
n
i=1 (xi − ¯x)
4
1
n
n
i=1 (xi − ¯x)
2
2
Sous H0 (normalit´e), JB ∼ χ2
(2).
> jarque.bera.test(reg$residuals)
Jarque Bera Test
X-squared = 8.1888, df = 2, p-value = 0.01667
77
78. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Tester la pr´esence d’une rupture, le test de Chow
Le test de Chow permet de tester une rupture en sp´ecifiant explicitement la
rupture. Le test de Chow est simplement un test de Ficher, o`u on compare des
sous-mod`eles `a un mod`ele global. On suppose ici
β =
β1 pour i = 1, · · · , i0
β2 pour i = i0 + 1, · · · , n
et on teste
H0 : β1 = β2
H1 : β1 = β2
i0 est ici un point entre k et n − k (il faut garder suffisement d’observations pour
mener le test). Chow (1960) sugg`ere un test de la forme
Fi0
=
η η − ε ε
ε ε/(n − 2k)
o`u
εi = Yi − Xiβ pour i = k, · · · , n − k
ηi =
Yi − Xiβ1 pour i = k, · · · , i0
Yi − Xiβ2 pour i = i0 + 1, · · · , n − k
78
79. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
La fonction Fstats repr´esente ainsi Fi0
pour toutes les valeurs entre k et n − k
(par d´efaut, 30% des observations sont retir´ees, 15% `a gauche 15% `a droite).
> reg1=lm(formula = dist ~ speed, data = cars[1:26,])
> S1=sum(reg1$residuals^2); DL1=reg1$df.residual
> reg2=lm(formula = dist ~ speed, data = cars[27:50,])
> S2=sum(reg2$residuals^2); DL2=reg2$df.residual
> reg0=lm(formula = dist ~ speed, data = cars[1:50,])
> S0=sum(reg0$residuals^2); DL0=reg0$df.residual
> ((S0-(S1+S2))/(DL0-(DL1+DL2)-1))/(S0/(DL0-1))
[1] 2.601249
79
82. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Tester la pr´esence d’une rupture, le test de Chow
Si l’on ne sait pas `a quelle date la rupture a eu lieu, des outils de type CUSUM
peuvent ˆetre utilis´es (cf Ploberger & Kr¨amer (1992)). Pour t ∈ [0, 1], on pose
Wt =
1
σ
√
n
nt
i=1
εi.
Dans ce test, si α est le niveau de confiance, les bornes g´en´eralement consid´er´ees
sont ±α. En fait, les bornes th´eoriques sont plutˆot de la forme ±α t(1 − t).
Sous R, il suffit de sp´ecifier type=’’OLS-CUSUM’’ dans la fonction efp.
cusum <- efp(dist ~ speed, type = "OLS-CUSUM",data=cars)
plot(cusum,ylim=c(-2,2))
plot(cusum, alpha = 0.05, alt.boundary = TRUE,ylim=c(-2,2))
82
83. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
OLS−based CUSUM test
Time
Empiricalfluctuationprocess
0.0 0.2 0.4 0.6 0.8 1.0
−2−1012 OLS−based CUSUM test with alternative boundaries
Time
Empiricalfluctuationprocess
0.0 0.2 0.4 0.6 0.8 1.0
−2−1012
Les points sont ici tri´es par vitesse. Aussi, une rupture d´etect´ee en t = 92%
signifie qu’il y a une rupture dans la mod´elation lin´aire de Y par X `a partir de la
tn = 46`eme observation.
83
84. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Intervalles de confiance pour Y et Y
Supposons que l’on dispose d’une nouvelle observation X0 et que l’on souhaite
pr´edire la valeur Y0 assoic´ee.
L’incertitude sur la pr´ediction Y0 vient de l’erreur d’estimation sur les param`etres
β.
L’incertitude sur la r´ealisation Y0 vient de l’erreur d’estimation sur les
param`etres β et de l’erreur associ´ee au mod`ele lin´eaire, i.e. ε0.
Dans le cas de la r´egression simple, Y0 = Y0 + ε0 = β0 + β1X0 + ε0. Aussi,
• Var(Y0) = Var(β0) + 2X0cov(β0, β1) + X2
0 Var(β1)
• Var(Y0) = V ar(Y0) + Var(ε0), si l’on suppose que le bruit est la partie non
expliqu´ee. Aussi Var(Y0) = Var(β0) + 2X0cov(β0, β1) + X2
0 Var(β1) + σ2
84
85. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Intervalle de confiance pour Y
L’incertitude sur la pr´ediction Yj vient de l’erreur d’estimation sur les param`etres
β.
Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de
confiance pour Y0 = (X X)−1
X Y0 est
Y0 ± tn−k(1 − α/2)σ x0(X X)−1X0
o`u tn−k(1 − α/2) est le quantile d’ordre (1 − α/2) de la loi de Student `a n − k
degr´es de libert´e.
85
86. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Intervalle de confiance pour Y
L’incertitude sur la r´ealisation Yj vient de l’erreur d’estimation sur les
param`etres β et de l’erreur associ´ee au mod`ele lin´eaire, i.e. εi.
Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de
confiance pour Y0 = Y0 + ε0 est
Y0 ± tn−k(1 − α/2)σ 1+x0(X X)−1X0
En fait, sous R, l’intervalle de confiance pour Y n’inclue pas l’erreur associ´ee `a
l’erreur d’estimation, aussi, dans ce cas, si l’on dispose d’une nouvelle observation
X0, l’intervalle de confiance pour Y0 = Y0 + ε0 est
Y0 ± tn−k(1 − α/2)σ .
86
92. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Mod`ele sur Y ou log Y
La transformation param´etrique la plus classique en ´econom´etrie est la
transform´ee de Box-Cox,
f(x, λ) =
x−λ
− 1
λ
pour λ = 0
log(x) pour λ = 0
92
93. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
0 1 2 3 4
−4−3−2−1012
Box−Cox transform
Cette transformation ne marche toutefois que pour les valeurs positives. Une
variante (propos´ee dans le mˆeme papier) est
f(x, λ, µ) =
[x + µ]−λ
− 1
λ
pour λ = 0
log([x + µ]) pour λ = 0
93
94. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
En pratique, µ n’est pas consid´er´e comme un param`etre inconnu.
L’id´ee est de transformer les donn´ees de telle sorte que f(Y, λ ) soit
approximativement normal pour un λ bien choisi.
Supposons que Y suive une loi exponentielle. La transformation de Box-Cox
donne alors une loi de Weibull...
94
95. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
L’objectif initial de l’analyse de Box-Cox ´etait d’estimer un coefficient λ optimal
• la premi`ere id´ee a ´et´e d’utiliser la m´ethode du maximum de vraisemblance.
Grce aux propri´et´es asymptotiques, on peut ´egalement obtenir un intervalle de
confiance approch´e.
• la seconde id´ee (propos´ee d`es 1964) a ´et´e d’utiliser la m´ethode bay´esienne.
Dans l’approche par maximum de vraisemblance, on suppose que
Y λ
= f(Y, λ) ∼ N(Xβ, σ2
I).
La vraisemblance du mod`ele s’´ecrit alors
L(λ, β, σ2
|Y, X) = (2πσ2
)−n/2
exp
−(Y λ
− Xβ) (Y λ
− Xβ)
2σ2
J(λ, Y )
o`u J(λ, Y ) d´esigne le Jacobien de la transformationn Y → Y λ
= f(Y, λ), i.e.
J(λ, Y ) =
n
i=1
Y λ−1
i .
95
96. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Notons que - conditionnellement `a λ on retrouve le mod`ele lin´eaire gaussien
classique, et donc les estimations du maximum de vraisemblance pour le couple
(β, σ2
) sont
˜βλ = (X X)−1
X Y λ
,
˜σ2
λ =
1
n
Y λ
[I − X(X X)−1
X ]Y λ
,
La fonction
V P : λ → L(λ, ˜βλ, ˜σ2
λ|Y, X)
est appel´ee vraisemblance profil´ee (profile likelihood). Notons que
log V P(λ) = constant −
n
2
log(˜σ2
λ) + [λ − 1]
n
i=1
log(Yi).
Comme nous avons pu ´ecrire la vraisemblance, notons qu’il est possible de faire
toute sorte de tests, en particulier des tests de rapport de vraisemblance,
96
97. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Pour test H : λ = λ0, on utilise la statistique du rapport de vraisemblance
W = 2[log V P(λ) − log V P(λ0)]
L
→ χ2
(1)
Remarque Au del`a de la transform´ee de Box-Cox, il existe aussi la transform´ee
dite de Box-Tidwell, correpondant `a une fonction puissance.
97
98. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Faire une pr´ediction avec un mod`ele logarithmique
Si on retient l’id´ee d’un mod`ele lin´eaire sur log Y , cela ne donne pas (pour
l’instant) un mod`ele pour Y . D’apr`es l’in´egalit´e de Jensen, on va toujours sous
estimer la valeur en prenant l’exponentielle de la valeur pr´edite par le mod`ele
logarithmique.
Si Y ∼ N(µ, σ2
) avec E(Y ) = µ
alors exp(Y ) ∼ LN(µ, σ2
) mais E(exp(Y )) = exp(µ) car
E(exp(Y )) = exp µ+
1
2
σ2
.
> reg1=lm(dist~speed,data=cars)
> reg2=lm(log(dist)~speed,data=cars)
> newcars=data.frame(speed=seq(1,26,by=.1))
98
101. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
La r´egression pond´er´ee
L’id´ee des moindres carr´es pond´er´es (weighted least squares) consiste `a chercher `a
minimiser
n
i=1
ωi[Yi − (β0 + β1Xi,1 + · · · + βkXi,k)]2
Notons Ω la matrice diagonale Ω = [Ωi,j] avec Ωi,j = ωiδi=j. Dans ce cas, la
condition du premier ordre (´equations normales) s’´ecrit
X ΩX β = X ΩY .
Si on pose W = Ω1/2
i.e. Ω = W W , alors
X W W X β = X W W Y .
i.e. si ˜X = W X et ˜Y = W Y
˜X ˜X β = ˜X ˜Y ,
qui est la condition du premier ordre pour un mod`ele lin´eaire standard.
101
102. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Application : prise en compte de l’h´et´erosc´edasticit´e
Si l’on suppose que V ar(εi) = γX2
i,j o`u γ > 0 pour un j = 1, · · · , k, alors on
cherche `a minimiser
n
i=1
1
X2
i,j
[Yi − (β0 + β1Xi,1 + · · · + βkXi,k)]2
.
La m´ethode naturelle pour estimer les coefficients consiste `a consid´erer des
moindres carr´es ordinaires sur la r´egression
Yi
Xi,j
= α0
1
Xi,j
+ α1
Xi,1
Xi,j
+ · · · + αk
Xi,k
Xi,j
+
εi
Xi,j
.
Notons que pour j = i, 0, αj est un estimateur de βj, αj est un estimateur de β0,
et α0 est un estimateur de βj.
102
103. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Application : r´egression locale, et lissage
Rappelons qu’un esp´erance conditionnelle est l’esp´erance associ´ee `a la loi
conditionnelle, i.e.
ϕ(x) = E(Y |X = x) = yfY |X=x(u|x)du = y
fY,X(u, x)
fX(x)
du =
yfY,X(u, x)du
fX(x)
Tukey (1961) a propos´e de transposer l’histogramme au `a l’approximation de
l’esp´erance conditionelle.
Soit (Bj)j=1,·,m une partition du support de X,
ϕ(x) =
n
i=1
Yi1(Xi ∈ Bj)
n
i=1
1(Xi ∈ Bj)
pour tout x ∈ Bj.
On parle de r´egressogramme, propos´e par Tukey (1961)
103
105. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
De l’histogramme au regressogramme
Naturellement, on peut consid´erer un r´egressogramme glissant,
ϕ(x) =
n
i=1
Yi1(Xi ∈ [xh; x + h])
n
i=1
1(Xi ∈ [xh; x + h])
pour tout x,
o`u h > 0.
105
107. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
De l’histogramme au regressogramme
Notons qu’on peut ´egalement obtenir un intervalle de confiance, soit en utilisant
un intervalle de confiance gaussien (avec l’´ecart-type estim´e sur le voisinage, -) ou
en utilisant les quantiles empiriques (-).
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
vitesse du véhicule
distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
vitesse du véhicule
distancedefreinage
107
108. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
De l’histogramme au regressogramme
Nous venons de prendre la moyenne sur les voisins de x distants d’au plus ±h.
Une autre id´ee peut ˆetre de chercher les k plus proches voisins
ϕ(x) =
n
i=1
Yi1(Xi ∈ Vx)
n
i=1
1(Xi ∈ Vx)
pour tout x,
o`u Vx contient les k plus proches voisins de x.
108
110. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
De l’histogramme au regressogramme
Lai (1977) a montr´e la convergence de cet estimateur
Proposition 1. Si k → ∞, k/n → 0 alors
E(ϕk(x)) ∼ ϕ(x) +
ϕ (x)
8
k2
n2
et
V ar(ϕk(x)) ∼
2σ2
(x)
k
.
Aussi, en faisant un compromis entre biais et variance conduit `a retenir k ≈ n4/5
.
Sur notre exemple, n = 50 et k = 22.
110
111. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
La r´egression locale
L’id´ee est ici simplement de consid´erer le voisinage en terme de nombre de
voisines.
> loess(dist ~ speed, cars,span=0.75,degree=2)
> predict(REG, data.frame(speed = seq(5, 25, 0.25)), se = TRUE)
Le param`etre span correpond au pourcentage de points gard´es pour faire
l’ajustement local, et degree est le typoe de r´egression polynomiale.
111
117. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Du lin´eaire au nonlin´eaire, une vision g´en´rale
Dans le cas lin´eaire, nous avions not´e que
Y = Y − Xβ = X(X X)−1
X
H
Y
o`u H peut ˆetre interpr´et´ee comme une matrice de lissage. Notons que
Yj =
n
i=1
[Xj(X X)−1
X ]iYi =
n
i=1
[H(Xj)]iYi
o`u H(x) = x (X X)−1
X .
Aussi, ´etant donn´ee une nouvelle observation x = (x1, · · · , xk),
E(Y |X = x) =
n
i=1
[H(x)]iYi = Y (x).
117
118. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Un estimateur sans biais de σ2
= V ar(εi) est alors simplement
σ2
=
1
n − k
n
i=1
(Yi − Yi)2
.
On en d´eduit alors simplement un intervalle de confiance pour Y sachant X = x,
de la forme
Y (x) ± zσ2
H(x) 2
, o`u H(x) 2
=
n
i=1
(H(x)i)2
Definition 2. Un pr´edicteur Y (x) sera dit dit lin´eaire s’il pour tout x, il existe
un vecteur S(x) = (S(x)1, · · · , S(x)n) tel que
Y (x) =
n
i=1
S(x)iYi
Definition 3. Si [Y (X)i] d´esine le vecteur Y1, · · · , Yn. Il est alors possible
d’´ecrire [Y (X)i] = SY, o`u S est une matrice n × n.
Dans le cas du mod`ele lin´eaire S = H.
118
119. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - ´Et´e 2014)
Examples de matrices de lissage S
Consid´erons le cas d’un moyenne glissante, i.e. on fait une moyenne locale sur les
points distants (au plus d’une distance h = 1).
Sur les 9 observations suivantes,
Xi 1 2 3 4 5 6 7 8 9
Yi 5 3 1 7 6 5 2 1 6
Alors
Y (x) =
n
i=1 Yi × 1(|Xi − x| ≤ 1)
n
i=1 1(|Xi − x| ≤ 1)
,
119