Slides act6420-e2014-partie-2

Arthur CHARPENTIER - Modèles de prévisions (ACT6420 - Été 2014)
Modèles de prévision
Partie 1 - régression - # 2
Arthur Charpentier
charpentier.arthur@uqam.ca
http ://freakonometrics.hypotheses.org/
Été 2014
1

Plan du cours - données individuelles
◦ Rappels de statistique
• Motivation et introduction aux modèles de régression
• Le modèle linéaire simple
◦ Résultats généraux
◦ Approche matricielle
• Le modèle linéaire multiple
◦ Résultats généraux
◦ Tests, choix de modèle, diagnostique
• Aller plus loin
◦ Les modèles non linéaires paramétriques
◦ Les modèles non linéaires nonparamétriques
2

Petit rappel sur la significativité, test de H0 : βj = 0
Les résultats précédants permettent de proposer un test simple de
H0 : βj = 0 contre l’hypothèse H1 : βj = 0.
La statistique de test
Tj =
βj
V ar(βj)
∼ St(n − k) sous H0.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
speed 3.9324 0.4155 9.464 1.49e-12 ***
3

Les deux lectures possibles d’un test
• donner la region de rejet, de la forme [±T1−α/2], avec un seuil α fixé
arbitrairement ( par d´faut 95%)
• donner le seuil α tel que la région de rejet soit [±t] (la plus petite region de
rejet à laquelle appartienne la statistique observée), i.e. la probabilité que de
rejeter H0 si H0 était vraie.
Dans ce dernier cas, on parle de p-value, p = P(rejeter H0|H0 vraie) : si p est
faible, on rejette H0, car il y a peu de chances qu’H0 soit vraie.
4

Lecture du test de Student
−6 −4 −2 0 2 4 6
0.00.10.20.30.4
Region de rejet du test de Student
ACCEPTATION
DE H0
REJET
DE H0
REJET
DE H0
Aire totale = 5%
5

Lecture du test de Student
−6 −4 −2 0 2 4 6
0.00.10.20.30.4
p−value associée à un test de Student
Aire totale = 1,23%
6

Analyse d’une sortie de régression
Des tests de student de H0 : βi = 0, contre H1 : βi = 0 sont proposés, avec
t0 =
β0 − β0
V ar(β0)
=
−17.5791 − 0
6.7584
= −2.601 sousH0
t1 =
β1 − β1
V ar(β0)
=
3.9324 − 0
0.4155
= 9.464 sousH0
Ces valeurs sont à comparer avec le quantile de Student à 95% (à 49 degrés de
liberté).
Une alternative est d’utiliser la p-value, i.e. si Z ∼ St(49),
p0 = P(|Z| > t0) = 0.0123 et p1 = P(|Z| > t1) = 1.49 × 10−12
.
7

La p value est alors donnée par
> 2*(1-pt(abs(REG$coefficients[1]/summary(REG)$coefficients[1,2]), df=n-2))
(Intercept)
0.01231882
σ = 15.38, i.e. summary(reg)$sigma
> confint(reg)
2.5 % 97.5 %
(Intercept) -31.167850 -3.990340
speed 3.096964 4.767853
Pour la constante, par exemple, l’intervalle de confiance est donné par
> REG$coefficients[1]+qt(c(.025,.975),n-2)* summary(REG)$coefficients[1,2]
[1] -31.16785 -3.99034
8

La matrice de variance-covariance des coeﬃcients, Var(β) est ici
> vcov(reg)
(Intercept) speed
(Intercept) 45.676514 -2.6588234
speed -2.658823 0.1726509
9

Introduction aux tests multiples, e.g. H0 : β1 = · · · = βj = 0
On a vu comment tester H0 : β2 = 0 et H0 : β3 = 0, mais ces deux tests peuvent
ˆetre valid´e, sans pour autant avoir H0 : β2 = β3 = 0.
> US=read.table("http://freakonometrics.free.fr/US.txt",
+ header=TRUE,sep=";")
> US$Density=US$Population/US$Area
> model1 = lm(Murder ~ Income + HS.Grad + Frost +
+ Population + Illiteracy + Life.Exp +
+ Area + Density, data=US)
> summary(model1)
Call:
lm(formula = Murder ~ Income + HS.Grad + Frost + Population +
Illiteracy + Life.Exp + Area + Density, data = US)
Residuals:
Min 1Q Median 3Q Max
-3.10973 -0.92363 -0.07636 0.74884 2.92362
10

Coefficients:
(Intercept) 1.121e+02 1.684e+01 6.657 5.04e-08 ***
Income 1.018e-03 6.642e-04 1.532 0.133084
HS.Grad 1.318e-02 5.315e-02 0.248 0.805412
Frost -7.301e-03 7.074e-03 -1.032 0.308040
Population 2.180e-04 6.051e-05 3.602 0.000845 ***
Illiteracy 2.208e+00 8.184e-01 2.699 0.010068 *
Life.Exp -1.579e+00 2.374e-01 -6.652 5.12e-08 ***
Area -9.413e-07 4.228e-06 -0.223 0.824911
Density -4.369e+00 1.499e+00 -2.915 0.005740 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.608 on 41 degrees of freedom
Multiple R-squared: 0.8412, Adjusted R-squared: 0.8102
F-statistic: 27.14 on 8 and 41 DF, p-value: 4.813e-14
Sur cette exemple, on valide les tests H0 : β1 = 0, H0 : β2 = 0 et H0 : β3 = 0.
Mais peut-on valider H0 : β1 = β2 = β3 = 0 ?
11

Ce test peut s’écrire de manière très générale H0 : Rβ = q (contre H1 : Rβ = q)
avec ici




0 1 0 0 0 · · · 0
0 0 1 0 0 · · · 0
0 0 0 1 0 · · · 0




R
















β0
β1
β2
β3
β4
...
βk
















β
=




0
0
0




0
La stratégie est de comparer deux modèles : le modèle non-contraint (sous H1),
β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1
}
12

et le modèle non-contraint (sous H1),
β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1
, Rβ = q}
Pour le premier modèle, on cherche à minimiser
h(β) = (Y − Xβ) (Y − Xβ)
et dans le second modèle, c’est de la minimisation sous-contrainte. On optimise le
Lagrangien,
(β, λ) = (Y − Xβ) (Y − Xβ) + λ(Rβ − q)
Dans ce cas, les conditions du premier ordre sont
∂ (β, λ)
∂β
= 2X (Y − Xβ) + R λ = 0
et
∂ (β, λ)
∂λ
= Rβ − q = 0,
13

pour β = β . On a finallement un système de deux (systèmes d’) équations


X X R
R 0




β
λ

 =


X Y
q


Comme β = (X X)−1
X Y , on peut écrire
β = β − C[Rβ − q]
où
C = (X X)−1
R [R(X X)−1
R ]−1
.
Si on pose ε = Y − Xβ et ε = Y − Xβ, alors
ε ε − ε ε = [Rβ − q] (R(X X)−1
R )[Rβ − q]
Or d’après la seconde condition du premier ordre, Rβ = q. Donc sous H0, la
statistique de test est
F =
ε ε − ε ε
dim(q)
·
n − k
ε ε
14

qui doit suivre une loi de Fisher, F(dim(q), n − k).
> (EE=sum(residuals(model1)^2))
[1] 106.0532
> model2 = lm(Murder ~
+ Population + Illiteracy + Life.Exp +
+ Area + Density, data=US)
> (EEc=sum(residuals(model2)^2))
[1] 119.6924
> (F=(EEc-EE)/3*(nrow(US)-9)/(EE))
[1] 1.757643
> 1-pf(F,3,nrow(US)-9)
[1] 0.170363
Pour savoir si on rejette, ou si on accepte H0, on calcule la p-value,
> 1-pf(F,3,nrow(US)-9)
[1] 0.170363
i.e. on peut accepter ici H0 (les trois coeﬃcients sont nuls simultan´ement).
Cette analyse de variance peut se faire via
15

> library(car)
> linearHypothesis(model1,
+ c("Income","HS.Grad","Frost"),c(0,0,0))
Linear hypothesis test
Hypothesis:
Income = 0
HS.Grad = 0
Frost = 0
Model 1: restricted model
Model 2: Murder ~ Income + HS.Grad + Frost +
Population + Illiteracy + Life.Exp + Area + Density
Res.Df RSS Df Sum of Sq F Pr(>F)
1 44 119.69
2 41 106.05 3 13.639 1.7576 0.1704
16

Diagnostique et régression, le R2
Le coefficient de détermination R2
défini à partir le rapport entre la variance des
résidus et la variance de Y ,
R2
= 1 −
Variance non expliquée
Variance totale
=
Variance expliquée
Variance totale
.
ou pour la version empirique
R2
= 1 −
somme des carrés des résidus
somme des carrés de la régression
= 1 −
n
i=1
Yi − Yi
2
n
i=1
Yi − Y
2
17

Diagnostique et régression, le R2
On utilise pour cela la formule de décomposition de la variance
V ar(Y )
variance totale
= V ar[E(Y |X)]
variance expliquée par X
+ E[V ar(Y |X)]
variance réisudelle
.
On notera que cette grandeur est un estimateur baisé du vrai R2
,
E(R2
) = R2
+
k − 1
n − 1
[1 − R2
] + O
1
n2
Le coefficient d’ajustement est R2
= 0.6511 et R
2
= 0.6438.
> summary(reg)$r.squared
[1] 0.6510794
Le calcul se fait de la manière suivante
> 1-deviance(REG)/sum((Y-mean(Y))^2)
[1] 0.6510794
18

Afin de prendre en compte le nombre de paramètre, et de corriger du biais, on
peut utiliser le R2
ajusté,
R
2
= 1 − (1 − R2
)
n − 1
n − (k − 1) − 1
=
(n − 1)R2
− (k − 1)
n − k − 2
où (k − 1) est le nombre de variables explicatives (sans la constante). Notons que
ce R
2
peut être négatif.
Remarque En rajoutant des variables explicatives, on ne peut que augmenter le
R2
, mais si ces dernières sont peu corrélées avec Y .
Remarque Dans un modèle sans constante, le R2
n’a plus aucun sens. En fait,
sans constante, rien ne garantit que le plan de régression passe par le centre de
gravité du nuage, (x, y). Et donc la somme des résidus n’est alors pas forcément
nulle. La formule de décomposition de la variance n’est alors plus valide.
19

De l’utilisation du R2
Considérons une régression linéaire
TINt = β0 + β1TIFt + εt,
où TIN désigne le taux d’intérˆt nomial, TIF le taux d’inflation et TIR le taux
d’intérêt réel, i.e. TIN = TIR + TIF. Au lieu de modéliser le taux d’intérêt
nominal en fonction de l’inflation, supposons que l’on cherche à modéliser le taux
d’intérêt réel,
TIRt = α0 + α1TIFt + ηt.
Notons que de la première équation TINt = β0 + β1TIFt + εt = TIRt + TIFt, on
en déduit
TIRt = β0
=α0
+ [β1 − 1]
=β0
TIFt + εt
=ηt
,
autrement dit les deux équations sont équivalentes.
20

Pourtant
R2
nominal = 1 −
V ar(η)
V ar(TIN)
= 1 −
V ar(η)
V ar(TIR + TIF)
≥ 1 −
V ar(η)
V ar(TIR)
= R2
réel
aussi, on peut artificiellement augmenter un R2
, tout en étudiant un modèle
rigoureusement équivalent.
1960 1970 1980 1990 2000
051015
21

Les sorties montrent que les deux sorties sont effectivement équivalence entre les
deux modèles
> summary(lm(TIR~TIF,data=D))
Coefficients:
(Intercept) 4.65040 0.44301 10.497 8.5e-14 ***
TIF -0.29817 0.07211 -4.135 0.000149 ***
> summary(lm(TIN~TIF,data=D))
Coefficients:
(Intercept) 4.65040 0.44301 10.497 8.50e-14 ***
TIF 0.70183 0.07211 9.733 9.55e-13 ***
22

Mais surtout, on note que le R2
du premier mod`ele est beaucoup plus faible que
le second
> summary(lm(TIR~TIF,data=D))
Multiple R-Squared: 0.271, Adjusted R-squared: 0.2551
> summary(lm(TIN~TIF,data=D))
23

Diagnostique dans le modèle linéaire
La fonction plot(REG) produit 6 graphiques de diagnostique
1. résidus contre valeurs estimées, (Yi, εi) (plot of residuals against fitted values)
2. (Yi, |εi|) (Scale-Location plot),
3. un graphique quantile-quantile des résidus (Normal Q-Q plot),
4. un graphique de distances de Cook (plot of Cook’s distances versus row
labels),
5. un graphique de leverage (plot of residuals against leverages)
6. (plot of Cook’s distances against leverage/(1-leverage))
Remarque dans la plupart des graphiques, on utilise les résidus standardisés,
i.e. ε/σ, centrés et de variance unitaire.
24

> plot(predict(REG),residuals(REG))
> abline(h=0,lty=2,col="grey")
> lines(lowess(predict(REG),residuals(REG)),col="red")
>
0 20 40 60 80
−2002040
Fitted values
Residuals
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
lm(dist ~ speed)
Residuals vs Fitted
4923
35
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
0 20 40 60 80
−2002040
predict(REG)
residuals(REG)
25

> s=summary(REG)$sigma
> plot(qnorm((1:50)/51),sort(residuals(REG))/s)
> abline(a=0,b=1,lty=2,col="grey")
> lines(lowess(qnorm((1:50)/51),sort(residuals(REG))/s),col="red")
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
−2 −1 0 1 2
−2−10123
Theoretical Quantiles
Standardizedresiduals
lm(dist ~ speed)
Normal Q−Q
49
23
35
q
q q
q
q
q q
qq
qqq
qqqqqqqqqqq
qq
qq
qqq
qqqqqqq
q
qqqqq
q
q
q q
q
q q
−2 −1 0 1 2
−2−1012
qnorm((1:50)/51)
sort(residuals(REG))/s
26

> plot(predict(REG),sqrt(abs(residuals(REG))/s))
> abline(h=mean(sqrt(abs(residuals(REG))/s)),lty=2,col="grey")
> lines(lowess(predict(REG),sqrt(abs(residuals(REG))/s)),col="red")
>
0 20 40 60 80
0.00.51.01.5
Fitted values
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q q
q
q
q
q
q
q
lm(dist ~ speed)
Scale−Location
49
23
35
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q q
q
q
q
q
q
q
0 20 40 60 80
0.51.01.5
predict(REG)
sqrt(abs(residuals(REG))/s)
27

> library(car)
> plot(cooks.distance(REG))
>
>
0 10 20 30 40 50
0.00.10.20.3
Obs. number
Cook'sdistance
lm(dist ~ speed)
Cook's distance
49
23
39
q
q
q
q
q
q
qq
q
q
q
q
qqqqqq
qq
q
q
q
q
qqq
q
q
qq
q
q
q
q
q
qq
q
q
qqqq
q
q
q
q
q
q
0 10 20 30 40 50
0.000.050.100.150.200.250.300.35
Index
cooks.distance(REG)
28

> X=cbind(1,cars$speed); L=diag(X%*%solve(t(X)%*%X)%*%t(X))
> plot(L,residuals(REG)/s)
> abline(h=0,lty=2,col="grey")
> lines(lowess(L,residuals(REG)/s),col="red")
0.00 0.02 0.04 0.06 0.08 0.10
−2−10123
Leverage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
lm(dist ~ speed)
Cook's distance
0.5
Residuals vs Leverage
49
23
39
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
0.02 0.04 0.06 0.08 0.10
−2−1012
L
residuals(REG)/s
29

> plot(L,cooks.distance(REG))
> lines(lowess(L,cooks.distance(REG)),col="red")
>
>
0.000.050.100.150.200.250.300.35
Leverage
Cook'sdistance
0.02 0.04 0.06 0.08 0.1
q
q
q
q
q
q
qq
q
q
q
q
qqqqqq
qq
q
q
q
q
qqq
q
q
qq
q
q
q
q
q
qq
q
q
qqq q
q
q
q
q
q
q
lm(dist ~ speed)
0
0.5
1
1.5
22.53
Cook's distance vs Leverage
49
23
39
q
q
q
q
q
q
qq
q
q
q
q
qqqqqq
qq
q
q
q
q
qqq
q
q
qq
q
q
q
q
q
qq
q
q
qqq q
q
q
q
q
q
q
0.02 0.04 0.06 0.08 0.10
0.000.050.100.150.200.250.300.35
L
cooks.distance(REG)
30

Les points atypiques et influents
La notion d’outliers ou de points abérants.
La distance de Cook mesure l’impact sur la régression de l’absence d’une
observation. Aussi
Ci =
n
j=1( ˆYj − ˆYj(i))2
p · MSE
ou encore,
Ci =
ε2
i
p · MSE
hii
(1 − hii)2
où hi,i est lélément diagonale de la matrice H = X (X X)
−1
X (que l’on notera
parfois hi). Les hi = [X(X X)−1
X]i,i = Hi,i sont appelés (leverage).
31

Le vecteur des leverages h = (h1, · · · , hn) est obtenu aisément sous R,
> diag(X%*%solve(t(X)%*%X)%*%t(X))[1:6]
[1] 0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781
> influence(REG)[1:6]
$hat
1 2 3 4 5 6
0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781
Les hypothèses sont que E(εi) = 0 et V ar(εi) = σ2
. En réalité, E(εi) = 0 mais
V ar(εi) = [I − H]i,iσ2
= σ2
Notons que puisque Y = HY + ε,
ε = Y − Y = [I − H]Y = [I − H](Xβ + ε) = [I − H]ε,
et donc V ar(ε) = V ar([I − H]ε) = [I − H]σ2
. Aussi, V ar(εi) = [1 − hi]σ2
.
Les résidus Studentisés sont les
εi =
ε
σ
√
1 − hi
.
32

Notons que Var(εi) = 1.
> diag(X%*%solve(t(X)%*%X)%*%t(X))
> rstudent(REG)[1:6]
1 2 3 4 5 6
0.26345000 0.81607841 -0.39781154 0.81035256 0.14070334 -0.51716052
> mean(rstudent(REG))
[1] 0.01347908
> sd(rstudent(REG))
[1] 1.045681
Sur la matrice de leverage (matrice de projection orthogonale), notons que
Yi = HY = hi,iYi +
j=i
hi,jYj.
Aussi, hi,i est le poids accordé à Yi pour sa propre prédiction.
• si hi,i = 1, Yi est uniquement déterminé par Yi (hi,j = 0 pour j = i),
• si hi,i = 0, Yi est n’est nullement influencé par Yi.
33

On parelera de point levier i si hi,i est trop grand, i.e.
• si hi,i > 2k/n, d’après Hoaglin & Welsch (1978),
• si hi,i > 3k/n pour k > 6 et n − k > 12, d’après Welleman & Welsch (1981),
• si hi,i > 1/2, d’après Huber (1981).
Cette méthode permet de détecter des points atypiques, ou plutôts des points
influents.
Afin de mesurer l’impact d’une observation sur la régression, il peut aussi être
utile de regarder les résultats de la régression si l’on supprime une des
observations.
Après suppression de la ième observation, les estimateurs des moindres carrés
s’écrivent
β(i) = β − (X X)−1
Xi ·
εi
1 − hi,i
σ2
(i) =
1
n − k − 1
(n − k)σ2 ε2
i
1 − hi,i
34

> i=25
> REGi=lm(dist~speed,data=cars[-i,])
> plot(cars); points(cars[i,],col="red",pch=19)
> abline(REG,lty=2); abline(REGi,lwd=2,col="red")
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
speed
dist
q
35

> i=23
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
speed
dist
q
36

> i=49
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
speed
dist
q
37

Remarque Beaucoup d’autres distances, basées sur la fonction d’influence, ont
été proposées
Cook :Ci =
(β − β(i)) X X(β − β(i))
kσ2
Welsh-Kuh :WKi =
|Xi(β − β(i))|
σ2
(i) hi,i
Welsh :Wi = WKi
n − 1
1 − hi,i
vraisemblance :LDi = 2 L(β, σ2
) − L β(i), σ2
(i)
Remarque : les points aberrants ont des valeurs de Y aberrantes, mais on
pourrait aussi vouloir tester une abération en X.
38

Analyse graphique des résidus, example
Pour illustrer, considérons les dépenses dans les écoles publiques, par état (aux
U.S.A.)
> library(sandwich)
> data(PublicSchools)
>
> tail(PublicSchools)
Expenditure Income
Virginia 356 7624
Washington 415 8450
Washington DC 428 10022
West Virginia 320 6456
Wisconsin NA 7597
Wyoming 500 9096
39

> plot(PublicSchools$Income,PublicSchools$Expenditure)
> id=c(2,49)
> text(PublicSchools$Income[id],PublicSchools$Expenditure[id],
+ rownames(PublicSchools)[id],pos=1)
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q q
q
q
q
q q
q
q
q
q
6000 7000 8000 9000 10000 11000
300400500600700800
Revenu (par tête)
Dépensesécolespubliques
Alaska
Washington DC
q
q
q
q
q
q
q
q
qq
q
q q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
6000 7000 8000 9000 10000 11000
−100−50050100150200
Revenu
Résidusdelarégression
40

250 300 350 400 450 500 550 600
−1000100200
Fitted values
Residuals
q
q
q
q
q
q
q
q
qq
q
q q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
lm(Expenditure ~ Income)
Residuals vs Fitted
Alaska
Nevada
Utah
q
q
q
q
q
q
q
q
qq
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
qq
−2 −1 0 1 2−2−101234
Normal Q−Q
Alaska
Washington DCNevada
41

250 300 350 400 450 500 550 600
0.00.51.01.52.0
Fitted values
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q q
Scale−Location
Alaska
Washington DCNevada
0 10 20 30 40 500.00.51.01.52.02.5
Obs. number
Cook'sdistance
Cook's distance
Alaska
Washington DC
Nevada
42

0.00 0.05 0.10 0.15 0.20
−2−101234
Leverage
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
Cook's distance
1
0.5
0.5
1
Residuals vs Leverage
Alaska
Washington DCNevada
0.00.51.01.52.0
Leverage
Cook'sdistance
0 0.05 0.1 0.15 0.2
q
q
q q
qq q
qq qqq qqqq qq qqq qq qqqq
q
q q
q
q qqq qqqq qq qq
q
qq q
q
q q
0
1
2
345
Cook's distance vs Leverage
Alaska
Washington DC
Nevada
43

Analyse des résidus : quelles alternatives
Les hypothèses fondamentales sur les résidus sont
• E(ε|X) = 0
• Var(ε|X) = σ2
I
et éventuellement
• ε|X ∼ N(0, σ2
I)
Un “mauvais modèle est un modèle pour lequel une de ces hypothèses n’est pas
valide
44

Analyse graphique des r´esidus, suite
Graphique normal des r´esidus εi = Yi − Xiβ versus Xi
OOO OOO OOO OOO OOO OOO OOO OOO OOO OOO OOO OOO OOO
OOO OOO
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
qqq
qq
q
Variable exogène (X)
−4−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
−2 −1 0 1 2
−2−1012
SampleQuantiles
45

Graphique des r´esidus εi = Yi − Xiβ versus Xi
Pr´esence de deux points atypiques, OOO OOO OOO OOO OOO OOO OOO
OOO OOO OOO
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
−4−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
−2 −1 0 1 2
−4−2024
SampleQuantiles
46

Distribution asymétrique des résidus, présence d’hétérogénéité (e.g.
hommes/femmes)
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
qq
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
−4−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−3−2−10123
SampleQuantiles
47

Pr´esence d’une tendance, i.e. relation nonlin´eaire pour X OOO OOO OOO OOO
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−4−2024
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−4−202
SampleQuantiles
48

Rupture de la série, i.e. présence d’un seuil (relation non-linéaire en X, distinguer
Xi < u et Xi > u
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
−4−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−3−2−1012
SampleQuantiles
49

r´esidus autosc´edastiques, la variance croˆıt avec X, V ar(εi) = σ2
Xi ou
V ar(εi) = σ2
X2
i , ...etc.
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
−4−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−4−202
SampleQuantiles
50

résidus autocorrélés, ce qui arrive souvent avec des séries temporelles OOO OOO
OOO OOO OOO
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
qq
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
−4−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−3−2−10123
SampleQuantiles
51

Exemple : tester l’hypothèse d’homoscédasticité
Tester l’hypothèse d’homoscédasticité est délicat : il faut spécifier une alternative.
Par exemple, au lieu d’avoir Var(ε|X) = σ2
on pourrait avoir
Var(ε|X) = σ2
h(α0 + α1X2
) Le test de Breusch-Pagan revient à tester
H0 : α1 = 0 (homoscédasticité) contre H0 : α1 = 0 (hétéroscédasticité).
L’idée est d’utiliser un test du score (appelé aussi test du multiplicateur de
Lagrange), dans un modèle
Y = β0 + β1X + ε où ε2
= γ0 + γ1X + η.
La procédure générale est simple,
• faire la régression Y = β0 + β1X1 + · · · + βkXk + ε
• sur ε, faire la régression ε2
= γ0 + γ1X1 + · · · + γkXk + η
• tester si γ1 = · · · = γk = 0, i.e. test de significativité globale de Fisher,
i.e. T = nR2
qui suit (sous H0) une loi χ2
(k)
> library(lmtest)
> bptest(REG)
52

studentized Breusch-Pagan test
data: model1
BP = 10.2903, df = 8, p-value = 0.2452
On peut le faire à la main pour vérifier
> E=residuals(REG)
> REG2=lm(E^2~cars$speed)
> summary(REG2)$r.squared*50
[1] 3.21488
> 1-pchisq(summary(REG2)$r.squared*50,1)
[1] 0.07297155
> summary(REG2)
Call:
lm(formula = E^2 ~ cars$speed)
Residuals:
Min 1Q Median 3Q Max
-388.45 -175.07 -96.03 22.56 1607.53
53

Coefficients:
(Intercept) -61.05 167.56 -0.364 0.7172
cars$speed 18.71 10.30 1.816 0.0756 .
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Multiple R-squared: 0.0643, Adjusted R-squared: 0.0448
F-statistic: 3.298 on 1 and 48 DF, p-value: 0.0756
Remarque On reviendra par la suite sur les modèle permettant de prendre en
compte de l’hétéroscédasticité.
54

Tester l’indépendance des résidus
Tester l’indépendance des résidus nécessite d’expliciter la forme de l’alternative.
Par exemple, au lieu d’avoir cor(εi, εi+1) = 0 on pourrait avoir cor(εi, εi+1) = r
(= 0).
La statistique de Durbin-Watson est basée sur
DW =
(εi − εi−1)2
(εi)2
qui est dans le package lmtest, via la fonction dwtest.
> library(lmtest)
> REG=lm(dist~speed,data=cars)
> dwtest(REG)
Durbin-Watson test
data: reg
DW = 1.6762, p-value = 0.09522
alternative hypothesis: true autocorrelation is greater than 0
55

Les résidus sont ici ordonnés comme dans la base. On pourrait suspecter un lien
avec les X. Dans ce cas, on peut faire une régression sur la base réordonnée.
> indice=rank(cars$speed,ties.method="random")
> reg=lm(dist~speed,data=cars[indice,])
> dwtest(reg)
Durbin-Watson test
data: reg
DW = 1.7993, p-value = 0.1935
alternative hypothesis: true autocorrelation is greater than 0
On va accepter ici l’hypothèse d’absence d’autocorrélation des résidus.
56

Tester l’indépendance spatiale des résidus
Pour des données spatiales, on devra se contenter de regarder si, visuellement,
l’indépendance spatiale est une hypothèse qui semble valide,
> US=read.table("http://freakonometrics.free.fr/US.txt",
+ header=TRUE,sep=";")
> abreviation=read.table(
+ "http://freakonometrics.blog.free.fr/public/data/etatus.csv",
> header=TRUE,sep=",")
> US$USPS=rownames(US)
> US=merge(US,abreviation)
> US$nom=tolower(US$NOM)
> library(maps)
> VL0=strsplit(map("state")$names,":")
> VL=VL0[[1]]
> for(i in 2:length(VL0)){VL=c(VL,VL0[[i]][1])}
> ETAT=match(VL,US$nom)
57

On peut faire une fonction mettant de la couleur appropri´ee dans chacune des
´etats,
> library(RColorBrewer)
> carte=function(V=US$Murder,titre=
+ "Taux d’homicides aux Etats-Unis"){
+ variable=as.numeric(as.character(cut(V,
+ quantile(V,seq(0,1,by=1/6)),labels=1:6)))
+ niveau=variable[ETAT]
+ couleur=rev(brewer.pal(6, "RdBu"))
+ noml=levels(cut(V,quantile(V,seq(0,1,by=1/6))))
+ map("state", fill = TRUE, col=couleur[niveau]);
+ legend(-78,34,legend=noml,fill=couleur,
+ cex=1,bty="n");
+ title(titre)}
58

>
>
> carte(US$Frost, titre="Nombre de jours de gel par an")
(0,45]
(45,83]
(83,114]
(114,127]
(127,159]
(159,188]
Nombre de jours de gel par an
59

> reg=lm(Murder~.-NOM-USPS-nom,data=US)
> regs=step(reg)
> carte(residuals(regs), titre="Rsidus de la rgression")
(−3.3,−1.75]
(−1.75,−0.741]
(−0.741,−0.112]
(−0.112,0.744]
(0.744,1.67]
(1.67,3.47]
Résidus de la régression
60

Choix de modèle, AIC et SIC/BIC
Le critère d’Akaike, noté souvent AIC
AIC = 2k − 2 log(L) = 2k + n log 2π
1
n
n
i=1
ε2
i + 1
dans le cas Gaussien.
Le critère de Schwarz, noté SIC (Schwarz Information Criterion), ou critère
Bayésien, noté BIC
BIC = −2 log(L) + k ln(n) = n ln
n
i=1
ε2
i + k ln(n).
> AIC(reg)
[1] 419.1569
> logLik(reg)
’log Lik.’ -206.5784 (df=3)
61

Choix de modèle : sélection des variables
Parfois on dispose de beaucoup de variables explicatives, et on ne sait quel
modèle choisir.
dodge=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/dodge.csv",
header=TRUE,sep=",")
La variable FIRE correspond au nombre d’incendies (/1000 ménages) dans le
quartier i = 1, · · · , 47 de Chicago, en 1975. X1 est la proportion d’habitations
construites avant 1940, X2 le nombre de vols commis, et X3 le revenu médian du
quartier.
62

Les 8 mod`eles possibles sont les suivants
(0) Y = β0 + ε
(1) Y = β0 + β1X1ε
(2) Y = β0 + β2X2ε
(3) Y = β0 + β3X3ε
(12) Y = β0 + β1X1 + β2X2ε
(13) Y = β0 + β1X1 + β3X3ε
(23) Y = β0 + β2X2 + β3X3ε
(123) Y = β0 + β1X1 + β2X2 + β3X3ε
63

modèle R2
R
2
log L AIC degrés liberté
(0) 0.0000 0.0000 -166.4638 336.9277 1
(1) 0.1423920 0.1233340 -162.8540537 331.7081074 2
(2) 0.1355551 0.1163452 -163.0406536 332.0813071 2
(3) 0.2522118 0.2355942 -159.6339128 325.2678255 2
(12) 0.2276727 0.1925669 -160.3926938 328.7853875 3
(13) 0.2703887 0.2372245 -159.0556280 326.1112560 3
(23) 0.4414889 0.4161020 -152.7755479 313.5510959 3
(123) 0.4416723 0.4027192 -152.7678305 315.5356609 4
Dans ce cas, le meilleur modèle est le modèle Y = β0 + β2X2 + β3X3 + ε, quel
que soit le critère de choix.
64

1.0 1.5 2.0 2.5 3.0 3.5 4.0
0.00.10.20.30.4
degrés de liberté
(0)
(1)(2)
(3)
(12)
(13)
(23) (123)
(0)
(1)(2)
(3)
(12)
(13)
(23)
(123)
1.0 1.5 2.0 2.5 3.0 3.5 4.0
315320325330335
degrés de liberté
(0)
(1)(2)
(3)
(12)
(13)
(23)
(123)
Une sélection automatique basée sur un minimisation du AIC peut être faite, soit
backward à partir du modèle complet, soit forward à partir du modèle le plus
simple.
65

> step(lm(Fire~.,data=D),direction = "backward")
Start: AIC=180.16
Fire ~ X_1 + X_2 + X_3
Df Sum of Sq RSS AIC
- X_1 1 0.60 1832.36 178.17
<none> 1831.75 180.16
- X_2 1 561.94 2393.70 190.73
- X_3 1 702.09 2533.84 193.41
Step: AIC=178.17
Fire ~ X_2 + X_3
Df Sum of Sq RSS AIC
<none> 1832.36 178.17
- X_2 1 620.98 2453.33 189.89
- X_3 1 1003.70 2836.06 196.70
Call:
66

lm(formula = Fire ~ X_2 + X_3, data = D)
Coefficients:
(Intercept) X_2 X_3
21.4965 0.2213 -1.5248
67

Exemple d’application : cigarettes et espérance de vie
Étudions ici le lien entre l’espérance de vie et la consommation de cigarette (par
tête)
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
0 1000 2000 3000 4000
3040506070
Consommation de cigarettes
Espérancedevieàlanaissance
68

> summary(lm(Y~X))
Coefficients:
(Intercept) 4.799e+01 1.371e+00 34.995 < 2e-16 ***
X 8.528e-03 9.007e-04 9.468 1.33e-15 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
(86 observations deleted due to missingness)
F-statistic: 89.64 on 1 and 101 DF, p-value: 1.333e-15
Interprétation (rapide et sans doute falacieuse) : β1 ∼ 0.00852, i.e. en fumant une
cigarette de plus par an, on augmente l’espérance de vie de 0.00852 années.
Aussi, fumer 1 cigarette de plus (ou de moins) par jour augmente (ou diminue)
l’espérance de vie de 3.11 années.
69

Étudions ici le lien entre l’espérance de vie et la consommation de cigarette (par
tête)
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
0 1000 2000 3000 4000
3040506070
Consommation de cigarettes
Espérancedevieàlanaissance
70

L’interprétation est bien entendu fausse et vient du type de données utiliséées
> head(dl,10)
X Country Continent LE CigCon
1 1 Afghanistan Asia 35.5 98
2 2 Albania Europe 61.4 NA
3 3 Algeria Africa 60.6 1021
4 4 Andorra Europe 72.2 NA
5 5 Angola Africa 33.4 571
6 6 Antigua and Barbuda South America 61.9 NA
7 7 Argentina South America 65.3 1495
8 8 Armenia Europe 61.0 1095
9 9 Australia Australia 72.6 1907
10 10 Austria Europe 71.4 2073
Les consommations les plus élevées de cigarettes sont observées dans les pays les
plus riches, où l’espérance de vie est la plus grande.
Remarque Une régression linéaire est l’ananlyse d’une corrélation et pas d’une
relation de causalité.
71

Tester la normalité
Tous les résultats ont étés obtenus sous l’hypothèse de normalité des résidus.
−20 0 20 40
0.00.20.40.60.81.0
Regression residuals
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
Regression residuals
−20 0 20 40
0.0000.0050.0100.0150.0200.0250.030
72

Le test de Kolmogorov Smirnov permet de tester l’ajustement d’un loi normale
N(0, 152
) pour les r´esidus,
> ks.test(reg$residuals, "pnorm", 0,15)
One-sample Kolmogorov-Smirnov test
data: E
D = 0.128, p-value = 0.3859
alternative hypothesis: two-sided
Warning message:
In ks.test(E, "pnorm", 0, 15) : cannot compute correct p-values with ties
73

Rappelons que le test de Kolmogorov Smirnov, de l’hypothèse H0 : F = F
(contre l’hypothèse alternative H0 : F = F ) est basé sur la statistique
D = sup
x∈R
F (x) − Fn(x) ,
Le théorème de Glivenko-Cantelli garantissant que
sup
x∈R
F (x) − Fn(x)
p.s.
−→ 0
lorsque n → ∞, sous H0, i.e. si F est effectivement la vraie loie.
Mais formellement ce n’est pas un test de normalité : on teste ici
H0 : F = N(µ , σ2
) et non pas H0 : F = N( , ).
74

> shapiro.test(reg$residuals)
Shapiro-Wilk normality test
W = 0.9451, p-value = 0.02153
> ad.test(reg$residuals)
Anderson-Darling normality test
A = 0.7941, p-value = 0.0369
Ces tests sont techniques, et sont détaillés dans les livres des statistiques (cf blog).
Le test de Cramér-von-Mises repose sur
nW2
= n
∞
−∞
[F(x) − F (x)]2
dF (x)
75

soit, en pratique
T = nW2
=
1
12n
+
n
i=1
2i − 1
2n
− F (xi:n)
2
,
où F est la loi théorique que l’on cherche à tester, i.e. Φ.
> cvm.test(reg$residuals)
Cramer-von Mises normality test
W = 0.1257, p-value = 0.0483
> pearson.test(reg$residuals)
Pearson chi-square normality test
P = 8.4, p-value = 0.2986
Le test de Jarque-Bera repose sur
JB =
n
6
S2
+
(K − 3)2
4
,
76

où n est le nombre de degrés de libertés, S est la skewness empirique, et K la
kurtosis empirique,
S =
µ3
σ3
=
µ3
(σ2)
3/2
=
1
n
n
i=1 (xi − ¯x)
3
1
n
n
i=1 (xi − ¯x)
2
3/2
K =
µ4
σ4
=
µ4
(σ2)
2 =
1
n
n
i=1 (xi − ¯x)
4
1
n
n
i=1 (xi − ¯x)
2
2
Sous H0 (normalité), JB ∼ χ2
(2).
> jarque.bera.test(reg$residuals)
Jarque Bera Test
X-squared = 8.1888, df = 2, p-value = 0.01667
77

Tester la présence d’une rupture, le test de Chow
Le test de Chow permet de tester une rupture en spécifiant explicitement la
rupture. Le test de Chow est simplement un test de Ficher, où on compare des
sous-modèles à un modèle global. On suppose ici
β =



β1 pour i = 1, · · · , i0
β2 pour i = i0 + 1, · · · , n
et on teste



H0 : β1 = β2
H1 : β1 = β2
i0 est ici un point entre k et n − k (il faut garder suffisement d’observations pour
mener le test). Chow (1960) suggère un test de la forme
Fi0
=
η η − ε ε
ε ε/(n − 2k)
où
εi = Yi − Xiβ pour i = k, · · · , n − k
ηi =



Yi − Xiβ1 pour i = k, · · · , i0
Yi − Xiβ2 pour i = i0 + 1, · · · , n − k
78

La fonction Fstats représente ainsi Fi0
pour toutes les valeurs entre k et n − k
(par défaut, 30% des observations sont retirées, 15% à gauche 15% à droite).
> reg1=lm(formula = dist ~ speed, data = cars[1:26,])
> S1=sum(reg1$residuals^2); DL1=reg1$df.residual
> ((S0-(S1+S2))/(DL0-(DL1+DL2)-1))/(S0/(DL0-1))
[1] 2.601249
79

Fstats(dist ~ speed,data=cars,from=7/50)
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Vitesse du véhicule
Distancedefeinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
Indice
Fstatistics
0 10 20 30 40 50
024681012
q
80

Fstats(dist ~ speed,data=cars,from=2/50)
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Vitesse du véhicule
Distancedefeinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
Indice
Fstatistics
0 10 20 30 40 50
024681012
q
81

Si l’on ne sait pas à quelle date la rupture a eu lieu, des outils de type CUSUM
peuvent être utilisés (cf Ploberger & Krämer (1992)). Pour t ∈ [0, 1], on pose
Wt =
1
σ
√
n
nt
i=1
εi.
Dans ce test, si α est le niveau de confiance, les bornes généralement considérées
sont ±α. En fait, les bornes théoriques sont plutôt de la forme ±α t(1 − t).
Sous R, il suffit de spécifier type=’’OLS-CUSUM’’ dans la fonction efp.
cusum <- efp(dist ~ speed, type = "OLS-CUSUM",data=cars)
plot(cusum,ylim=c(-2,2))
plot(cusum, alpha = 0.05, alt.boundary = TRUE,ylim=c(-2,2))
82

OLS−based CUSUM test
Time
Empiricalfluctuationprocess
0.0 0.2 0.4 0.6 0.8 1.0
−2−1012 OLS−based CUSUM test with alternative boundaries
Time
Empiricalfluctuationprocess
0.0 0.2 0.4 0.6 0.8 1.0
−2−1012
Les points sont ici triés par vitesse. Aussi, une rupture détectée en t = 92%
signifie qu’il y a une rupture dans la modélation lináire de Y par X à partir de la
tn = 46ème observation.
83

Intervalles de confiance pour Y et Y
Supposons que l’on dispose d’une nouvelle observation X0 et que l’on souhaite
prédire la valeur Y0 assoicée.
L’incertitude sur la prédiction Y0 vient de l’erreur d’estimation sur les paramètres
β.
L’incertitude sur la réalisation Y0 vient de l’erreur d’estimation sur les
paramètres β et de l’erreur associée au modèle linéaire, i.e. ε0.
Dans le cas de la régression simple, Y0 = Y0 + ε0 = β0 + β1X0 + ε0. Aussi,
• Var(Y0) = Var(β0) + 2X0cov(β0, β1) + X2
0 Var(β1)
• Var(Y0) = V ar(Y0) + Var(ε0), si l’on suppose que le bruit est la partie non
expliquée. Aussi Var(Y0) = Var(β0) + 2X0cov(β0, β1) + X2
0 Var(β1) + σ2
84

Intervalle de confiance pour Y
L’incertitude sur la prédiction Yj vient de l’erreur d’estimation sur les paramètres
β.
Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de
confiance pour Y0 = (X X)−1
X Y0 est
Y0 ± tn−k(1 − α/2)σ x0(X X)−1X0
où tn−k(1 − α/2) est le quantile d’ordre (1 − α/2) de la loi de Student à n − k
degrés de liberté.
85

Intervalle de confiance pour Y
L’incertitude sur la réalisation Yj vient de l’erreur d’estimation sur les
paramètres β et de l’erreur associée au modèle linéaire, i.e. εi.
Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de
confiance pour Y0 = Y0 + ε0 est
Y0 ± tn−k(1 − α/2)σ 1+x0(X X)−1X0
En fait, sous R, l’intervalle de confiance pour Y n’inclue pas l’erreur associée à
l’erreur d’estimation, aussi, dans ce cas, si l’on dispose d’une nouvelle observation
X0, l’intervalle de confiance pour Y0 = Y0 + ε0 est
Y0 ± tn−k(1 − α/2)σ .
86

pp <- predict(lm(y~x,data=D), new=data.frame(x=seq(0,30)), interval=’prediction’)
pc <- predict(lm(y~x,data=D), new=data.frame(x=seq(0,30)), interval=’confidence’)
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
5 10 15 20 25
020406080100120
car speed
distance
Confidence and prediction bands
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
5 10 15 20 25
020406080100120
car speed
distance
Confidence and prediction bands
87

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
0 20 40 60 80
050100150200250
88

Modèle linéaire, ou multiplicatif ?
Considérons le taux de mortalité infantile comme une fonction du PIB par tête.
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
qq
q
qq qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
qq
q
q
q
q
q
q
q
q
q
qq
q q q q
q
q
q qq
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050100150
PIB par tête
Tauxdemortalitéinfantile
Afghanistan
Albania
Algeria
American.Samoa
Angola
Argentina
Armenia
Austria
Azerbaijan
Bahamas
Bangladesh
Belarus
Belgium
Belize
Benin
BhutanBolivia
Bosnia.and.Herzegovina
Brunei.Darussalam
Bulgaria
Burkina.Faso
Cambodia
Canada
Cape.Verde
Central.African.Republic
Chad
Channel.Islands Chile
China
Comoros
Congo
Cook.Islands
Côte.dIvoire
Cuba CyprusCzech.Republic
Korea
Democratic.Republic.of.the.Congo
Denmark
Djibouti
Egypt
El.Salvador
Equatorial.Guinea
Estonia
Fiji
FinlandFrance
French.Guiana
French.Polynesia
Gabon
Gambia
Ghana
Gibraltar
Greece
Grenada
Guam
Guatemala
Guinea
Guinea−Bissau
Guyana
Haiti
Honduras
India
Indonesia
Iran
IrelandIsrael Italy
Jamaica
Japan
Jordan
Kazakhstan
Kenya
Kyrgyzstan
Laos
Latvia
Lesotho
Libyan.Arab.Jamahiriya
Liechtenstein
Lithuania
Luxembourg
Madagascar
Malawi
Malaysia
Malta
Marshall.Islands
Martinique
Mauritius
Micronesia.(Federated.States.of)
Mongolia
Montenegro
Morocco
Mozambique
Myanmar
Namibia
Netherlands
Netherlands.Antilles
New.Caledonia
Nicaragua
Nigeria
Niue
Norway
Occupied.Palestinian.Territory
Oman
Pakistan
Papua.New.Guinea
Paraguay
Peru
Poland Puerto.Rico Qatar
Republic.of.Korea
Republic.of.Moldova
RéunionRomaniaRussian.Federation
Saint.Vincent.and.the.GrenadinesSamoa
San.Marino
Saudi.Arabia
Serbia
Sierra.Leone
Singapore
Slovakia Slovenia
Solomon.Islands
Somalia
Sri.Lanka
Sudan
Suriname
Sweden
Syrian.Arab.Republic
Tajikistan
Thailand
Macedonia
Timor−Leste
Togo
Tunisia
Turkey
Turkmenistan
Tuvalu
Ukraine
United.Arab.Emirates
United.Kingdom
United.Republic.of.Tanzania
United.States.of.America
United.States.Virgin.Islands
Uruguay
Venezuela
Viet.Nam
YemenZimbabwe
Visiblement le modèle linéaire ne convient pas.
89

Transformation a priori : transformation logarithmique,
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
1e+02 5e+02 1e+03 5e+03 1e+04 5e+04 1e+05
25102050100
PIB par tête (log)
Tauxdemortalité(log)
Afghanistan
Albania
Algeria
American.Samoa
Angola
Argentina
Armenia
Aruba
AustraliaAustria
Azerbaijan
Bahamas
Bahrain
Bangladesh
Barbados
Belarus
Belgium
Belize
Benin
BhutanBolivia
Botswana
Brazil
Brunei.Darussalam
Bulgaria
Burkina.FasoBurundi
Cambodia
Cameroon
Canada
Cape.Verde
Chad
Channel.Islands
Chile
China
Hong.Kong
Colombia
Comoros
Congo
Cook.Islands
Costa.Rica
Côte.dIvoire
Croatia
Cuba
Cyprus
Czech.Republic
Korea
Denmark
Djibouti
Dominican.Republic
Ecuador
Egypt
El.Salvador
Equatorial.Guinea
Eritrea
Estonia
Ethiopia
Fiji
FinlandFrance
French.Guiana
French.Polynesia
Gabon
Gambia
Georgia
Germany
Ghana
Gibraltar
Greece
Greenland
Grenada
Guadeloupe
Guam
Guatemala
Guinea
Guinea−Bissau
Guyana
Haiti
Honduras
Hungary
Iceland
India
Indonesia
Iran
Iraq
Ireland
Isle.of.Man
Israel Italy
Jamaica
Japan
Jordan
Kazakhstan
Kenya
Kiribati
Kuwait
KyrgyzstanLaos
Latvia
Lebanon
Lesotho
Liberia
Liechtenstein
Lithuania
Luxembourg
Madagascar
Malawi
Malaysia
Maldives
Mali
Malta
Marshall.Islands
Martinique
Mauritania
Mauritius
Mexico
Mongolia
Montenegro
Morocco
Mozambique
Myanmar
Namibia
Nepal
Netherlands
New.Caledonia
New.Zealand
Nicaragua
Niger Nigeria
Niue
Norway
Oman
Pakistan
Palau
Panama
Papua.New.Guinea
Paraguay
Peru
Philippines
Poland
Portugal
Puerto.Rico
Qatar
Republic.of.Korea
Republic.of.Moldova
Réunion
Romania
Russian.Federation
Rwanda
Saint.Lucia
San.Marino
Sao.Tome.and.Principe
Saudi.Arabia
Senegal
Serbia
Sierra.Leone
Singapore
Slovakia
Slovenia
Solomon.Islands
Somalia
South.Africa
Spain
Sri.Lanka
Sudan
Suriname
Swaziland
Sweden
Switzerland
Tajikistan
Thailand
Macedonia
Timor−Leste
Togo
Tonga
Trinidad.and.Tobago
Tunisia
Turkey
Turkmenistan
Turks.and.Caicos.Islands
Tuvalu
Uganda
Ukraine
United.Kingdom
Uruguay
Uzbekistan
Vanuatu
Venezuela
Viet.Nam
Western.Sahara
Yemen
Zambia
Zimbabwe
90

Transformation a priori : transformation logarithmique,
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
qq
q
qq qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
qq
q
q
q
q
q
q
q
q
q
qq
q q q q
q
q
q qq
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050100150
PIB par tête
Tauxdemortalité
Afghanistan
Albania
Algeria
American.Samoa
Angola
Argentina
Armenia
Aruba
AustraliaAustria
Azerbaijan
Bahamas
Bahrain
Bangladesh
BarbadosBelarus
Belgium
Belize
Benin
BhutanBolivia
Botswana
Brazil
Brunei.Darussalam
Bulgaria
Burkina.Faso
Burundi
Cambodia
Cameroon
Canada
Cape.Verde
Chad
Channel.Islands Chile
China
Hong.Kong
Colombia
Comoros
Congo
Cook.IslandsCosta.Rica
Côte.dIvoire
CroatiaCuba CyprusCzech.Republic
Korea
Denmark
Djibouti
Dominican.Republic
Ecuador
Egypt
El.Salvador
Equatorial.Guinea
Eritrea
Estonia
Ethiopia
Fiji
FinlandFrance
French.Guiana
French.Polynesia
Gabon
Gambia
Georgia
Germany
Ghana
Gibraltar
GreeceGreenland
Grenada
GuadeloupeGuam
Guatemala
Guinea
Guinea−Bissau
Guyana
Haiti
Honduras
Hungary
Iceland
India
Indonesia
Iran
Iraq
Ireland
Isle.of.Man
Israel Italy
Jamaica
Japan
Jordan
Kazakhstan
Kenya
Kiribati
Kuwait
Kyrgyzstan
Laos
Latvia
Lebanon
Lesotho
Liberia
Liechtenstein
Lithuania
Luxembourg
Madagascar
Malawi
Malaysia
Maldives
Mali
Malta
Marshall.Islands
Martinique
Mauritania
Mauritius
Mexico
Mongolia
Montenegro
Morocco
Mozambique
Myanmar
Namibia
Nepal
Netherlands
New.CaledoniaNew.Zealand
Nicaragua
NigerNigeria
Niue
Norway
Oman
Pakistan
Palau
Panama
Papua.New.Guinea
Paraguay
Peru
Philippines
Poland PortugalPuerto.Rico Qatar
Republic.of.Korea
Republic.of.Moldova
RéunionRomaniaRussian.Federation
Rwanda
Saint.Lucia
San.Marino
Sao.Tome.and.Principe
Saudi.Arabia
Senegal
Serbia
Sierra.Leone
Singapore
Slovakia Slovenia
Solomon.Islands
Somalia
South.Africa
Spain
Sri.Lanka
Sudan
Suriname
Swaziland
Sweden Switzerland
Tajikistan
Thailand
Macedonia
Timor−Leste
Togo
Tonga
Trinidad.and.Tobago
Tunisia
Turkey
Turkmenistan
Turks.and.Caicos.Islands
Tuvalu
Uganda
Ukraine
United.Kingdom
Uruguay
Uzbekistan
Vanuatu
Venezuela
Viet.Nam
Western.Sahara
Yemen
Zambia
Zimbabwe
91

Modèle sur Y ou log Y
La transformation paramétrique la plus classique en économétrie est la
transformée de Box-Cox,
f(x, λ) =



x−λ
− 1
λ
pour λ = 0
log(x) pour λ = 0
92

0 1 2 3 4
−4−3−2−1012
Box−Cox transform
Cette transformation ne marche toutefois que pour les valeurs positives. Une
variante (propos´ee dans le mˆeme papier) est
f(x, λ, µ) =



[x + µ]−λ
− 1
λ
pour λ = 0
log([x + µ]) pour λ = 0
93

En pratique, µ n’est pas considéré comme un paramètre inconnu.
L’idée est de transformer les données de telle sorte que f(Y, λ ) soit
approximativement normal pour un λ bien choisi.
Supposons que Y suive une loi exponentielle. La transformation de Box-Cox
donne alors une loi de Weibull...
94

L’objectif initial de l’analyse de Box-Cox était d’estimer un coefficient λ optimal
• la première idée a été d’utiliser la méthode du maximum de vraisemblance.
Grce aux propriétés asymptotiques, on peut également obtenir un intervalle de
confiance approché.
• la seconde idée (proposée dès 1964) a été d’utiliser la méthode bayésienne.
Dans l’approche par maximum de vraisemblance, on suppose que
Y λ
= f(Y, λ) ∼ N(Xβ, σ2
I).
La vraisemblance du modèle s’écrit alors
L(λ, β, σ2
|Y, X) = (2πσ2
)−n/2
exp
−(Y λ
− Xβ) (Y λ
− Xβ)
2σ2
J(λ, Y )
où J(λ, Y ) désigne le Jacobien de la transformationn Y → Y λ
= f(Y, λ), i.e.
J(λ, Y ) =
n
i=1
Y λ−1
i .
95

Notons que - conditionnellement à λ on retrouve le modèle linéaire gaussien
classique, et donc les estimations du maximum de vraisemblance pour le couple
(β, σ2
) sont
˜βλ = (X X)−1
X Y λ
,
˜σ2
λ =
1
n
Y λ
[I − X(X X)−1
X ]Y λ
,
La fonction
V P : λ → L(λ, ˜βλ, ˜σ2
λ|Y, X)
est appelée vraisemblance profilée (profile likelihood). Notons que
log V P(λ) = constant −
n
2
log(˜σ2
λ) + [λ − 1]
n
i=1
log(Yi).
Comme nous avons pu écrire la vraisemblance, notons qu’il est possible de faire
toute sorte de tests, en particulier des tests de rapport de vraisemblance,
96

Pour test H : λ = λ0, on utilise la statistique du rapport de vraisemblance
W = 2[log V P(λ) − log V P(λ0)]
L
→ χ2
(1)
Remarque Au delà de la transformée de Box-Cox, il existe aussi la transformée
dite de Box-Tidwell, correpondant à une fonction puissance.
97

Faire une prédiction avec un modèle logarithmique
Si on retient l’idée d’un modèle linéaire sur log Y , cela ne donne pas (pour
l’instant) un modèle pour Y . D’après l’inégalité de Jensen, on va toujours sous
estimer la valeur en prenant l’exponentielle de la valeur prédite par le modèle
logarithmique.
Si Y ∼ N(µ, σ2
) avec E(Y ) = µ
alors exp(Y ) ∼ LN(µ, σ2
) mais E(exp(Y )) = exp(µ) car
E(exp(Y )) = exp µ+
1
2
σ2
.
> reg1=lm(dist~speed,data=cars)
> reg2=lm(log(dist)~speed,data=cars)
> newcars=data.frame(speed=seq(1,26,by=.1))
98

> p1=predict(reg1,newdata=newcars)
> p2=exp(predict(reg2,newdata=newcars))
>
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
speed
dist
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
speed
dist
99

> p1=predict(reg1,newdata=newcars)
> p2b=exp(predict(reg2,newdata=newcars)
+ .5*summary(reg2)$sigma^2)
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
speed
dist
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
speed
dist
100

La régression pondérée
L’idée des moindres carrés pondérés (weighted least squares) consiste à chercher à
minimiser
n
i=1
ωi[Yi − (β0 + β1Xi,1 + · · · + βkXi,k)]2
Notons Ω la matrice diagonale Ω = [Ωi,j] avec Ωi,j = ωiδi=j. Dans ce cas, la
condition du premier ordre (équations normales) s’écrit
X ΩX β = X ΩY .
Si on pose W = Ω1/2
i.e. Ω = W W , alors
X W W X β = X W W Y .
i.e. si ˜X = W X et ˜Y = W Y
˜X ˜X β = ˜X ˜Y ,
qui est la condition du premier ordre pour un modèle linéaire standard.
101

Application : prise en compte de l’hétéroscédasticité
Si l’on suppose que V ar(εi) = γX2
i,j où γ > 0 pour un j = 1, · · · , k, alors on
cherche à minimiser
n
i=1
1
X2
i,j
[Yi − (β0 + β1Xi,1 + · · · + βkXi,k)]2
.
La méthode naturelle pour estimer les coefficients consiste à considérer des
moindres carrés ordinaires sur la régression
Yi
Xi,j
= α0
1
Xi,j
+ α1
Xi,1
Xi,j
+ · · · + αk
Xi,k
Xi,j
+
εi
Xi,j
.
Notons que pour j = i, 0, αj est un estimateur de βj, αj est un estimateur de β0,
et α0 est un estimateur de βj.
102

Application : régression locale, et lissage
Rappelons qu’un espérance conditionnelle est l’espérance associée à la loi
conditionnelle, i.e.
ϕ(x) = E(Y |X = x) = yfY |X=x(u|x)du = y
fY,X(u, x)
fX(x)
du =
yfY,X(u, x)du
fX(x)
Tukey (1961) a proposé de transposer l’histogramme au à l’approximation de
l’espérance conditionelle.
Soit (Bj)j=1,·,m une partition du support de X,
ϕ(x) =
n
i=1
Yi1(Xi ∈ Bj)
n
i=1
1(Xi ∈ Bj)
pour tout x ∈ Bj.
On parle de régressogramme, proposé par Tukey (1961)
103

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
vitesse du véhicule
distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120 vitesse du véhicule
distancedefreinage
104

De l’histogramme au regressogramme
Naturellement, on peut considérer un régressogramme glissant,
ϕ(x) =
n
i=1
Yi1(Xi ∈ [xh; x + h])
n
i=1
1(Xi ∈ [xh; x + h])
pour tout x,
où h > 0.
105

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
distancedefreinage
106

Notons qu’on peut également obtenir un intervalle de confiance, soit en utilisant
un intervalle de confiance gaussien (avec l’écart-type estimé sur le voisinage, -) ou
en utilisant les quantiles empiriques (-).
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
distancedefreinage
107

Nous venons de prendre la moyenne sur les voisins de x distants d’au plus ±h.
Une autre idée peut être de chercher les k plus proches voisins
ϕ(x) =
n
i=1
Yi1(Xi ∈ Vx)
n
i=1
1(Xi ∈ Vx)
pour tout x,
où Vx contient les k plus proches voisins de x.
108

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
distancedefreinage
109

Lai (1977) a montr´e la convergence de cet estimateur
Proposition 1. Si k → ∞, k/n → 0 alors
E(ϕk(x)) ∼ ϕ(x) +
ϕ (x)
8
k2
n2
et
V ar(ϕk(x)) ∼
2σ2
(x)
k
.
Aussi, en faisant un compromis entre biais et variance conduit `a retenir k ≈ n4/5
.
Sur notre exemple, n = 50 et k = 22.
110

La régression locale
L’idée est ici simplement de considérer le voisinage en terme de nombre de
voisines.
> loess(dist ~ speed, cars,span=0.75,degree=2)
> predict(REG, data.frame(speed = seq(5, 25, 0.25)), se = TRUE)
Le paramètre span correpond au pourcentage de points gardés pour faire
l’ajustement local, et degree est le typoe de régression polynomiale.
111

La régression locale, méthode lowess
Ici ajustement local au voisinage de x = 15, avec 25% de points pour définir le
voisinage (on garde 25% des points les plus proches, en x), et un ajustement
lináire.
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Vitesse du véhciule
Distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Distancedefreinage
112

lin´aire.
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Distancedefreinage
113

lin´aire.
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Distancedefreinage
114

quadratique.
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Distancedefreinage
115

quadratique.
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Distancedefreinage
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
5 10 15 20 25
020406080100120
Distancedefreinage
116

Du linéaire au nonlinéaire, une vision gén´rale
Dans le cas linéaire, nous avions noté que
Y = Y − Xβ = X(X X)−1
X
H
Y
où H peut être interprétée comme une matrice de lissage. Notons que
Yj =
n
i=1
[Xj(X X)−1
X ]iYi =
n
i=1
[H(Xj)]iYi
où H(x) = x (X X)−1
X .
Aussi, étant donnée une nouvelle observation x = (x1, · · · , xk),
E(Y |X = x) =
n
i=1
[H(x)]iYi = Y (x).
117

Un estimateur sans biais de σ2
= V ar(εi) est alors simplement
σ2
=
1
n − k
n
i=1
(Yi − Yi)2
.
On en déduit alors simplement un intervalle de confiance pour Y sachant X = x,
de la forme
Y (x) ± zσ2
H(x) 2
, où H(x) 2
=
n
i=1
(H(x)i)2
Definition 2. Un prédicteur Y (x) sera dit dit linéaire s’il pour tout x, il existe
un vecteur S(x) = (S(x)1, · · · , S(x)n) tel que
Y (x) =
n
i=1
S(x)iYi
Definition 3. Si [Y (X)i] désine le vecteur Y1, · · · , Yn. Il est alors possible
d’écrire [Y (X)i] = SY, où S est une matrice n × n.
Dans le cas du modèle linéaire S = H.
118

Examples de matrices de lissage S
Consid´erons le cas d’un moyenne glissante, i.e. on fait une moyenne locale sur les
points distants (au plus d’une distance h = 1).
Sur les 9 observations suivantes,
Xi 1 2 3 4 5 6 7 8 9
Yi 5 3 1 7 6 5 2 1 6
Alors
Y (x) =
n
i=1 Yi × 1(|Xi − x| ≤ 1)
n
i=1 1(|Xi − x| ≤ 1)
,
119

et
Sh=1 =















1/2 1/2 0 0 0 0 0 0 0
1/3 1/3 1/3 0 0 0 0 0 0
0 1/3 1/3 1/3 0 0 0 0 0
0 0 1/3 1/3 1/3 0 0 0 0
. . . . . . . . . . . . . . . . . . . . . . . . . . .
0 0 0 0 0 0 1/3 1/3 1/3
0 0 0 0 0 0 0 1/2 1/2















120

Quelques r´ef´erences
121

Quelques r´ef´erences
122

Slides act6420-e2014-partie-2

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Slides act6420-e2014-partie-2

Similaire à Slides act6420-e2014-partie-2 (20)

Plus de Arthur Charpentier

Plus de Arthur Charpentier (20)

Slides act6420-e2014-partie-2