3. Objectif et moyens
Objectifs du cours
– Apprendre les principales techniques de statistique descriptive univari´e
e
et bivari´e.
e
ˆ
– Etre capable de mettre en oeuvre ces techniques de mani`re appropri´e
e
e
dans un contexte donn´.
e
ˆ
– Etre capable d’utiliser les commandes de base du Language R. Pouvoir
appliquer les techniques de statistiques descriptives au moyen du language
R.
– R´f´rences
ee
Dodge Y.(2003), Premiers pas en statistique, Springer.
´e
Droesbeke J.-J. (1997), El´ments de statistique, Editions de l’Universit´
e
libre de Bruxelles/Ellipses.
Moyens
– 2 heures de cours par semaine.
– 2 heures de TP par semaine, r´partis en TP th´oriques et applications en
e
e
Language R.
Le language R
– Shareware : gratuit et install´ en 10 minutes.
e
– Open source (on sait ce qui est r´ellement calcul´).
e
e
– D´velopp´ par la communaut´ des chercheurs, contient ´norm´ment de
e
e
e
e
e
fonctionnalit´s.
e
– Possibilit´ de programmer.
e
– D´savantage : pas tr`s convivial.
e
e
– Manuel :
http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
3
9. Chapitre 1
Variables, donn´es
e
statistiques, tableaux,
effectifs
1.1
1.1.1
D´finitions fondamentales
e
La science statistique
– M´thode scientifique du traitement des donn´es quantitatives.
e
e
– Etymologiquement : science de l’´tat.
e
– La statistique s’applique ` la plupart des disciplines : agronomie, biologie,
a
d´mographie, ´conomie, sociologie, linguistique, psychologie, . . .
e
e
1.1.2
Mesure et variable
– On s’int´resse ` des unit´s statistiques ou unit´s d’observation : par exemple
e
a
e
e
des individus, des entreprises, des m´nages. En sciences humaines, on
e
s’int´resse dans la plupart des cas ` un nombre fini d’unit´s.
e
a
e
– Sur ces unit´s, on mesure un caract`re ou une variable, le chiffre d’affaires
e
e
de l’entreprise, le revenu du m´nage, l’ˆge de la personne, la cat´gorie soe
a
e
cioprofessionnelle d’une personne. On suppose que la variable prend toujours une seule valeur sur chaque unit´. Les variables sont d´sign´es par
e
e
e
simplicit´ par une lettre (X, Y, Z).
e
– Les valeurs possibles de la variable, sont appel´es modalit´s.
e
e
– L’ensemble des valeurs possibles ou des modalit´s est appel´ le domaine
e
e
de la variable.
1.1.3
Typologie des variables
– Variable qualitative : La variable est dite qualitative quand les modalit´s
e
9
10. ´
10CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
sont des cat´gories.
e
– Variable qualitative nominale : La variable est dite qualitative nominale
quand les modalit´s ne peuvent pas ˆtre ordonn´es.
e
e
e
– Variable qualitative ordinale : La variable est dite qualitative ordinale
quand les modalit´s peuvent ˆtre ordonn´es. Le fait de pouvoir ou non
e
e
e
ordonner les modalit´s est parfois discutable. Par exemple : dans les
e
cat´gories socioprofessionnelles, on admet d’ordonner les modalit´s :
e
e
‘ouvriers’, ‘employ´s’, ‘cadres’. Si on ajoute les modalit´s ‘sans profese
e
sion’, ‘enseignant’, ‘artisan’, l’ordre devient beaucoup plus discutable.
– Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont num´riques.
e
– Variable quantitative discr`te : Une variable est dite discr`te, si l’ene
e
semble des valeurs possibles est d´nombrable.
e
– Variable quantitative continue : Une variable est dite continue, si l’ensemble des valeurs possibles est continu.
Remarque 1.1 Ces d´finitions sont ` relativiser, l’ˆge est th´oriquement
e
a
a
e
une variable quantitative continue, mais en pratique, l’ˆge est mesur´ dans le
a
e
meilleur des cas au jour pr`s. Toute mesure est limit´e en pr´cision !
e
e
e
Exemple 1.1 Les modalit´s de la variable sexe sont masculin (cod´ M) et
e
e
f´minin (cod´ F). Le domaine de la variable est {M, F }.
e
e
Exemple 1.2 Les modalit´s de la variable nombre d’enfants par famille sont
e
0,1,2,3,4,5,. . .C’est une variable quantitative discr`te.
e
1.1.4
S´rie statistique
e
On appelle s´rie statistique la suite des valeurs prises par une variable X sur
e
les unit´s d’observation.
e
Le nombre d’unit´s d’observation est not´ n.
e
e
Les valeurs de la variable X sont not´es
e
x1 , . . . , xi , . . . , xn .
Exemple 1.3 On s’int´resse ` la variable ‘´tat-civil’ not´e X et ` la s´rie stae
a
e
e
a
e
tistique des valeurs prises par X sur 20 personnes. La codification est
C:
M:
V:
D:
c´libataire,
e
mari´(e),
e
veuf(ve),
divorc´e.
e
11. 1.2. VARIABLE QUALITATIVE NOMINALE
11
Le domaine de la variable X est {C, M, V, D}. Consid´rons la s´rie statistique
e
e
suivante :
M M D C C M C C C M
C M V M V D C C C M
Ici, n = 20,
x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.
1.2
Variable qualitative nominale
1.2.1
Effectifs, fr´quences et tableau statistique
e
Une variable qualitative nominale a des valeurs distinctes qui ne peuvent
pas ˆtre ordonn´es. On note J le nombre de valeurs distinctes ou modalit´s.
e
e
e
Les valeurs distinctes sont not´es x1 , . . . , xj , . . . , xJ . On appelle effectif d’une
e
modalit´ ou d’une valeur distincte, le nombre de fois que cette modalit´ (ou
e
e
valeur distincte) apparaˆ On note nj l’effectif de la modalit´ xj . La fr´quence
ıt.
e
e
d’une modalit´ est l’effectif divis´ par le nombre d’unit´s d’observation.
e
e
e
fj =
nj
, j = 1, . . . , J.
n
Exemple 1.4 Avec la s´rie de l’exemple pr´c´dent, on obtient le tableau stae
e e
tistique :
xj
C
M
V
D
nj
9
7
2
2
n = 20
fj
0.45
0.35
0.10
0.10
1
12. ´
12CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
En langage R
>X=c(’Mari´(e)’,’Mari´(e)’,’Divorc´(e)’,’C´libataire’,’C´libataire’,’Mari´(e)’,’C´li
e
e
e
e
e
e
e
’C´libataire’,’C´libataire’,’Mari´(e)’,’C´libataire’,’Mari´(e)’,’Veuf(ve)’,’Mar
e
e
e
e
e
’Veuf(ve)’,’Divorc´(e)’,’C´libataire’,’C´libataire’,’C´libataire’,’Mari´(e)’)
e
e
e
e
e
> T1=table(X)
> V1=c(T1)
> data.frame(Eff=V1,Freq=V1/sum(V1))
Eff Freq
C´libataire
e
9 0.45
Divorc´(e)
e
2 0.10
Mari´(e)
e
7 0.35
Veuf(ve)
2 0.10
1.2.2
Diagramme en secteurs et diagramme en barres
Le tableau statistique d’une variable qualitative nominale peut ˆtre repr´sent´
e
e
e
par deux types de graphique. Les effectifs sont repr´sent´s par un diagramme
e
e
en barres et les fr´quences par un diagramme en secteurs (ou camembert ou
e
piechart en anglais) (voir Figures 1.1 et 1.2).
Célibataire
Divorcé(e)
Veuf(ve)
Marié(e)
Figure 1.1 – Diagramme en secteurs des fr´quences
e
En langage R
> pie(T1,radius=1.0)
13. 13
0
2
4
6
8
10
1.3. VARIABLE QUALITATIVE ORDINALE
Célibataire
Divorcé(e)
Marié(e)
Veuf(ve)
Figure 1.2 – Diagramme en barres des effectifs
En langage R
>m=max(V1)
>barplot(T1, ylim=c(0,m+1))
1.3
1.3.1
Variable qualitative ordinale
Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent ˆtre ordonn´es, ce
e
e
qu’on ´crit
e
x1 ≺ x2 ≺ · · · ≺ xj−1 ≺ xj ≺ · · · ≺ xJ−1 ≺ xJ .
La notation x1 ≺ x2 se lit x1 pr´c`de x2 .
e e
Si la variable est ordinale, on peut calculer les effectifs cumul´s :
e
Nj =
j
∑
nk , j = 1, . . . , J.
k=1
On a N1 = n1 et NJ = n. On peut ´galement calculer les fr´quences cumul´es
e
e
e
∑
Nj
=
fk , j = 1, . . . , J.
n
j
Fj =
k=1
Exemple 1.5 On interroge 50 personnes sur leur dernier diplˆme obtenu (vao
riable Y ). La codification a ´t´ faite selon le Tableau 1.1. On a obtenu la s´rie
ee
e
14. ´
14CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
Table 1.1 – Codification de la variable Y
Dernier diplˆme obtenu
o
Sans diplˆme
o
Primaire
Secondaire
Sup´rieur non-universitaire
e
Universitaire
xj
Sd
P
Se
Su
U
Table 1.2 – S´rie statistique de la variable Y
e
Sd
Se
Su
Sd
Se
Su
Sd
Se
Su
Sd
Se
Su
P
Se
U
P
Se
U
P
Se
U
P
Se
U
P
Se
U
P
Se
U
P
Se
U
P
Se
U
P
Su
U
P
Su
U
P
Su
U
Se
Su
U
Se
Su
Table 1.3 – Tableau statistique complet
xj
Sd
P
Se
Su
U
nj
4
11
14
9
12
50
Nj
4
15
29
38
50
fj
0.08
0.22
0.28
0.18
0.24
1.00
Fj
0.08
0.30
0.58
0.76
1.00
statistique pr´sent´e dans le tableau 1.2. Finalement, on obtient le tableau stae
e
tistique complet pr´sent´ dans le Tableau 1.3.
e
e
En langage R
> YY=c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P",
"Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se",
"Su","Su","Su","Su","Su","Su","Su","Su","Su",
"U","U","U","U","U","U","U","U","U","U","U","U")
YF=factor(YY,levels=c("Sd","P","Se","Su","U"))
T2=table(YF)
V2=c(T2)
> data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2)))
Eff EffCum Freq FreqCum
Sd
4
4 0.08
0.08
15. 1.3. VARIABLE QUALITATIVE ORDINALE
P
Se
Su
U
11
14
9
12
1.3.2
15
29
38
50
0.22
0.28
0.18
0.24
15
0.30
0.58
0.76
1.00
Diagramme en secteurs
Les fr´quences d’une variable qualitative ordinale sont repr´sent´es au moyen
e
e
e
d’un diagramme en secteurs (voir Figure 1.3).
P
Se
Sd
U
Su
Figure 1.3 – Diagramme en secteurs des fr´quences
e
En langage R
> pie(T2,radius=1)
1.3.3
Diagramme en barres des effectifs
Les effectifs d’une variable qualitative ordinale sont repr´sent´s au moyen
e
e
d’un diagramme en barres (voir Figure 1.4).
En langage R
> barplot(T2)
16. 0
2
4
6
8
10
12
14
´
16CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
Sd
P
Se
Su
U
Figure 1.4 – Diagramme en barres des effectifs
1.3.4
Diagramme en barres des effectifs cumul´s
e
0
10
20
30
40
50
Les effectifs cumul´s d’une variable qualitative ordinale sont repr´sent´s au
e
e
e
moyen d’un diagramme en barres (voir Figure 1.5).
Sd
P
Se
Su
U
Figure 1.5 – Diagramme en barres des effectifs cumul´s
e
17. `
1.4. VARIABLE QUANTITATIVE DISCRETE
17
En langage R
> T3=cumsum(T2)
> barplot(T3)
1.4
1.4.1
Variable quantitative discr`te
e
Le tableau statistique
Une variable discr`te a un domaine d´nombrable.
e
e
Exemple 1.6 Un quartier est compos´ de 50 m´nages, et la variable Z repr´sente
e
e
e
le nombre de personnes par m´nage. Les valeurs de la variable sont
e
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
3
3
4
5
2
3
3
4
6
2
3
3
4
6
2
3
3
4
6
2
3
3
4
8
2
3
4
5
8
Comme pour les variables qualitatives ordinales, on peut calculer les effectifs,
`
les effectifs cumul´s, les fr´quences, les fr´quences cumul´es. A nouveau, on peut
e
e
e
e
construire le tableau statistique :
xj
1
2
3
4
5
6
8
nj
5
9
15
10
6
3
2
50
Nj
5
14
29
39
45
48
50
fj
0.10
0.18
0.30
0.20
0.12
0.06
0.04
1.0
Fj
0.10
0.28
0.58
0.78
0.90
0.96
1.00
En langage R
>
+
>
>
>
Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,
4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
T4=table(Z)
T4c=c(T4)
data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),FreqCum=cumsum(T4c/sum(T4c)))
Eff EffCum Freq FreqCum
18. ´
18CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
1
2
3
4
5
6
8
5
9
15
10
6
3
2
1.4.2
5
14
29
39
45
48
50
0.10
0.18
0.30
0.20
0.12
0.06
0.04
0.10
0.28
0.58
0.78
0.90
0.96
1.00
Diagramme en bˆtonnets des effectifs
a
0
5
10
15
Quand la variable est discr`te, les effectifs sont repr´sent´s par des bˆtonnets
e
e
e
a
(voir Figure 1.6).
1
2
3
4
5
6
8
Figure 1.6 – Diagramme en bˆtonnets des effectifs pour une variable quantia
tative discr`te
e
En langage R
> plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)
19. 1.5. VARIABLE QUANTITATIVE CONTINUE
1.4.3
19
Fonction de r´partition
e
0.0
0.2
0.4
0.6
0.8
1.0
Les fr´quences cumul´es sont repr´sent´es au moyen de la fonction de r´partition.
e
e
e
e
e
Cette fonction, pr´sent´e en Figure 1.7,est d´finie de R dans [0, 1] et vaut :
e
e
e
x < x1
0
Fj xj ≤ x < xj+1
F (x) =
1
xJ ≤ x.
0
2
4
6
8
Figure 1.7 – Fonction de r´partition d’une variable quantitative discr`te
e
e
En langage R
> plot(ecdf(Z),xlab="",ylab="",main="",frame=0)
1.5
1.5.1
Variable quantitative continue
Le tableau statistique
Une variable quantitative continue peut prendre une infinit´ de valeurs pose
sibles. Le domaine de la variable est alors R ou un intervalle de R. En pratique,
une mesure est limit´e en pr´cision. La taille peut ˆtre mesur´e en centim`tres,
e
e
e
e
e
voire en millim`tres. On peut alors traiter les variables continues comme des
e
variables discr`tes. Cependant, pour faire des repr´sentations graphiques et
e
e
20. ´
20CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
construire le tableau statistique, il faut proc´der ` des regroupements en classes.
e
a
Le tableau regroup´ en classe est souvent appel´ distribution group´e. Si [c− ; c+ [
e
e
e
j
j
designe la classe j, on note, de mani`re g´n´rale :
e
e e
–
–
–
–
–
–
–
–
c− la borne inf´rieure de la classe j,
e
j
+
cj la borne sup´rieure de la classe j,
e
cj = (c+ + c− )/2 le centre de la classe j,
j
j
aj = c+ − c− l’amplitude de la classe j,
j
j
nj l’effectif de la classe j,
Nj l’effectif cumul´ de la classe j,
e
fj la fr´quence de la classe j,
e
Fj la fr´quence cumul´e de la classe j.
e
e
La r´partition en classes des donn´es n´cessite de d´finir a priori le nombre
e
e
e
e
de classes J et donc l’amplitude de chaque classe. En r`gle g´n´rale, on choisit
e
e e
au moins cinq classes de mˆme amplitude. Cependant, il existent des formules
e
qui nous permettent d’´tablir le nombre de classes et l’intervalle de classe (l’ame
plitude) pour une s´rie statistique de n observations.
e
– La r`gle de Sturge : J = 1√ (3.3 log10 (n)).
e
+
– La r`gle de Yule : J = 2.5 4 n.
e
L’intervalle de classe est obtenue ensuite de la mani`re suivante : longueur
e
de l’intervalle = (xmax − xmin )/J, o` xmax (resp. xmin ) d´signe la plus grande
u
e
(resp. la plus petite) valeur observ´e.
e
Remarque 1.2 Il faut arrondir le nombre de classe J ` l’entier le plus proche.
a
Par commodit´, on peut aussi arrondir la valeur obtenue de l’intervalle de classe.
e
A partir de la plus petite valeur observ´e, on obtient les bornes de classes
e
en additionnant successivement l’intervalle de classe (l’amplitude).
Exemple 1.7 On mesure la taille en centimetres de 50 ´l`ves d’une classe :
ee
152
154
156
157
159
161
162
164
168
170
152
154
156
157
159
160
162
164
168
171
152
154
156
157
160
160
163
165
168
171
153
155
156
158
160
161
164
166
169
171
153
155
156
158
160
162
164
167
169
171
21. 1.5. VARIABLE QUANTITATIVE CONTINUE
21
On a les classes de tailles d´finies pr´ablement comme il suit :
e
e
[151, 5; 155, 5[
[155, 5; 159, 5[
[159, 5; 163, 5[
[163, 5; 167, 5[
[167, 5; 171, 5[
On construit le tableau statistique.
[c− , c+ ]
j
j
[151, 5; 155, 5[
[155, 5; 159, 5[
[159, 5; 163, 5[
[163, 5; 167, 5[
[167, 5; 171, 5[
nj
10
12
11
7
10
50
Nj
10
22
33
40
50
fj
0.20
0.24
0.22
0.14
0.20
1.00
Fj
0.20
0.44
0.66
0.80
1.00
En langage R
> S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156,
+ 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162, +
162,162,163,164,164,164,164,165,166,167,168,168,168,169,169, +
170,171,171,171,171)
> T5=table(cut(S, breaks=c(151,155,159,163,167,171)))
> T5c=c(T5)
> data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c)))
Eff EffCum Freq FreqCum
(151,155] 10
10 0.20
0.20 (155,159] 12
22 0.24 0.44
(159,163] 11
33 0.22
0.66 (163,167]
7
40 0.14 0.80
(167,171] 10
50 0.20
1.00
1.5.2
Histogramme
L’histogramme consiste ` repr´senter les effectifs (resp. les fr´quences) des
a
e
e
classes par des rectangles contigus dont la surface (et non la hauteur) repr´sente
e
l’effectif (resp. la fr´quence). Pour un histogramme des effectifs, la hauteur du
e
rectangle correspondant ` la classe j est donc donn´e par :
a
e
hj =
– On appelle hj la densit´ d’effectif.
e
nj
aj
22. ´
22CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
– L’aire de l’histogramme est ´gale ` l’effectif total n, puisque l’aire de
e
a
chaque rectangle est ´gale ` l’effectif de la classe j : aj × hj = nj .
e
a
Pour un histogramme des fr´quences on a
e
dj =
fj
aj
0.00
0.02
0.04
0.06
– On appelle dj la densit´ de fr´quence.
e
e
– L’aire de l’histogramme est ´gale ` 1, puisque l’aire de chaque rectangle
e
a
est ´gale ` la fr´quence de la classe j : aj × dj = fj .
e
a
e
Figure 1.8 repr´sente l’histogramme des fr´quences de l’exemple pr´cedent :
e
e
e
151.5
155.5
159.5
163.5
167.5
171.5
Figure 1.8 – Histogramme des fr´quences
e
En langage R
> hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), freq=FALSE,
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))
Si les deux derni`res classes sont agr´g´es, comme dans la Figure 1.9, la
e
e e
surface du dernier rectangle est ´gale ` la surface des deux derniers rectangles
e
a
de l’histogramme de la Figure 1.8.
En langage R
> hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5),
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,171.5))
23. 23
0.00
0.02
0.04
0.06
1.5. VARIABLE QUANTITATIVE CONTINUE
151.5
155.5
159.5
163.5
171.5
Figure 1.9 – Histogramme des fr´quences avec les deux derni`res classes
e
e
agr´g´es
e e
Remarque 1.3 Dans le cas de classes de mˆme amplitude certains auteurs
e
et logiciels repr´sentent l’histogramme avec les effectifs (resp. les fr´quences)
e
e
report´s en ordonn´e, l’aire de chaque rectangle ´tant proportionnelle ` l’effectif
e
e
e
a
(resp. la fr´quence) de la classe.
e
1.5.3
La fonction de r´partition
e
La fonction de r´partition F (x) est une fonction de R dans [0, 1], qui est
e
d´finie par
e
x < c−
0
1
fj
−
Fj−1 + c+ −c− (x − cj ) c− ≤ x < c+
F (x) =
j
j
j
j
1
c+ ≤ x
J
24. ´
24CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
0.0 0.2 0.4 0.6 0.8 1.0
Figure 1.10 – Fonction de r´partition d’une distribution group´e
e
e
151.5
155.5
159.5
163.5
167.5
171.5
25. 1.5. VARIABLE QUANTITATIVE CONTINUE
En langage R
>
>
>
>
y=c(0,0,cumsum(T5c/sum(T5c)),1)
x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175)
plot(x,y,type="b",xlab="",ylab="",xaxt = "n")
axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))
25
27. Chapitre 2
Statistique descriptive
univari´e
e
2.1
2.1.1
Param`tres de position
e
Le mode
Le mode est la valeur distincte correspondant ` l’effectif le plus ´lev´ ; il est
a
e e
not´ xM .
e
Si on reprend la variable ‘Etat civil’ , dont le tableau statistique est le suivant :
xj
nj
fj
C
9
0.45
M
7
0.35
V
2
0.10
D
2
0.10
n = 20
1
le mode est C : c´libataire.
e
Remarque 2.1
– Le mode peut ˆtre calcul´ pour tous les types de variable, quantitative et
e
e
qualitative.
– Le mode n’est pas n´cessairement unique.
e
– Quand une variable continue est d´coup´e en classes, on peut d´finir une
e
e
e
classe modale (classe correspondant ` l’effectif le plus ´lev´).
a
e e
2.1.2
La moyenne
La moyenne ne peut ˆtre d´finie que sur une variable quantitative.
e
e
27
28. 28
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
La moyenne est la somme des valeurs observ´es divis´e par leur nombre, elle
e
e
est not´e x :
e ¯
x1 + x2 + · · · + xi + · · · + xn
1∑
xi .
x=
¯
=
n
n i=1
n
La moyenne peut ˆtre calcul´e ` partir des valeurs distinctes et des effectifs
e
e a
1∑
n j xj .
n j=1
J
x=
¯
Exemple 2.1 Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4.
La moyenne est
x=
¯
0+0+1+1+1+2+3+4
12
=
= 1.5.
8
8
On peut aussi faire les calculs avec les valeurs distinctes et les effectifs. On
consid`re le tableau :
e
xj nj
0
2
1
3
2
1
3
1
4
1
8
2×0+3×1+1×2+1×3+1×4
8
3+2+3+4
=
8
= 1.5.
x =
¯
Remarque 2.2 La moyenne n’est pas n´cessairement une valeur possible.
e
En langage R
E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n
xb
xb=mean(E)
xb
29. `
2.1. PARAMETRES DE POSITION
2.1.3
29
Remarques sur le signe de sommation
D´finition 2.1
e
n
∑
∑
xi = x1 + x2 + · · · + xn .
i=1
1. En statistique les xi sont souvent les valeurs observ´es.
e
n
n
∑
∑
2. L’indice est muet :
xi =
xj .
i=1
j=1
3. Quand il n’y a pas de confusion possible, on peut ´crire
e
∑
i
xi .
Exemple 2.2
1.
4
∑
xi = x1 + x2 + x3 + x4 .
i=1
2.
5
∑
xi2 = x32 + x42 + x52 .
i=3
3.
3
∑
i = 1 + 2 + 3 = 6.
i=1
4. On peut utiliser plusieurs sommations emboˆ ees, mais il faut bien distinıt´
guer les indices :
3
2
∑∑
xij
= x11 + x12
(i = 1)
+ x21 + x22
+ x31 + x32
(i = 2)
(i = 3)
i=1 j=1
5. On peut exclure une valeur de l’indice.
5
∑
xi = x1 + x2 + x4 + x5 .
i=1
i̸=3
Propri´t´ 2.1
e e
1. Somme d’une constante
n
∑
i=1
a = a + a + · · · + a = na
n
fois
(a constante).
30. ´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
30
Exemple
5
∑
3 = 3 + 3 + 3 + 3 + 3 = 5 × 3 = 15.
i=1
2. Mise en ´vidence
e
n
∑
axi = a
i=1
n
∑
xi
(a constante).
i=1
Exemple
3
∑
2 × i = 2(1 + 2 + 3) = 2 × 6 = 12.
i=1
3. Somme des n premiers entiers
n
∑
i = 1 + 2 + 3 + ··· + n =
i=1
n(n + 1)
.
2
4. Distribution
n
∑
(xi + yi ) =
i=1
n
∑
xi +
i=1
n
∑
yi .
i=1
5. Distribution
n
∑
(xi − yi ) =
i=1
n
∑
xi −
i=1
n
∑
yi .
i=1
1∑
xi )
n i=1
n
Exemple (avec x =
¯
n
∑
(xi − x) =
¯
i=1
n
∑
i=1
xi −
n
∑
1∑
xi − n¯ = n¯ − n¯ = 0.
x
x
x
n i=1
n
x=n
¯
i=1
6. Somme de carr´s
e
n
∑
i=1
(xi − yi )2 =
n
∑
2
(x2 − 2xi yi + yi ) =
i
i=1
n
∑
x2 − 2
i
i=1
C’est une application de la formule
(a − b)2 = a2 − 2ab + b2 .
n
∑
i=1
xi y i +
n
∑
i=1
2
yi .
31. `
2.1. PARAMETRES DE POSITION
2.1.4
31
Moyenne g´om´trique
e
e
Si xi ≥ 0, on appelle moyenne g´om´trique la quantit´
e e
e
( n )1/n
∏
1/n
xi
= (x1 × x2 × · · · × xn )
.
G=
i=1
On peut ´crire la moyenne g´om´trique comme l’exponentielle de la moyenne
e
e e
arithm´tique des logarithmes des valeurs observ´es
e
e
( n )1/n
n
n
∏
∏
1∑
1
G = exp log G = exp log
xi = exp
xi
= exp log
log xi .
n
n i=1
i=1
i=1
La moyenne g´om´trique s’utilise, par exemple, quand on veut calculer la moyenne
e e
de taux d’int´rˆt.
ee
Exemple 2.3 Supposons que les taux d’int´rˆt pour 4 ann´es cons´cutives
ee
e
e
soient respectivement de 5, 10, 15, et 10%. Que va-t-on obtenir apr`s 4 ans si je
e
place 100 francs ?
– Apr`s 1 an on a, 100 × 1.05 = 105 Fr.
e
– Apr`s 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr.
e
– Apr`s 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr.
e
– Apr`s 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr.
e
Si on calcule la moyenne arithm´tique des taux on obtient
e
1.05 + 1.10 + 1.15 + 1.10
= 1.10.
4
Si on calcule la moyenne g´om´trique des taux, on obtient
e e
x=
¯
G = (1.05 × 1.10 × 1.15 × 1.10)
1/4
= 1.099431377.
Le bon taux moyen est bien G et non x, car si on applique 4 fois le taux moyen
¯
G aux 100 francs, on obtient
100 Fr × G4 = 100 × 1.0994313774 = 146.1075 Fr.
2.1.5
Moyenne harmonique
Si xi ≥ 0, on appelle moyenne harmonique la quantit´
e
n
H = ∑n
.
i=1 1/xi
Il est judicieux d’appliquer la moyenne harmonique sur des vitesses.
Exemple 2.4 Un cycliste parcourt 4 ´tapes de 100km. Les vitesses respectives
e
pour ces ´tapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a ´t´ sa
e
ee
vitesse moyenne ?
32. ´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
32
– Un raisonnement simple nous dit qu’il a parcouru la premi`re ´tape en
e e
10h, la deuxi`me en 3h20 la troisi`me en 2h30 et la quatri`me en 5h. Il a
e
e
e
donc parcouru le total des 400km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc
400
= 19.2 km/h.
20.8333
Moy =
– Si on calcule la moyenne arithm´tique des vitesses, on obtient
e
x=
¯
10 + 30 + 40 + 20
= 25 km/h.
4
– Si on calcule la moyenne harmonique des vitesses, on obtient
H=
1
10
+
1
30
4
+
1
40
+
1
20
= 19.2 km/h.
La moyenne harmonique est donc la mani`re appropri´e de calculer la
e
e
vitesse moyenne.
Remarque 2.3 Il est possible de montrer que la moyenne harmonique est toujours inf´rieure ou ´gale ` la moyenne g´om´trique qui est toujours inf´rieure
e
e
a
e e
e
ou ´gale ` la moyenne arithm´tique
e
a
e
H ≤ G ≤ x.
¯
2.1.6
Moyenne pond´r´e
e e
Dans certains cas, on n’accorde pas le mˆme poids ` toutes les observations.
e
a
Par exemple, si on calcule la moyenne des notes pour un programme d’´tude, on
e
peut pond´rer les notes de l’´tudiant par le nombre de cr´dits ou par le nombre
e
e
e
d’heures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associ´s ` chaque
e a
observation, alors la moyenne pond´r´e par wi est d´finie par :
ee
e
∑n
i=1 wi xi
xw = ∑n
¯
.
i=1 wi
Exemple 2.5 Supposons que les notes soient pond´r´es par le nombre de
ee
cr´dits, et que les notes de l’´tudiant soient les suivantes :
e
e
33. `
2.1. PARAMETRES DE POSITION
Note
Cr´dits
e
33
5
6
4
3
3
4
6
3
5
4
La moyenne pond´r´e des notes par les cr´dits est alors
ee
e
xw =
¯
6×5+3×4+4×3+3×6+4×5
30 + 12 + 12 + 18 + 20
92
=
=
= 4.6.
6+3+4+3+4
20
20
2.1.7
La m´diane
e
La m´diane, not´e x1/2 , est une valeur centrale de la s´rie statistique obtenue
e
e
e
de la mani`re suivante :
e
– On trie la s´rie statistique par ordre croissant des valeurs observ´es. Avec
e
e
la s´rie observ´e :
e
e
3 2 1 0 0 1 2,
on obtient :
0 0
1 1
2 2
3.
– La m´diane x1/2 est la valeur qui se trouve au milieu de la s´rie ordonn´e :
e
e
e
0 0
1 1
↑
2 2
3.
On note alors x1/2 = 1.
Nous allons examiner une mani`re simple de calculer la m´diane. Deux cas
e
e
doivent ˆtre distingu´s.
e
e
– Si n est impair, il n’y a pas de probl`me (ici avec n = 7), alors x1/2 = 1 :
e
0
0
1
1
↑
2
2
3.
La Figure 2.1 montre la fonction de r´partition de la s´rie. La m´diane
e
e
e
peut ˆtre d´finie comme l’inverse de la fonction de r´partition pour la
e
e
e
valeur 1/2 :
x1/2 = F −1 (0.5).
En langage R
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1,0.50,1,0,length=0.14,col="blue")
34. ´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
34
0.00
0.50
1.00
Figure 2.1 – M´diane quand n est impair
e
−1
0
1
2
3
4
– Si n est pair, deux valeurs se trouvent au milieu de la s´rie (ici avec n = 8)
e
0
0 1
1 2
↑ ↑
2
3
4
La m´diane est alors la moyenne de ces deux valeurs :
e
x1/2 =
1+2
= 1.5.
2
La Figure 2.2 montre la fonction de r´partition de la s´rie de taille paire.
e
e
La m´diane peut toujours ˆtre d´finie comme l’inverse de la fonction de
e
e
e
r´partition pour la valeur 1/2 :
e
x1/2 = F −1 (0.5).
Cependant, la fonction de r´partition est discontinue par ‘palier’. L’inverse
e
de la r´partition correspond exactement ` un ‘palier’.
e
a
0.00
0.50
1.00
Figure 2.2 – M´diane quand n est pair
e
−1
En langage R
0
1
2
3
4
5
35. `
2.1. PARAMETRES DE POSITION
35
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1.5,0.50,1.5,0,,length=0.14,col="blue")
En g´n´ral on note
e e
x(1) , . . . , x(i) , . . . , x(n)
la s´rie ordonn´e par ordre croissant. On appelle cette s´rie ordonn´e la statise
e
e
e
tique d’ordre. Cette notation, tr`s usuelle en statistique, permet de d´finir la
e
e
m´diane de mani`re tr`s synth´tique.
e
e
e
e
– Si n est impair
x1/2 = x( n+1 )
2
– Si n est pair
x1/2 =
}
1{
x( n ) + x( n +1) .
2
2
2
Remarque 2.4 La m´diane peut ˆtre calcul´e sur des variables quantitatives
e
e
e
et sur des variables qualitatives ordinales.
2.1.8
Quantiles
La notion de quantile d’ordre p (o` 0 < p < 1) g´n´ralise la m´diane.
u
e e
e
Formellement un quantile est donn´ par l’inverse de la fonction de r´partition :
e
e
xp = F −1 (p).
Si la fonction de r´partition ´tait continue et strictement croissante, la d´finition
e
e
e
du quantile serait sans ´quivoque. La fonction de r´partition est cependant dise
e
continue et “par palier”. Quand la fonction de r´partition est par palier, il existe
e
au moins 9 mani`res diff´rentes de d´finir les quantiles selon que l’on fasse ou
e
e
e
non une interpolation de la fonction de r´partition. Nous pr´sentons une de ces
e
e
m´thodes, mais il ne faut pas s’´tonner de voir les valeurs des quantiles diff´rer
e
e
e
l´g`rement d’un logiciel statistique ` l’autre.
e e
a
– Si np est un nombre entier, alors
xp =
}
1{
x(np) + x(np+1) .
2
– Si np n’est pas un nombre entier, alors
xp = x(⌈np⌉) ,
o` ⌈np⌉ repr´sente le plus petit nombre entier sup´rieur ou ´gal ` np.
u
e
e
e
a
36. ´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
36
Remarque 2.5
– La m´diane est le quantile d’ordre p = 1/2.
e
– On utilise souvent
x1/4
le premier quartile,
x3/4
le troisi`me quartile,
e
x1/10 le premier d´cile ,
e
x1/5
le premier quintile,
x4/5
le quatri`me quintile,
e
x9/10 le neuvi`me d´cile,
e
e
x0.05 le cinqui`me percentile ,
e
x0.95 le nonante-cinqui`me percentile.
e
– Si F (x) est la fonction de r´partition, alors F (xp ) ≥ p.
e
Exemple 2.6 Soit la s´rie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28,
e
34 contenant 12 observations (n = 12).
– Le premier quartile : Comme np = 0.25 × 12 = 3 est un nombre entier, on
a
x(3) + x(4)
15 + 16
x1/4 =
=
= 15.5.
2
2
– La m´diane : Comme np = 0.5 × 12 = 6 est un nombre entier, on a
e
x1/2 =
}
1{
x(6) + x(7) = (19 + 22)/2 = 20.5.
2
– Le troisi`me quartile : Comme np = 0.75 × 12 = 9 est un nombre entier,
e
on a
x(9) + x(10)
25 + 27
x3/4 =
=
= 26.
2
2
En langage R
x=c(12,13,15,16,18,19,22,24,25,27,28,34)
quantile(x,type=2)
Exemple 2.7 Soit la s´rie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27
e
contenant 10 observations (n = 10).
– Le premier quartile : Comme np = 0.25 × 10 = 2.5 n’est pas un nombre
entier, on a
x1/4 = x(⌈2.5⌉) = x(3) = 15.
37. `
2.2. PARAMETRES DE DISPERSION
37
– La m´diane : Comme np = 0.5 × 10 = 5 est un nombre entier, on a
e
x1/2 =
}
1{
x(5) + x(6) = (18 + 19)/2 = 18.5.
2
– Le troisi`me quartile : Comme np = 0.75 × 10 = 7.5 n’est pas un nombre
e
entier, on a
x3/4 = x(⌈7.5⌉) = x(8) = 24.
En langage R
x=c(12,13,15,16,18,19,22,24,25,27)
quantile(x,type=2)
2.2
2.2.1
Param`tres de dispersion
e
L’´tendue
e
L’´tendue est simplement la diff´rence entre la plus grande et la plus petite
e
e
valeur observ´e.
e
E = x(n) − x(1) .
2.2.2
La distance interquartile
La distance interquartile est la diff´rence entre le troisi`me et le premier
e
e
quartile :
IQ = x3/4 − x1/4 .
2.2.3
La variance
La variance est la somme des carr´s des ´carts ` la moyenne divis´e par le
e
e
a
e
nombre d’observations :
n
1∑
s2 =
(xi − x)2 .
¯
x
n i=1
Th´or`me 2.1 La variance peut aussi s’´crire
e e
e
1∑ 2
x − x2 .
¯
n i=1 i
n
s2 =
x
(2.1)
38. ´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
38
D´monstration
e
=
1∑ 2
1∑
(xi − x)2 =
¯
(x − 2xi x + x2 )
¯ ¯
n i=1
n i=1 i
=
1∑
1∑ 2
1∑ 2
1∑
1∑ 2
xi − 2
xi x +
¯
x =
¯
xi − 2¯
x
xi + x2
¯
n i=1
n i=1
n i=1
n i=1
n i=1
=
1∑ 2
1∑ 2
xi − 2¯x + x2 =
x¯ ¯
x − x2 .
¯
n i=1
n i=1 i
n
s2
x
n
n
n
n
n
n
n
n
2
La variance peut ´galement ˆtre d´finie ` partir des effectifs et des valeurs
e
e
e
a
distinctes :
J
1∑
s2 =
nj (xj − x)2 .
¯
x
n j=1
La variance peut aussi s’´crire
e
1∑
n j x2 − x2 .
¯
j
n j=1
J
s2 =
x
Quand on veut estimer une variance d’une variable X ` partir d’un ´chantillon
a
e
(une partie de la population s´lectionn´e au hasard) de taille n, on utilise la vae
e
riance “corrig´e” divis´e par n − 1.
e
e
1 ∑
n
(xi − x)2 = s2
¯
.
x
n − 1 i=1
n−1
n
2
Sx =
2
La plupart des logiciels statistiques calculent Sx et non s2 .
x
2.2.4
L’´cart-type
e
L’´cart-type est la racine carr´e de la variance :
e
e
√
sx = s2 .
x
Quand on veut estimer l’´cart-type d’une variable X partir d’un ´chantillon
e
e
de taille n, utilise la variance “corrig´e” pour d´finir l’´cart type
e
e
e
√
√
n
2 =s
Sx = Sx
.
x
n−1
La plupart des logiciels statistiques calculent Sx et non sx .
Exemple 2.8 Soit la s´rie statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a
e
x=
¯
2+3+4+4+5+6+7+9
= 5,
8
39. `
2.2. PARAMETRES DE DISPERSION
39
1∑
(xi − x)2
¯
n i=1
n
s2
x
=
]
1[
(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2
8
1
=
[9 + 4 + 1 + 1 + 0 + 1 + 4 + 16]
8
36
=
8
= 4.5.
=
On peut ´galement utiliser la formule (2.1) de la variance, ce qui n´cessite moins
e
e
de calcul (surtout quand la moyenne n’est pas un nombre entier).
1∑ 2
¯
x − x2
n i=1 i
n
s2
x
=
1 2
(2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) − 52
8
1
=
(4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) − 25
8
236
=
− 25
8
= 29.5 − 25 = 4.5.
=
En langage R
> x=c(2,3,4,4,5,6,7,9)
> n=length(x)
> s2=sum((x-mean(x))^2)/n
> s2
[1] 4.5
> S2=s2*n/(n-1)
> S2
[1] 5.142857
> S2=var(x)
> S2
[1] 5.142857
> s=sqrt(s2)
> s
[1] 2.121320
> S=sqrt(S2)
> S
[1] 2.267787
> S=sd(x)
40. 40
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
> S
[1] 2.267787
> E=max(x)-min(x)
> E
[1] 7
2.2.5
L’´cart moyen absolu
e
L’´cart moyen absolu est la somme des valeurs absolues des ´carts ` la
e
e
a
moyenne divis´e par le nombre d’observations :
e
1∑
=
|xi − x| .
¯
n i=1
n
emoy
2.2.6
L’´cart m´dian absolu
e
e
L’´cart m´dian absolu est la somme des valeurs absolues des ´carts ` la
e
e
e
a
m´diane divis´e par le nombre d’observations :
e
e
1∑
xi − x1/2 .
n i=1
n
emed =
2.3
Moments
D´finition 2.2 On appelle moment ` l’origine d’ordre r ∈ N le param`tre
e
a
e
1∑ r
x .
n i=1 i
n
m′ =
r
D´finition 2.3 On appelle moment centr´ d’ordre r ∈ N le param`tre
e
e
e
1∑
(xi − x)r .
¯
n i=1
n
mr =
Les moments g´n´ralisent la plupart des param`tres. On a en particulier
e e
e
– m′ = x,
¯
1
– m1 = 0,
1∑ 2
– m′ =
x = s2 + x2 ,
¯
2
x
n i i
– m2 = s2 .
x
Nous verrons plus loin que des moments d’ordres sup´rieurs (r=3,4) sont utilis´s
e
e
pour mesurer la sym´trie et l’aplatissement.
e
41. `
2.4. PARAMETRES DE FORME
2.4
2.4.1
41
Param`tres de forme
e
Coefficient d’asym´trie de Fisher (skewness)
e
Le moment centr´ d’ordre trois est d´fini par
e
e
1∑
(xi − x)3 .
¯
n i=1
n
m3 =
Il peut prendre des valeurs positives, n´gatives ou nulles. L’asym´trie se mesure
e
e
au moyen du coefficient d’asym´trie de Fisher
e
g1 =
m3
,
s3
x
o` s3 est le cube de l’´cart-type.
u x
e
2.4.2
Coefficient d’asym´trie de Yule
e
Le coefficient d’asym´trie de Yule est bas´ sur les positions des 3 quartiles
e
e
(1er quartile, m´diane et troisi`me quartile), et est normalis´ par la distance
e
e
e
interquartile :
x3/4 + x1/4 − 2x1/2
AY =
.
x3/4 − x1/4
2.4.3
Coefficient d’asym´trie de Pearson
e
Le coefficient d’asym´trie de Pearson est bas´ sur une comparaison de la
e
e
moyenne et du mode, et est standardis´ par l’´cart-type :
e
e
AP =
x − xM
¯
.
sx
Tous les coefficients d’asym´trie ont les mˆmes propri´t´s, ils sont nuls si la
e
e
ee
distribution est sym´trique, n´gatifs si la distribution est allong´e ` gauche (left
e
e
e a
asymmetry), et positifs si la distribution est allong´e ` droite (right asymmetry)
e a
comme montr´ dans la Figure 2.3.
e
Figure 2.3 – Asym´trie d’une distribution
e
42. ´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
42
Remarque 2.6 Certaines variables sont toujours tr`s asym´triques ` droite,
e
e
a
comme les revenus, les tailles des entreprises, ou des communes. Une m´thode
e
simple pour rendre une variable sym´trique consiste alors ` prendre le logae
a
rithme de cette variable.
2.5
Param`tre d’aplatissement (kurtosis)
e
L’aplatissement est mesur´ par le coefficient d’aplatissement de Pearson
e
β2 =
m4
,
s4
x
ou le coefficient d’aplatissement de Fisher
g2 = β2 − 3 =
m4
− 3,
s4
x
o` m4 est le moment centr´ d’ordre 4, et s4 est le carr´ de la variance.
u
e
e
x
– Une courbe m´sokurtique si g2 ≈ 0.
e
– Une courbe leptokurtique si g2 > 0. Elle est plus pointue et poss`de des
e
queues plus longues.
– Une courbe platykurtique si g2 < 0. Elle est plus arrondie et poss`de des
e
queues plus courtes.
Dans la Figure 2.4, on pr´sente un exemple de deux distributions de mˆme
e
e
moyenne et de mˆme variance. La distribution plus pointue est leptokurtique,
e
l’autre est m´sokurtique. La distribution leptokurtique a une queue plus ´paisse.
e
e
0.0175
0.6
0.015
0.5
0.0125
0.4
0.01
0.3
0.0075
0.2
-4
-2
0.005
0.1
0.0025
2
4
2.6 2.8
3.2 3.4 3.6 3.8
4
Figure 2.4 – Distributions m´sokurtique et leptokurtique
e
2.6
Changement d’origine et d’unit´
e
D´finition 2.4 On appelle changement d’origine l’op´ration consistant ` ajoue
e
a
ter (ou soustraire) la mˆme quantit´ a ∈ R ` toutes les observations
e
e
a
yi = a + xi , i = 1, . . . , n
43. ´
2.6. CHANGEMENT D’ORIGINE ET D’UNITE
43
D´finition 2.5 On appelle changement d’unit´ l’op´ration consistant ` multie
e
e
a
plier (ou diviser) par la mˆme quantit´ b ∈ R toutes les observations
e
e
yi = bxi , i = 1, . . . , n.
D´finition 2.6 On appelle changement d’origine et d’unit´ l’op´ration consise
e
e
tant ` multiplier toutes les observations par la mˆme quantit´ b ∈ R puis `
a
e
e
a
ajouter la mˆme quantit´ a ∈ R ` toutes les observations :
e
e
a
yi = a + bxi , i = 1, . . . , n.
Th´or`me 2.2 Si on effectue un changement d’origine et d’unit´ sur une vae e
e
riable X, alors sa moyenne est affect´e du mˆme changement d’origine et d’unit´.
e
e
e
D´monstration Si yi = a + bxi , alors
e
1∑
1∑
(a + bxi ) = a + b
xi = a + b¯.
x
n i=1
n i=1
n
y=
¯
n
2
Th´or`me 2.3 Si on effectue un changement d’origine et d’unit´ sur une vae e
e
riable X, alors sa variance est affect´e par le carr´ du changement d’unit´ et
e
e
e
pas par le changement d’origine.
D´monstration Si yi = a + bxi , alors
e
1∑
1∑
1∑
2
2
(yi − y )2 =
¯
(a + bxi − a − b¯) = b2
x
(xi − x) = b2 s2 .
¯
x
n i=1
n i=1
n i=1
n
s2 =
y
n
n
2
Remarque 2.7
1. Les param`tres de position sont tous affect´s par un changement d’origine
e
e
et d’unit´.
e
2. Les param`tres de dispersion sont tous affect´s par un changement d’unit´
e
e
e
mais pas par un changement d’origine.
3. Les param`tres de forme et d’aplatissement ne sont affect´s ni par un
e
e
changement d’unit´ ni par un changement d’origine.
e
44. ´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
44
2.7
Moyennes et variances dans des groupes
Supposons que les n observations soient r´parties dans deux groupes GA et
e
GB . Les nA premi`res observations sont dans le groupe GA et les nB derni`res
e
e
observations sont dans le groupe GB , avec la relation
nA + nB = n.
On suppose que la s´rie statistique contient d’abord les unit´s de GA puis les
e
e
unit´s de GB :
e
x1 , x2 , . . . , xnA −1 , xnA , xnA +1 , xnA +2 , . . . , xn−1 , xn .
observations de
observations de
GA
GB
On d´finit les moyennes des deux groupes :
e
nA
1 ∑
– la moyenne du premier groupe xA =
¯
xi ,
nA i=1
n
1 ∑
xi .
– la moyenne du deuxi`me groupe xB =
e
¯
nB i=n +1
A
La moyenne g´n´rale est une moyenne pond´r´e par la taille des groupes des
e e
ee
moyennes des deux groupes. En effet
(n
)
n
A
∑
1 ∑
1
x=
¯
xi +
xi = (nA xA + nB xB ) .
¯
¯
n i=1
n
i=n +1
A
On peut ´galement d´finir les variances des deux groupes :
e
e
nA
1 ∑
– la variance du premier groupe s2 =
(xi − xA )2 ,
¯
A
nA i=1
n
1 ∑
– la variance du deuxi`me groupe s2 =
e
(xi − xB )2 .
¯
B
nB i=n +1
A
Th´or`me 2.4 (de Huygens) La variance totale, d´finie par
e e
e
1∑
(xi − x)2 ,
¯
n i=1
n
s2 =
x
se d´compose de la mani`re suivante :
e
e
nA s2 + nB s2
A
B
n
s2 =
x
variance intra-groupes
+
nA (¯A − x)2 + nB (¯B − x)2
x
¯
x
¯
.
n
variance inter-groupes
D´monstration
e
s2
x
[n
]
n
n
A
∑
1∑
1 ∑
2
2
2
=
(xi − x) =
¯
(xi − x) +
¯
(xi − x)
¯
n i=1
n i=1
i=n +1
A
(2.2)
45. 2.8. DIAGRAMME EN TIGES ET FEUILLES
45
On note que
nA
∑
(xi − x)2
¯
i=1
=
nA
∑
(xi − xA + xA − x)2
¯
¯
¯
i=1
=
nA
∑
(xi − xA )2 +
¯
i=1
nA
∑
(¯A − x)2 + 2
x
¯
i=1
nA
∑
(xi − xA )(¯A − x)
¯ x
¯
i=1
=0
= nA s2 + nA (¯A − x)2 .
x
¯
A
On a ´videmment la mˆme relation dans le groupe GB :
e
e
n
∑
(xi − x)2 = nB s2 + nB (¯B − x)2 .
¯
x
¯
B
i=nA +1
En revenant ` l’expression (2.2), on obtient
a
[n
]
n
A
∑
1 ∑
2
2
2
sx =
(xi − x) +
¯
(xi − x)
¯
n i=1
i=n +1
A
=
=
]
1[
nA s2 + nA (¯A − x)2 + nB s2 + nB (¯B − x)2
x
¯
x
¯
A
B
n
nA (¯A − x)2 + nB (¯B − x)2
x
¯
x
¯
nA s2 + nB s2
A
B
+
.
n
n
2
2.8
Diagramme en tiges et feuilles
Le diagramme en tiges et feuilles ou Stem and leaf diagram est une mani`re
e
rapide de pr´senter une variable quantitative. Par exemple, si l’on a la s´rie
e
e
statistique ordonn´e suivante :
e
15, 15, 16, 17, 18, 20, 21, 22, 23, 23, 23, 24, 25, 25, 26,
26, 27, 28, 28, 29, 30, 30, 32, 34, 35, 36, 39, 40, 43, 44,
la tige du diagramme sera les dizaines et les feuilles seront les unit´s. On obtient
e
le graphique suivant.
The decimal point is 1 digit(s) to the right of the |
1
2
3
4
|
|
|
|
55678
012333455667889
0024569
034
46. ´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
46
´
Ce diagramme permet d’avoir une vue synth´tique de la distribution. Evidemment,
e
les tiges peuvent ˆtre d´finies par les centaines, ou des millers, selon l’ordre de
e
e
grandeur de la variable ´tudi´e.
e
e
En langage R
#
# Diagramme en tige et feuilles
#
X=c(15,15,16,17,18,20,21,22,23,23,23,24,25,25,26,26,
27,28,28,29,30,30,32,34,35,36,39,40,43,44)
stem(X,0.5)
2.9
La boˆ ` moustaches
ıte a
La boˆ ` moustaches, ou diagramme en boˆ ou encore boxplot en anıte a
ıte,
glais, est un diagramme simple qui permet de repr´senter la distribution d’une
e
variable. Ce diagramme est compos´ de :
e
– Un rectangle qui s’´tend du premier au troisi`me quartile. Le rectangle
e
e
est divis´ par une ligne correspondant ` la m´diane.
e
a
e
– Ce rectangle est compl´t´ par deux segments de droites.
ee
– Pour les dessiner, on calcule d’abord les bornes
b− = x1/4 − 1.5IQ et b+ = x3/4 + 1.5IQ,
o` IQ est la distance interquartile.
u
– On identifie ensuite la plus petite et la plus grande observation comprise
entre ces bornes. Ces observations sont appel´es “valeurs adjacentes”.
e
– On trace les segments de droites reliant ces observations au rectangle.
– Les valeurs qui ne sont pas comprises entre les valeurs adjacentes, sont
repr´sent´es par des points et sont appel´es “valeurs extrˆmes”.
e
e
e
e
Exemple 2.9 On utilise une base de donn´es de communes suisses de 2003
e
fournie par l’Office f´d´ral de la statistique (OFS) contenant un ensemble de
e e
variables concernant la population et l’am´nagement du territoire. L’objectif
e
est d’avoir un aper¸u des superficies des communes du canton de Neuchˆtel. On
c
a
s’int´resse donc ` la variable HApoly donnant la superficie en hectares des 62
e
a
communes neuchˆteloises. La boˆ ` moustaches est pr´sent´e en Figure 2.5.
a
ıte a
e
e
L’examen du graphique indique directement une dissym´trie de la distribution,
e
au sens o` il y a beaucoup de petites communes et peu de grandes communes. Le
u
graphique montre aussi que deux communes peuvent ˆtre consid´r´es communes
e
ee
des points extrˆmes, car elles ont plus de 3000 hectares. Il s’agit de la Br´vine
e
e
(4182ha) et de la Chaux-de-Fonds (5566ha).
En langage R
47. `
2.9. LA BOˆ
ITE A MOUSTACHES
0
1000
2000
47
3000
4000
5000
Figure 2.5 – Boˆ ` moustaches pour la variable superficie en hectares (HAıtes a
poly) des communes du canton de Neuchˆtel
a
# ´tape 1: installation du package sampling
E
#
dans lequel se trouve la base de donn´es des communes belges
e
#
choisir "sampling" dans la liste
utils:::menuInstallPkgs()
# Etape 2: charge le package sampling
#
choisir "sampling" dans la liste
local({pkg <- select.list(sort(.packages(all.available = TRUE)))
+ if(nchar(pkg)) library(pkg, character.only=TRUE)})
# Utilisation des donn´es
e
data(swissmunicipalities)
attach(swissmunicipalities)
# boxplot de la s´lection des communes neuch^teloises
e
a
# le num´ro du canton est 24
e
boxplot(HApoly[CT==24],horizontal=TRUE)
% selection des communes neuch^teloises de plus de 3000 HA
a
data.frame(Nom=Nom[HApoly>3000 & CT==24],Superficie=HApoly[HApoly>3000 & CT==24])
Exemple 2.10 On utilise une base de donn´es belges fournie par l’Institut
e
National (belge) de Statistique contenant des informations sur la population
et les revenus des personnes physiques dans les communes. On s’int´resse ` la
e
a
variable “revenu moyen en euros par habitant en 2004” pour chaque commune
(variable averageincome) et l’on aimerait comparer les 9 provinces belges : Anvers, Brabant, Flandre occidentale, Flandre orientale, Hainaut, Li`ge, Limboug,
e
Luxembourg, Namur. La Figure 2.6 contient les boˆ ` moustaches de chaque
ıtes a
province. Les communes ont ´t´ tri´es selon les provinces belges. De ce graee
e
phique, on peut directement voir que la province du Brabant contient ` la fois
a
la commune la plus riche (Lasne) et la plus pauvre (Saint-Josse-ten-Noode). On
voit ´galement une dispersion plus importante dans la province du Brabant.
e
En langage R
48. 48
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
40000
35000
30000
25000
20000
Anv.
Brab.
Fl.occ.
Fl.or.
Hainaut
Liège
Limb.
Lux.
Namur
Figure 2.6 – Boˆ ` moustaches du “revenu moyen des habitants” des comıtes a
munes selon les provinces belges
# Utilisation des donn´es
e
data(belgianmunicipalities)
attach(belgianmunicipalities)
# Construction d’une liste avec les noms des provinces
b=list(
"Anv."=averageincome[Province==1],
"Brab."=averageincome[Province==2],
"Fl.occ."=averageincome[Province==3],
"Fl.or."=averageincome[Province==4],
"Hainaut"=averageincome[Province==5],
"Li`ge"=averageincome[Province==6],
e
"Limb."=averageincome[Province==7],
"Lux."=averageincome[Province==8],
"Namur"=averageincome[Province==9]
)
boxplot(b)
49. `
2.9. LA BOˆ
ITE A MOUSTACHES
49
Exercices
Exercice 2.1 On p`se les 50 ´l`ves d’une classe et nous obtenons les r´sultats
e
ee
e
r´sum´s dans le tableau suivant :
e
e
43
48
49
52
54
59
63
67
72
81
43
48
50
53
56
59
63
68
72
83
43
48
50
53
56
59
65
70
73
86
47
49
51
53
56
62
65
70
77
92
48
49
51
54
57
62
67
70
77
93
1. De quel type est la variable poids ?
2. Construisez le tableau statistique en adoptant les classes suivantes :
[40 ;45] ]45 ;50] ]50 ;55] ]55 ;60] ]60 ;65] ]65 ;70] ]70 ;80] ]80 ;100]
3. Construisez l’histogramme des effectifs ainsi que la fonction de r´partition.
e
Solution
1. La variable poids est de type quantitative continue.
2.
[c− , c+ ] nj Nj
fj
Fj
j
j
[40; 45]
3
3 0.06 0.06
]45; 50]
10 13 0.20 0.26
]50; 55]
8 21 0.16 0.42
]55; 60]
7 28 0.14 0.56
]60; 65]
6 34 0.12 0.68
]65; 70]
6 40 0.12 0.80
]70; 80]
5 45 0.10 0.90
]80; 100]
5 50 0.10 1.00
50
1
3.
Exercice 2.2 Calculez tous les param`tres (de position, de dispersion et de
e
forme) ` partir du tableau de l’exemple 1.7 sans prendre en compte les classes.
a
Solution
50. ´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
50
– M´diane : Comme n est pair,
e
x1/2 =
1
1
(x25 + x26 ) = (160 + 160) = 160.
2
2
– quantiles
– Premier quartile :
x1/4 = x13 = 156
– Deuxi`me quartile :
e
x3/4 = x38 = 165
´
– Etendue :
E = 171 − 152 = 19.
– Distance interquartile :
IQ = x3/4 − x1/4 = 165 − 156 = 9
– Variance :
1∑
1
(xi − x)2 =
¯
× 1668 = 33, 36.
n i=1
50
n
s2 =
x
´
– Ecart type :
sx =
√
s2 = 5, 7758.
x
´
– Ecart moyen absolu :
1
1∑
|xi − x| =
¯
× 245, 2 = 4, 904.
n i=1
50
n
emoy =
´
– Ecart m´dian absolu :
e
1
1∑
|xi − x1/2 | =
× 242 = 4, 84.
=
n i=1
50
n
emed
– Moment centr´ d’ordre trois :
e
1∑
1
(xi − x)3 =
¯
× 2743, 2 = 54, 864.
n i=1
50
n
m3 =
Exercice 2.3
1. Montrez que
s2 =
x
n
n
1 ∑∑
(xi − xj )2 .
2n2 i=1 j=1
51. `
2.9. LA BOˆ
ITE A MOUSTACHES
51
2. Montrez que
√
sx ≤ Et
n−1
.
2n
3. Montrez que, si xi > 0,
1∑
|xi − x| ≤ 2¯.
¯
x
n i=1
n
Solution
1.
n
n
1 ∑∑
(xi − xj )2
2n2 i=1 j=1
=
n
n
1 ∑∑ 2
(x + x2 − 2xi xj )
j
2n2 i=1 j=1 i
=
n
n
n
n
n
n
1 ∑∑ 2
1 ∑∑ 2
1 ∑∑
xi + 2
xj − 2
2xi xj
2n2 i=1 j=1
2n i=1 j=1
2n i=1 j=1
=
1 ∑ 2
1 ∑ 2 1∑ 1∑
xi +
x −
xi
xj
2n i=1
2n j=1 j n i=1 n j=1
=
1∑ 2 1∑
x −
xi x
¯
n i=1 i
n i=1
=
1∑ 2
x − x2
¯
n i=1 i
n
n
n
= s2 .
x
n
n
n
n
52. ´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE
52
2.
=
n
n
1 ∑∑
(xi − xj )2
2n2 i=1 j=1
=
s2
x
n
n
1 ∑ ∑
(xi − xj )2
2n2 i=1
n
∑
j=1,j̸=i
n
∑
≤
1
2n2
=
n
n
1 ∑ ∑
2
Et
2n2 i=1
(x(1) − x(n) )2
i=1 j=1,j̸=i
j=1,j̸=i
=
=
1
2
n(n − 1)Et
2n2
n−1 2
E .
2n t
Donc,
√
sx ≤ E
n−1
.
2n
53. Chapitre 3
Statistique descriptive
bivari´e
e
3.1
S´rie statistique bivari´e
e
e
On s’int´resse ` deux variables x et y. Ces deux variables sont mesur´es sur
e
a
e
les n unit´s d’observation. Pour chaque unit´, on obtient donc deux mesures. La
e
e
s´rie statistique est alors une suite de n couples des valeurs prises par les deux
e
variables sur chaque individu :
(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).
Chacune des deux variables peut ˆtre, soit quantitative, soit qualitative. On
e
examine deux cas.
– Les deux variables sont quantitatives.
– Les deux variables sont qualitatives.
3.2
3.2.1
Deux variables quantitatives
Repr´sentation graphique de deux variables
e
Dans ce cas, chaque couple est compos´ de deux valeurs num´riques. Un
e
e
couple de nombres (entiers ou r´els) peut toujours ˆtre repr´sent´ comme un
e
e
e
e
point dans un plan
(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).
53
54. ´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
54
Exemple 3.1 On mesure le poids Y et la taille X de 20 individus.
xi
yi
155 75
162 76
157 78
170 80
164 85
162 90
169 96
170 96
178 98
173 101
xi
180
175
173
175
179
175
180
185
189
187
80
60
70
poids
90
100
yi
60
61
64
67
68
69
70
70
72
73
155
160
165
170
175
180
185
190
taille
Figure 3.1 – Le nuage de points
En langage R
# nuage de points
poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101)
taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189
plot(taille,poids)
55. 3.2. DEUX VARIABLES QUANTITATIVES
3.2.2
55
Analyse des variables
Les variables x et y peuvent ˆtre analys´es s´par´ment. On peut calculer
e
e
e e
tous les param`tres dont les moyennes et les variances :
e
x=
¯
1∑
xi ,
n i=1
s2 =
x
1∑
(xi − x)2 ,
¯
n i=1
y=
¯
1∑
yi ,
n i=1
s2 =
y
1∑
(yi − y )2 .
¯
n i=1
n
n
n
n
Ces param`tres sont appel´s param`tres marginaux : variances marginales, moyennes
e
e
e
marginales, ´carts-types marginaux, quantiles marginaux, etc.. . .
e
3.2.3
Covariance
La covariance est d´finie
e
1∑
(xi − x)(yi − y ).
¯
¯
=
n i=1
n
sxy
Remarque 3.1
– La covariance peut prendre des valeurs positives, n´gatives ou nulles.
e
– Quand xi = yi , pour tout i = 1, . . . , n, la covariance est ´gale ` la vae
a
riance.
Th´or`me 3.1 La covariance peut ´galement s’´crire :
e e
e
e
1∑
xi yi − xy .
¯¯
n i=1
n
D´monstration
e
=
1∑
(xi − x)(yi − y )
¯
¯
n i=1
=
1∑
(xi yi − yi x − y xi + xy )
¯ ¯
¯¯
n i=1
=
1∑
1∑
1∑
1∑
xi yi −
yi x −
¯
y xi +
¯
xy
¯¯
n i=1
n i=1
n i=1
n i=1
=
1∑
xi yi − xy − xy + xy
¯¯ ¯¯ ¯¯
n i=1
=
1∑
xi yi − xy .
¯¯
n i=1
n
sxy
n
n
n
n
n
n
n
56. ´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
56
2
3.2.4
Corr´lation
e
Le coefficient de corr´lation est la covariance divis´e par les deux ´cart-types
e
e
e
marginaux :
sxy
.
rxy =
sx sy
Le coefficient de d´termination est le carr´ du coefficient de corr´lation :
e
e
e
2
rxy =
s2
xy
.
s2 s2
x y
Remarque 3.2
– Le coefficient de corr´lation mesure la d´pendance lin´aire entre deux vae
e
e
riables :
– −1 ≤ rxy ≤ 1,
2
– 0 ≤ rxy ≤ 1.
– Si le coefficient de corr´lation est positif, les points sont align´s le long
e
e
d’une droite croissante.
– Si le coefficient de corr´lation est n´gatif, les points sont align´s le long
e
e
e
d’une droite d´croissante.
e
– Si le coefficient de corr´lation est nul ou proche de z´ro, il n’y a pas de
e
e
d´pendance lin´aire. On peut cependant avoir une d´pendance non-lin´aire
e
e
e
e
avec un coefficient de corr´lation nul.
e
r=1
r=−1
r=0
r>0
r<0
r=0
Figure 3.2 – Exemples de nuages de points et coefficients de corr´lation
e
57. 3.2. DEUX VARIABLES QUANTITATIVES
3.2.5
57
Droite de r´gression
e
La droite de r´gression est la droite qui ajuste au mieux un nuage de points
e
au sens des moindres carr´s.
e
On consid`re que la variable X est explicative et que la variable Y est
e
d´pendante. L’´quation d’une droite est
e
e
y = a + bx.
Le probl`me consiste ` identifier une droite qui ajuste bien le nuage de points.
e
a
Si les coefficients a et b ´taient connus, on pourrait calculer les r´sidus de la
e
e
r´gression d´finis par :
e
e
ei = yi − a − bxi .
yi
ei
70
80
y*
i
60
poids
90
100
Le r´sidu ei est l’erreur que l’on commet (voir Figure 3.3) en utilisant la droite
e
de r´gression pour pr´dire yi ` partir de xi . Les r´sidus peuvent ˆtre positifs ou
e
e
a
e
e
n´gatifs.
e
155
160
165
170
175
180
taille
Figure 3.3 – Le nuage de points, le r´sidu
e
185
190
58. 58
´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
En langage R
# Graphique avec le r´sidus
e
plot(taille,poids)
segments(158,a+b*158,190,a+b*190)
segments(180,a+b*180,180,96,col="red")
#
text(178,90,expression(e))
text(178.7,89.5,"i")
#
arrows(180,a+b*180,156,a+b*180,col="blue",length=0.14)
arrows(180,60,180,a+b*180,col="blue",length=0.14)
arrows(180,96,156,96,col="blue",length=0.14)
#
text(154.8,86,expression(y))
text(155.5,85.5,"i")
#
text(154.8,97,expression(y))
text(155.5,97.8,"*")
text(155.5,96.5,"i")
Pour d´terminer la valeur des coefficients a et b on utilise le principe des
e
moindres carr´s qui consiste ` chercher la droite qui minimise la somme des
e
a
carr´s des r´sidus :
e
e
n
n
∑
∑
2
M (a, b) =
e2 =
(yi − a − bxi ) .
i
i=1
i=1
Th´or`me 3.2 Les coefficients a et b qui minimisent le crit`re des moindres
e e
e
carr´s sont donn´s par :
e
e
sxy
et a = y − b¯.
¯
x
b= 2
sx
D´monstration Le minimum M (a, b) en (a, b) s’obtient en annulant les d´riv´es
e
e e
partielles par rapport ` a et b.
a
n
∑
∂M (a, b)
=−
2 (yi − a − bxi ) = 0
∂a
i=1
n
∂M (a, b) = − ∑ 2 (y − a − bx ) x = 0
i
i
i
∂b
i=1
On obtient un syst`me de deux ´quations ` deux inconnues. En divisant les
e
e
a
deux ´quations par −2n, on obtient :
e
n
1∑
(yi − a − bxi ) = 0
n
i=1
n
1 ∑ (y − a − bx ) x = 0,
i
i
i
n i=1
59. 3.2. DEUX VARIABLES QUANTITATIVES
ou encore
59
n
n
n
1∑
1∑
1∑
yi −
a−b
xi = 0
n
n i=1
n i=1
i=1
n
n
n
1 ∑ y x − 1 ∑ ax − 1 ∑ bx2 = 0,
i i
i
n i=1
n i=1
n i=1 i
ce qui s’´crit aussi
e
x
y = a + b¯
¯ n
n
1∑
1∑ 2
yi xi − a¯ −
x
bx = 0.
n
n i=1 i
i=1
La premi`re ´quation montre que la droite passe par le point (¯, y ). On obtient
e e
x ¯
a = y − b¯.
¯
x
En rempla¸ant a par y − b¯ dans la seconde ´quation, on a
c
¯
x
e
1∑ 2
1∑
xi yi − (¯ − b¯)¯ − b
y
xx
x
n i=1
n i=1 i
)
( n
n
1∑
1∑ 2
=
¯
xi yi − xy − b
¯¯
x − x2
n i=1
n i=1 i
n
n
= sxy − bs2
x
= 0,
ce qui donne
sxy − bs2 = 0.
x
Donc
sxy
.
s2
x
On a donc identifi´ les deux param`tres
e
e
sxy
b=
(la pente)
s2
x
a = y − b¯ = y − sxy x (la constante).
¯
x ¯
¯
s2
x
b=
On devrait en outre v´rifier qu’il s’agit bien d’un minimum en montrant que la
e
matrice des d´riv´es secondes est d´finie positive.
e e
e
2
La droite de r´gression est donc
e
sxy
sxy
y = a + bx = y − 2 x + 2 x,
¯
¯
sx
sx
ce qui peut s’´crire aussi
e
y−y =
¯
sxy
(x − x).
¯
s2
x
Remarque 3.3 La droite de r´gression de y en x n’est pas la mˆme que la
e
e
droite de r´gression de x en y.
e
60. ´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
60
80
60
70
poids
90
100
Figure 3.4 – La droite de r´gression
e
155
160
165
170
175
180
185
190
taille
3.2.6
R´sidus et valeurs ajust´es
e
e
Les valeurs ajust´es sont obtenues au moyen de la droite de r´gression :
e
e
∗
yi = a + bxi .
Les valeurs ajust´es sont les ‘pr´dictions’ des yi r´alis´es au moyen de la variable
e
e
e e
x et de la droite de r´gression de y en x.
e
Remarque 3.4 La moyenne des valeurs ajust´es est ´gale ` la moyenne des
e
e
a
valeurs observ´es y . En effet,
e ¯
1∑ ∗
1∑
1∑
yi =
(a + bxi ) = a + b
xi = a + b¯.
x
n i=1
n i=1
n i=1
n
n
n
Or, y = a + b¯, car le point (¯, y ) appartient ` la droite de r´gression.
¯
x
x ¯
a
e
Les r´sidus sont les diff´rences entre les valeurs observ´es et les valeurs
e
e
e
ajust´es de la variable d´pendante.
e
e
∗
ei = yi − yi .
Les r´sidus repr´sentent la partie inexpliqu´e des yi par la droite de r´gression.
e
e
e
e
Remarque 3.5
61. 3.2. DEUX VARIABLES QUANTITATIVES
61
– La moyenne des r´sidus est nulle. En effet
e
1∑
1∑
∗
ei =
(yi − yi ) = y − y = 0.
¯ ¯
n i=1
n i=1
n
n
– De plus,
n
∑
xi ei = 0.
i=1
La d´monstration est un peu plus difficile.
e
3.2.7
Sommes de carr´s et variances
e
D´finition 3.1 On appelle somme des carr´s totale la quantit´
e
e
e
SCT OT =
n
∑
(yi − y )2
¯
i=1
La variance marginale peut alors ˆtre d´finie par
e
e
1∑
SCT OT
=
(yi − y )2 .
¯
n
n i=1
n
s2 =
y
D´finition 3.2 On appelle somme des carr´s de la r´gression la quantit´
e
e
e
e
SCREGR =
n
∑
∗
(yi − y )2 .
¯
i=1
D´finition 3.3 La variance de r´gression est la variance des valeurs ajust´es.
e
e
e
1∑ ∗
(y − y )2 .
¯
n i=1 i
n
s2 ∗ =
y
D´finition 3.4 On appelle somme des carr´s des r´sidus (ou r´siduelle) la
e
e
e
e
quantit´
e
n
∑
SCRES =
e2 .
i
i=1
D´finition 3.5 La variance r´siduelle est la variance des r´sidus.
e
e
e
1∑ 2
SCRES
=
e .
n
n i=1 i
n
s2 =
e
Note : Il n’est pas n´cessaire de centrer les r´sidus sur leurs moyennes pour
e
e
calculer la variance, car la moyenne des r´sidus est nulle.
e
62. ´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
62
Th´or`me 3.3
e e
SCT OT = SCREGR + SCRES .
D´monstration
e
SCT OT
=
n
∑
(yi − y )2
¯
i=1
=
n
∑
∗
∗
(yi − yi + yi − y )2
¯
i=1
=
n
∑
∗
(yi − yi )2 +
i=1
n
∑
∗
(yi − y )2 + 2
¯
i=1
n
∑
∗
∗
(yi − yi )(yi − y )
¯
i=1
= SCRES + SCREGR + 2
n
∑
∗
∗
(yi − yi )(yi − y ).
¯
i=1
Le troisi`me terme est nul. En effet,
e
n
∑
∗
∗
¯
(yi − yi )(yi − y ) =
n
∑
(yi − a − bxi )(a + bxi − y )
¯
i=1
i=1
En rempla¸ant a par y − b¯, on obtient
c
¯
x
n
∑
∗
∗
(yi − yi )(yi − y ) =
¯
i=1
=
=
n
∑
i=1
n
∑
[yi − y − b(xi − x))] b(xi − x)
¯
¯
¯
[(yi − y ) − b(xi − x)] b(xi − x)
¯
¯
¯
i=1
n
∑
b
(yi − y )(xi − x) − b2
¯
¯
i=1
=
n
∑
(xi − x)(xi − x)
¯
¯
i=1
bnsxy − b2 ns2
x
s2
sxy
xy
nsxy − 4 ns2
s2
sx x
x
= 0.
=
2
3.2.8
D´composition de la variance
e
Th´or`me 3.4 La variance de r´gression peut ´galement s’´crire
e e
e
e
e
s2 ∗ = s2 r2 ,
y
y
o` r2 est le coefficient de d´termination.
u
e
63. 3.2. DEUX VARIABLES QUANTITATIVES
63
D´monstration
e
1∑ ∗
(y − y )2
¯
n i=1 i
}2
n {
1∑
sxy
y + 2 (xi − x) − y
¯
¯
¯
n i=1
sx
n
s2 ∗
y
=
=
=
n
s2 1 ∑
xy
(xi − x)2
¯
s4 n i=1
x
s2
xy
s2
x
s2
xy
= s2 2 2
y
sx sy
=
= s2 r2 .
y
2
La variance r´siduelle est la variance des r´sidus.
e
e
1∑ 2
e .
n i=1 i
n
s2 =
e
Th´or`me 3.5 La variance r´siduelle peut ´galement s’´crire
e e
e
e
e
s2 = s2 (1 − r2 ),
e
y
o` r2 est le coefficient de d´termination.
u
e
D´monstration
e
1∑ 2
e
n i=1 i
n
s2
e
=
1∑
∗
(yi − yi )2
n i=1
}2
n {
1∑
sxy
yi − y − 2 (xi − x)
¯
¯
n i=1
sx
n
=
=
=
=
=
n
n
n
s2 1 ∑
1∑
sxy 1 ∑
xy
(yi − y )2 + 4
¯
(xi − x)2 − 2 2
¯
(xi − x)(yi − y )
¯
¯
n i=1
sx n i=1
sx n i=1
s2
s2
xy
xy
s2 + 2 − 2 2
y
sx
sx
)
(
s2
xy
2
sy 1 − 2 2 .
sx sy
2
64. ´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
64
Th´or`me 3.6 La variance marginale est la somme de la variance de r´gression
e e
e
et de la variance r´siduelle,
e
s2 = s2 ∗ + s2 .
y
y
e
La d´monstration d´coule directement des deux th´or`mes pr´c´dents.
e
e
e e
e e
3.3
3.3.1
Deux variables qualitatives
Donn´es observ´es
e
e
Si les deux variables x et y sont qualitatives, alors les donn´es observ´es sont
e
e
une suite de couples de variables
(x1 , y1 ), . . . , (xi , yj ), . . . , (xn , yn ),
chacune des deux variables prend comme valeurs des modalit´s qualitatives.
e
Les valeurs distinctes de x et y sont not´es respectivement
e
x1 , . . . , xj , . . . , xJ
et
y1 , . . . , yk , . . . , yK .
3.3.2
Tableau de contingence
Les donn´es observ´es peuvent ˆtre regroup´es sous la forme d’un tableau de
e
e
e
e
contingence
y1 · · · yk · · · yK total
x1
n11 · · · n1k · · · n1K
n1.
.
.
.
.
.
.
.
.
.
.
.
.
nj1
.
.
.
···
njk
.
.
.
···
njK
.
.
.
nj.
xJ
nJ1
total n.1
···
···
nJk
n.k
···
nJK
n.K
nJ.
n
xj
.
.
.
Les nj. et n.k sont appel´s les effectifs marginaux. Dans ce tableau,
e
– nj. repr´sente le nombre de fois que la modalit´ xj apparaˆ
e
e
ıt,
– n.k repr´sente le nombre de fois que la modalit´ yk apparaˆ
e
e
ıt,
– njk repr´sente le nombre de fois que les modalit´s xj et yk apparaissent
e
e
ensemble.
On a les relations
J
∑
njk = n.k , pour tout k = 1, . . . , K,
j=1
K
∑
k=1
njk = nj. , pour tout j = 1, . . . , J,
65. 3.3. DEUX VARIABLES QUALITATIVES
65
et
J
∑
nj. =
j=1
K
∑
n.k =
J
K
∑∑
njk = n
.
j=1 k=1
k=1
Exemple 3.2 On s’int´resse ` une ´ventuelle relation entre le sexe de 200 pere
a
e
sonnes et la couleur des yeux. Le Tableau 3.1 reprend le tableau de contingence.
Table 3.1 – Tableau des effectifs njk
Bleu
10
20
30
Homme
Femme
Total
3.3.3
Vert
50
60
110
Marron
20
40
60
Total
80
120
200
Tableau des fr´quences
e
Le tableau de fr´quences s’obtient en divisant tous les effectifs par la taille
e
de l’´chantillon :
e
njk
fjk =
, j = 1, . . . , J, k = 1, . . . , K
n
fj. =
nj.
, j = 1, . . . , J,
n
f.k =
n.k
, k = 1, . . . , K.
n
Le tableau des fr´quences est
e
x1
.
.
.
y1
f11
.
.
.
···
···
yk
f1k
.
.
.
···
···
yK
f1K
.
.
.
total
f1.
xj
.
.
.
fj1
.
.
.
···
fjk
.
.
.
···
fjK
.
.
.
fj.
xJ
total
fJ1
f.1
···
···
fJk
f.k
···
fJK
f.K
fJ.
1
Exemple 3.3 Le Tableau 3.2 reprend le tableau des fr´quences.
e
66. 66
´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
Table 3.2 – Tableau des fr´quences
e
Homme
Femme
Total
3.3.4
Bleu
0.05
0.10
0.15
Vert
0.25
0.30
0.55
Marron
0.10
0.20
0.30
Total
0.40
0.60
1.00
Profils lignes et profils colonnes
Un tableau de contingence s’interpr`te toujours en comparant des fr´quences
e
e
en lignes ou des fr´quences en colonnes (appel´s aussi profils lignes et profils
e
e
colonnes).
Les profils lignes sont d´finis par
e
(j)
fk
=
njk
fjk
=
, k = 1, . . . , K, j = 1, . . . , J,
nj.
fj.
et les profils colonnes par
(k)
fj
=
njk
fjk
=
, j = 1, . . . , J, k = 1, . . . , K.
n.k
f.k
Exemple 3.4 Le Tableau 3.3 reprend le tableau des profils lignes, et le Tableau
3.4 reprend le tableau des profils colonnes.
Table 3.3 – Tableau des profils lignes
Homme
Femme
Total
Bleu
0.13
0.17
0.15
Vert
0.63
0.50
0.55
Marron
0.25
0.33
0.30
Total
1.00
1.00
1.00
Table 3.4 – Tableau des profils colonnes
Homme
Femme
Total
Bleu
0.33
0.67
1.00
Vert
0.45
0.55
1.00
Marron
0.33
0.67
1.00
Total
0.40
0.60
1.00
67. 3.3. DEUX VARIABLES QUALITATIVES
3.3.5
67
Effectifs th´oriques et khi-carr´
e
e
On cherche souvent une interaction entre des lignes et des colonnes, un lien
entre les variables. Pour mettre en ´vidence ce lien, on construit un tableau
e
d’effectifs th´oriques qui repr´sente la situation o` les variables ne sont pas li´es
e
e
u
e
(ind´pendance). Ces effectifs th´oriques sont construits de la mani`re suivante :
e
e
e
n∗ =
jk
nj. n.k
.
n
Les effectifs observ´s njk ont les mˆmes marges que les effectifs th´oriques n∗ .
e
e
e
jk
Enfin, les ´carts ` l’ind´pendance sont d´finis par
e
a
e
e
ejk = njk − n∗ .
jk
– La d´pendance du tableau se mesure au moyen du khi-carr´ d´fini par
e
e e
χ2 =
obs
K
J
∑ ∑ (njk − n∗ )2
jk
k=1 j=1
n∗
jk
=
J
K
∑ ∑ e2
jk
.
n∗
j=1 jk
(3.1)
k=1
– Le khi-carr´ peut ˆtre normalis´ pour ne plus d´pendre du nombre d’obe
e
e
e
servations. On d´finit le phi-deux par :
e
ϕ2 =
χ2
obs
.
n
Le ϕ2 ne d´pend plus du nombre d’observations. Il est possible de montrer
e
que
ϕ2 ≤ min(J − 1, K − 1).
– Le V de Cramer est d´finit par
e
√
√
χ2
ϕ2
obs
V =
=
.
min(J − 1, K − 1)
n min(J − 1, K − 1)
Le V de Cramer est compris entre 0 et 1. Il ne d´pend ni de la taille
e
de l’´chantillon ni de la taille du tableau. Si V ≈ 0, les deux variables
e
sont ind´pendantes. Si V = 1, il existe une relation fonctionnelle entre les
e
variables, ce qui signifie que chaque ligne et chaque colonne du tableau de
contingence ne contiennent qu’un seul effectif diff´rent de 0 (il faut que le
e
tableau ait le mˆme nombre de lignes que de colonnes).
e
Exemple 3.5 Le Tableau 3.5 reprend le tableau des effectifs th´oriques, le
e
Tableau 3.6 reprend le tableau des ´carts ` l’ind´pendance. Enfin, les e2 /n∗
e
a
e
jk
jk
sont pr´sent´s dans le tableau 3.7.
e
e
– Le khi-carr´ observ´ vaut χ2 = 3.03.
e
e
obs
– Le phi-deux vaut ϕ2 = 0.01515.
– Comme le tableau a deux lignes min(J − 1, K − 1) = min(2 − 1, 3 − 1) = 1.
√
Le V de Cramer est ´gal ` ϕ2 .
e
a
68. ´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
68
Table 3.5 – Tableau des effectifs th´oriques n∗
e
jk
Homme
Femme
Total
Bleu
12
18
30
Vert
44
66
110
Marron
24
36
60
Total
80
120
200
Table 3.6 – Tableau des ´carts ` l’ind´pendance ejk
e
a
e
Homme
Femme
Total
Bleu
-2
2
0
Vert
6
-6
0
Marron
-4
4
0
Total
0
0
0
Table 3.7 – Tableau des e2 /n∗
jk
jk
Homme
Femme
Total
Bleu
0.33
0.22
0.56
Vert
0.82
0.55
1.36
Marron
0.67
0.44
1.11
Total
1.82
1.21
3.03
– On a V = 0.123. La d´pendance entre les deux variables est tr`s faible.
e
e
En langage R
yeux= c(rep("bleu",times=10),rep("vert",times=50),rep("marron",times=20),
rep("bleu",times=20),rep("vert",times=60),rep("marron",times=40))
sexe= c(rep("homme",times=80),rep("femme",times=120))
yeux=factor(yeux,levels=c("bleu","vert","marron"))
sexe=factor(sexe,levels=c("homme","femme"))
T=table(sexe,yeux)
T
plot(T,main="")
summary(T)
Exemple 3.6 Le tableau suivant est extrait de Boudon (1979, p. 57). La
variable X est le niveau d’instruction du fils par rapport au p`re (plus ´lev´,
e
e e
69. 3.3. DEUX VARIABLES QUALITATIVES
69
´gal, inf´rieur), et la variable Y est le statut professionnel du fils par rapport
e
e
au p`re (plus ´lev´, ´gal, inf´rieur).
e
e e e
e
Table 3.8 – Tableau de contingence : effectifs njk
Niveau d’instruction Statut professionnel du fils
du fils par rapport
par rapport au p`re
e
au p`re
e
Plus ´lev´ Egal inf´rieur total
e e
e
plus ´lev´
e e
134
96
61
291
´gal
e
23
33
24
80
inf´rieur
e
7
16
22
45
total
164
145
107
416
Table 3.9 – Tableau des fr´quences fjk
e
XY
Plus ´lev´
e e
plus ´lev´
e e
0.322
´gal
e
0.055
inf´rieur
e
0.017
total
0.394
Egal
0.231
0.079
0.038
0.349
inf´rieur
e
0.147
0.058
0.053
0.257
total
0.700
0.192
0.108
1.000
Table 3.10 – Tableau des profils lignes
XY
Plus ´lev´
e e
plus ´lev´
e e
0.460
´gal
e
0.288
inf´rieur
e
0.156
total
0.394
Egal
0.330
0.413
0.356
0.349
inf´rieur total
e
0.210
1
0.300
1
0.489
1
0.257
1
Table 3.11 – Tableau des profils colonnes
XY
Plus ´lev´ Egal
e e
plus ´lev´
e e
0.817
0.662
´gal
e
0.140
0.228
0.043
0.110
inf´rieur
e
total
1
1
inf´rieur total
e
0.570
0.700
0.224
0.192
0.206
0.108
1
1
70. ´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
70
Table 3.12 – Tableau des effectifs th´oriques n∗
e
jk
XY
Plus ´lev´ Egal
e e
plus ´lev´
e e
114.72
101.43
´gal
e
31.54
27.88
inf´rieur
e
17.74
15.69
total
164
145
inf´rieur total
e
74.85
291
20.58
80
11.57
45
107
416
Table 3.13 – Tableau des ´carts ` l’ind´pendance ejk
e
a
e
XY
Plus ´lev´ Egal inf´rieur total
e e
e
plus ´lev´
e e
19.28
−5.43 −13.85
0
´gal
e
−8.54
5.12
3.42
0
inf´rieur
e
−10.74
0.31
10.43
0
total
0
0
0
0
Table 3.14 – Tableau des e2 /n∗
jk
jk
Plus ´lev´ Egal
e e
XY
plus ´lev´
e e
3.24
0.29
2.31
0.94
´gal
e
inf´rieur
e
6.50
0.01
total
12.05
1.24
inf´rieur
e
total
2.56
6.09
0.57
3.82
9.39
15.90
12.52
χ2 = 25.81
obs
On a donc
χ2
obs
ϕ2
V
= 25.81
χ2
25.81
obs
=
=
= 0.062
n
416
√
=
ϕ2
=
min(J − 1, K − 1)
√
0.062
= 0.176.
2
Exercices
Exercice 3.1 La consommation de cr`mes glac´es par individus a ´t´ mesur´e
e
e
ee
e
pendant 30 p´riodes. L’objectif est d´termin´ si la consommation d´pend de la
e
e
e
e
temp´rature. Les donn´es sont dans le tableau 3.15. On sait en outre que
e
e
71. 3.3. DEUX VARIABLES QUALITATIVES
71
Table 3.15 – Consommation de cr`mes glac´es
e
e
consommation y
386
374
393
425
406
344
327
288
269
256
temp´rature x consommation y
e
41
286
56
298
63
329
68
318
69
381
65
381
61
470
47
443
32
386
24
342
n
∑
yi = 10783,
i=i
n
∑
n
∑
temp´rature x consommation y
e
28
319
26
307
32
284
40
326
55
309
63
359
72
376
72
416
67
437
60
548
xi = 1473,
i=i
2
yi = 4001293,
i=i
n
∑
x2 = 80145,
i
i=i
n
∑
xi yi = 553747,
i=i
1. Donnez les moyennes marginales, les variances marginales et la covariance
entre les deux variables.
2. Donnez la droite de r´gression, avec comme variable d´pendante la consome
e
mation de glaces et comme variable explicative la temp´rature.
e
3. Donnez la valeur ajust´e et le r´sidu pour la premi`re observation du
e
e
e
tableau 3.15.
Solution
y = 359.4333333, x = 49.1,
¯
¯
2
2
2
σy = 4184.112222, σx = 260.69, σxy = 810.0566667,
∗
ρ = 0.77562456, b = 3.107356119, a = 206.8621479, y1 = 334.2637488, e1 = 51.73625123,
temp´rature x
e
44
40
32
27
28
33
41
52
64
71
72. ´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
72
Exercice 3.2 Neuf ´tudiants ´mettent un avis p´dagogique vis-`-vis d’un proe
e
e
a
fesseur selon une ´chelle d’appr´ciation de 1 ` 20. On rel`ve par ailleurs la note
e
e
a
e
obtenue par ces ´tudiants l’ann´e pr´c´dente aupr`s du professeur.
e
e
e e
e
y = Avis
x = R´sultat
e
5
8
7
11
Etudiants
16
6 12
10 13
9
14
17
10
7
9
15
8
16
1. Repr´sentez graphiquement les deux variables.
e
2. D´terminez le coefficient de corr´lation entre les variables X et Y. Ensuite,
e
e
donnez une interpr´tation de ce coefficient.
e
3. D´terminez la droite de r´gression Y en fonction de X.
e
e
´
4. Etablissez, sur base du mod`le, l’avis pour un ´tudiant ayant obtenu 12/20.
e
e
5. Calculez la variance r´siduelle et le coefficient de d´termination.
e
e
Solution
18 6
q
16
14
q
q
q
12
q
10
q
8
q
q
q
6
4
2
0
0
5
10
15
20
73. 3.3. DEUX VARIABLES QUALITATIVES
yi
xi
5
8
7
11
16 10
6
13
12
9
14 17
10
7
9
15
8
16
87 106
y=
¯
73
2
yi
x2 xi yi
i
25
64
40
49
121
77
256
100
160
36
169
78
144
81
108
196
289
238
100
49
70
81
225
135
64
256
128
951 1354 1034
87
= 9, 667
9
951
− 9, 6672 = 12, 22
9
106
= 11, 78
x=
¯
9
1354
s2 =
− 11, 782 = 11, 73
x
9
1034
− 9, 667 × 11, 78 = 1, 037
sxy =
9
1, 037
rxy = √
= 0.087
12, 22 11, 73
Ajustement lin´aire de y en x
e
s2 =
y
Dy|x : y − y =
¯
Sxy
(x − x)
¯
2
Sx
Dy|x : y = 0.088x + 8, 625
Valeur ajust´e pour une cote de 12/20, (x=12)
e
y = 0.088 × 12 + 8, 625 = 9, 686
Mesure de la qualit´ du mod`le :
e
e
Variance r´siduelle
e
s2
y|x
= s2 (1 − r2 )
y
= 12, 22(1 − 0.0872 )
= 12, 13 ` comparer avec s2 = 12, 22
a
y
Coefficient de d´termination
e
r2 = 0.0872 = 0.008
ce coefficient repr´sente la proportion de variance expliqu´e par le mod`le (ici
e
e
e
0.8% faible).
74. ´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
74
Exercice 3.3 Consid´rons un ´chantillon de 10 fonctionnaires (ayant entre 40
e
e
et 50 ans) d’un minist`re. Soit X le nombre d’ann´es de service et Y le nombre
e
e
de jours d’absence pour raison de maladie (au cours de l’ann´e pr´c´dente)
e
e e
d´termin´ pour chaque personne appartenant ` cet ´chantillon.
e
e
a
e
xi
yi
2 14
3 13
16
17
8
12
13
10
20
8
24
20
7
7
5
2
11
8
1. Repr´sentez le nuage de points.
e
2. Calculez le coefficient de corr´lation entre X et Y.
e
3. D´terminez l’´quation de la droite de r´gression de Y en fonction de X.
e
e
e
4. D´terminez la qualit´ de cet ajustement.
e
e
´
5. Etablissez, sur base de ce mod`le, le nombre de jours d’absence pour un
e
fonctionnaire ayant 22 ans de service.
Solution
2)
xi
2
14
16
8
13
20
24
7
5
11
somme
120
moyenne 12.00
n
∑
2
yi
yi
x2
i
3
4
9
13
196
169
17
256
289
12
64
144
10
169
100
8
400
64
20
576
400
7
49
49
2
25
4
8
121
64
100
1860
1292
10.00 186.00 129.20
xi = 120;
i=l
n
∑
n
∑
xi yi
6
182
272
96
130
160
480
49
10
88
1473
147.30
yi = 100;
i=l
x2 = 1860;
i
i=l
n
∑
2
yi = 1292;
i=l
n
∑
xi yi = 1473
i=1
x = 120/10 = 12;
¯
y = 100/10 = 10;
¯
s2 = (1860/10) − 122 = 42; s2 = (1292/10) − 102 = 29, 2
x
y
sxy = (1473/10) − (10.12) = 27, 3
75. 3.3. DEUX VARIABLES QUALITATIVES
rxy = √
27, 3
= 0.78
42 × 29, 2
3)
Dxy ≡ y − y =
¯
Sxy
(x − x)
¯
2
Sx
27, 3
(x − 12)
42
≡ y = 0.65x + 2, 2
Dxy ≡ y − 10 =
Dxy
4)
r2 = 60.8%;
s2
e
=
s2 (1
y
− r ) = 29, 2 × (1 − 0.608) = 11, 43
2
2
s2 = 11, 43 est beaucoup plus petit que Sy = 29, 2
e
5)
y = 0.65 × 22 + 2, 2 = 16, 5 jours.
75
77. Chapitre 4
Th´orie des indices,
e
mesures d’in´galit´
e
e
4.1
Nombres indices
4.2
D´finition
e
Un indice est la valeur d’une grandeur par rapport ` une valeur de r´f´rence.
a
ee
Prenons l’exemple du tableau 4.1 contenant le prix (fictif) d’un bien de consommation de 2000 ` 2006. Le temps varie de 0, 1, 2, . . . , 6 et 0 est consid´r´ comme
a
ee
le temps de r´f´rence par rapport auquel l’indice est calcul´.
ee
e
Table 4.1 – Tableau du prix d’un
ann´e
e
2000
2001
2002
2003
2004
2005
2006
bien de consommation de 2000 ` 2006
a
t prix pt
0
2.00
1
2.30
2
2.40
3
2.80
4
3.00
5
3.50
6
4.00
L’indice simple est d´fini par
e
I(t/t′ ) = 100 ×
pt
, t, t′ = 0, 1, . . . , 6.
pt′
Le tableau 4.2 contient la matrice des indices de prix du bien. Par exemple de
2000 ` 2006, le prix a doubl´, donc I(6/0) = 200.
a
e
77
78. ´
´
´
CHAPITRE 4. THEORIE DES INDICES, MESURES D’INEGALITE
78
Table 4.2 – Tableau de l’indice simple du prix du tableau 4.1
t′ = 0
1
2
3
4
5
6
4.2.1
t=0
1
2
100.00 115.00 120.00
86.96 100.00 104.35
83.33 95.83 100.00
71.43 82.14
85.71
66.67 76.67
80.00
57.14 65.71
68.57
50.00 57.50
60.00
3
140.00
121.74
116.67
100.00
93.33
80.00
70.00
4
150.00
130.43
125.00
107.14
100.00
85.71
75.00
5
175.00
152.17
145.83
125.00
116.67
100.00
87.50
6
200.00
173.91
166.67
142.86
133.33
114.29
100.00
Propri´t´s des indices
e e
Consid´rons un indice quelconque I(t/0). On dit que cet indice poss`de les
e
e
propri´t´s de
ee
1
– r´versibilit´ si I(t/0) = 1002 × I(0/t) ,
e
e
– identit´ si I(t/t) = 100,
e
– circularit´ (ou transitivit´) si I(t/u) × I(u/v) = 100 × I(t/v).
e
e
Il est facile de montrer que ces trois propri´t´s sont satisfaites pour un indice
ee
simple.
4.2.2
Indices synth´tiques
e
Quand on veut calculer un indice ` partir de plusieurs prix, le probl`me
a
e
devient sensiblement plus compliqu´. Un indice synth´tique est une grandeur
e
e
d’un ensemble de biens par rapport ` une ann´e de r´f´rence. On ne peut pas
a
e
ee
construire un indice synth´tique en additionnant simplement des indices simples.
e
Il faut, en effet, tenir compte des quantit´s achet´es.
e
e
Pour calculer un indice de prix de n biens de consommation ´tiquet´s de
e
e
1, 2, . . . , n, on utilise la notation suivante :
– pti repr´sente le prix du bien de consommation i au temps t,
e
– qti repr´sente la quantit´ de biens i consomm´e au temps t.
e
e
e
Consid´rons par exemple le Tableau 4.3 qui contient 3 biens de consommation
e
et pour lesquels ont connaˆ les prix et les quantit´s achet´es.
ıt
e
e
Il existe deux m´thodes fondamentales pour calculer les indices de prix,
e
l’indice de Paasche et l’indice de Laspeyres.
4.2.3
Indice de Laspeyres
L’indice de Laspeyres, est d´fini par
e
∑n
i=1 q0i pti
L(t/0) = 100 × ∑n
.
i=1 q0i p0i
On utilise pour le calculer, les quantit´s q0i du temps de r´f´rence.
e
ee
79. ´
4.2. DEFINITION
79
Table 4.3 – Exemple : prix et quantit´s de trois bien pendant 3 ans
e
Temps
Bien 1
Bien 2
Bien 3
0
Prix (p0i )
100
60
160
Quantit´s (q0i )
e
14
10
4
1
Prix (p1i )
150
50
140
Quantit´s (q1i )
e
10
12
5
2
Prix (p2i )
200
40
140
L’indice de Laspeyres peut aussi ˆtre pr´sent´ comme une moyenne pond´r´e
e
e
e
ee
des indices simples. Soient l’indice simple du bien i :
Ii (t/0) = 100 ×
pti
,
p0i
et le poids w0i correspondant ` la recette totale du bien i au temps 0
a
w0i = p0i q0i .
L’indice de Laspeyres peut alors ˆtre d´fini comme une moyenne des indices
e
e
simples pond´r´s par les recettes au temps 0 :
ee
∑n
∑n
i=1 p0i q0i 100 ×
i=1 w0i Ii (t/0)
∑n
∑n
=
L(t/0) =
i=1 w0i
i=1 p0i q0i
pti
p0i
∑n
i=1 q0i pti
= 100 × ∑n
.
i=1 p0i q0i
L’indice de Laspeyres ne poss`de ni la propri´t´ de circularit´ ni de r´versibilit´.
e
ee
e
e
e
L’indice de Laspeyres est facile ` calculer, car seules les quantit´s q0i du temps
a
e
de r´f´rence sont n´cessaires pour le calculer.
ee
e
Exemple 4.1 Si on utilise les donn´es du tableau 4.3, les indices de Laspeyres
e
sont les suivants
∑n
q0i p1i
14 × 150 + 10 × 50 + 4 × 140
L(1/0) = 100 × ∑i=1
= 100 ×
= 119.6970,
n
14 × 100 + 10 × 60 + 4 × 160
q0i p0i
i=1
∑n
q0i p2i
14 × 200 + 10 × 40 + 4 × 140
= 142.4242,
L(2/0) = 100 × ∑i=1
= 100 ×
n
14 × 100 + 10 × 60 + 4 × 160
i=1 q0i p0i
∑n
q1i p2i
10 × 200 + 12 × 40 + 5 × 140
L(2/1) = 100 × ∑i=1
= 113.5714.
= 100 ×
n
10 × 150 + 12 × 50 + 5 × 140
i=1 q1i p1i
Quantit´s (q2i )
e
8
14
5
80. ´
´
´
CHAPITRE 4. THEORIE DES INDICES, MESURES D’INEGALITE
80
4.2.4
Indice de Paasche
L’indice de Paasche, est d´fini par
e
∑n
i=1 qti pti
P (t/0) = 100 × ∑n
.
i=1 qti p0i
On utilise, pour le calculer, les quantit´s qti du temps par rapport auquel on
e
veut calculer l’indice.
L’indice de Paasche peut aussi ˆtre pr´sent´ comme une moyenne harmoe
e
e
nique pond´r´e des indices simples. Soient l’indice simple du bien i :
ee
Ii (t/0) = 100 ×
pti
,
p0i
et le poids wti correspondant ` la recette totale du bien i au temps t
a
wti = pti qti .
L’indice de Paasche peut alors ˆtre d´fini comme une moyenne harmonique des
e
e
indices simples pond´r´s par les recettes au temps t :
ee
∑n
∑n
∑n
i=1 qti pti
i=1 wti
i=1 pti qti
= 100 × ∑n
P (t/0) = ∑n
= ∑n
.
p0i
i=1 wti /Ii (t/0)
i=1 pti qti 100×pti
i=1 qti p0i
L’indice de Paasche ne poss`de ni la propri´t´ de circularit´ ni de r´versibilit´.
e
ee
e
e
e
L’indice de Paasche est plus difficile ` calculer que l’indice de Laspeyres, car on
a
doit connaˆ les quantit´s pour chaque valeur de t.
ıtre
e
Exemple 4.2 Si on utilise les donn´es du tableau 4.3, les indices de Paasche
e
sont les suivants
∑n
q p
10 × 150 + 12 × 50 + 5 × 140
∑n 1i 1i = 100 ×
P (1/0) = 100 × i=1
= 111.1111,
10 × 100 + 12 × 60 + 5 × 160
q1i p0i
i=1
∑n
q2i p2i
8 × 200 + 14 × 40 + 5 × 140
= 100 ×
P (2/0) = 100 × ∑i=1
= 117.2131,
n
8 × 100 + 14 × 60 + 5 × 160
q2i p0i
i=1
∑n
q2i p2i
8 × 200 + 14 × 40 + 5 × 140
= 100 ×
P (2/1) = 100 × ∑i=1
= 110.
n
8 × 150 + 14 × 50 + 5 × 140
q2i p1i
i=1
4.2.5
L’indice de Fisher
L’indice de Laspeyres est en g´n´ral plus grand que l’indice de Paasche,
e e
ce qui peut s’expliquer par le fait que l’indice de Laspeyres est une moyenne
arithm´tique d’indices ´l´mentaires tandis que l’indice de Paasche est une moyenne
e
ee
harmonique. Nous avons vu qu’une moyenne harmonique est toujours inf´rieure
e
81. ´
4.2. DEFINITION
81
ou ´gale ` une moyenne arithm´tique (voir la remarque de la page 32). Cepene
a
e
dant ici, ce r´sultat est approximatif, car on n’utilise pas les mˆmes poids pour
e
e
calculer l’indice de Paasche (wti ) et de Laspeyres (w0i ).
Fisher a propos´ d’utiliser un compromis entre l’indice de Paasche et de
e
Laspeyres en calculant simplement la moyenne g´om´trique de ces deux indices
e e
√
F (t/0) = L(t/0) × P (t/0).
L’avantage de l’indice de Fisher est qu’il jouit de la propri´t´ de r´versibilit´.
ee
e
e
Exemple 4.3 Si on utilise toujours les donn´es du tableau 4.3, les indices de
e
Fisher sont les suivants :
√
F (1/0) = L(1/0) × P (1/0) = 115.3242,
√
F (2/0) = L(2/0) × P (2/0) = 129.2052,
√
F (2/1) = L(2/1) × P (2/1) = 111.7715.
4.2.6
L’indice de Sidgwick
L’indice de Sidgwick est la moyenne arithm´tique des indices de Paasche et
e
de Laspeyres.
L(t/0) + P (t/0)
S(t/0) =
.
2
4.2.7
Indices chaˆ
ınes
Le d´faut principal des indices de Laspeyres, de Paasche, de Fisher et de Sidge
wick est qu’il ne poss`dent pas la propri´t´ de circularit´. Un indice qui poss`de
e
ee
e
e
cette propri´t´ est appel´ indice chaˆ
ee
e
ıne. Pour construire un indice chaˆ
ıne, avec
l’indice de Laspeyres, on peut faire un produit d’indice de Laspeyres annuels.
L(t/t − 1) L(t − 1/t − 2)
L(2/1) L(1/0)
×
× ··· ×
×
.
100
100
100
100
Pour calculer un tel indice, on doit ´videmment connaˆ
e
ıtre les quantit´s pour
e
chaque valeur de t. L’indice suisse des prix ` la consommation est un indice
a
chaˆ de Laspeyres.
ıne
CL(t/0) = 100 ×
Exemple 4.4 En utilisant encore les donn´es du tableau 4.3, les indices chaˆ
e
ınes
de Laspeyres sont les suivants :
CL(1/0) = L(1/0) = 119.6970,
CL(2/1) = L(2/1) = 113.5714,
L(2/1) × L(1/0)
= 135.9416.
CL(2/0) =
100
82. ´
´
´
CHAPITRE 4. THEORIE DES INDICES, MESURES D’INEGALITE
82
4.3
4.3.1
Mesures de l’in´galit´
e
e
Introduction
Des indicateurs particuliers ont ´t´ d´velopp´s pour mesurer les in´galit´s
ee e
e
e
e
des revenus ou les in´galit´s de patrimoine. On consid`re qu’une soci´t´ est pare
e
e
ee
faitement ´galitaire si tous les individus re¸oivent le mˆme revenu. La situation
e
c
e
th´orique la plus in´galitaire est la situation o` un individu per¸oit la totalit´
e
e
u
c
e
des revenus, et les autre individus n’ont aucun revenu.
4.3.2
Courbe de Lorenz
Plusieurs indices d’in´galit´ sont li´s ` la courbe de Lorenz. On note
e
e
e a
x1 , . . . , xi , . . . , xn
les revenus des n individus de la population ´tudi´e. On note ´galement
e
e
e
x(1) , . . . , x(i) , . . . , x(n) ,
la statistique d’ordre, c’est-`-dire la s´rie de revenus tri´s par ordre croissant.
a
e
e
Notons maintenant qi la proportion de revenus par rapport au revenu total
qu’ont gagn´ les i individus ayant les plus bas revenus, ce qui s’´crit
e
e
∑i
j=1
qi = ∑n
x(j)
j=1 x(j)
avec q0 = 0 et qn = 1.
La courbe de Lorenz est la repr´sentation graphique de la fonction qui `
e
a
la part des individus les moins riches associe la part y du revenu total qu’ils
per¸oivent. Plus pr´cis´ment, la courbe de Lorenz relie les points (i/n, qi ) pour
c
e e
i = 1, . . . , n. En abscisse, on a donc une proportion d’individus class´s par ordre
e
de revenu, et en ordonn´e la proportion du revenu total re¸u par ces individus.
e
c
Exemple 4.5 On utilise une enquˆte m´nage sur le revenu dans une r´gion
e
e
e
des Philippines appel´e Ilocos. Cette enquˆte de 1997 sur le revenu des m´nages
e
e
e
a ´t´ produite par l’Office philippin de Statistique. La courbe de Lorenz est
ee
pr´sent´e en Figure 4.1.
e
e
Remarque 4.1 Sur le graphique, on indique toujours la diagonale. La courbe
de Lorenz est ´gale ` la diagonale si tous les individus ont le mˆme revenu. Plus
e
a
e
l’´cart entre la courbe de Lorenz et la diagonale est important, plus les revenus
e
sont distribu´s de mani`re in´galitaire.
e
e
e
En langage R
83. ´
´
4.3. MESURES DE L’INEGALITE
83
Figure 4.1 – Courbe de Lorenz
1.0
proportion de revenu
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
proportion de menages
#
# Courbe de Lorenz et indices d’in´galit´
e
e
#
# Etape 1 : on installe la package ineq
utils:::menuInstallPkgs()
# choisir ’ineq’ dans la liste
#
#Etape 2 : on charge le package ineq
local({pkg <- select.list(sort(.packages(all.available = TRUE)))
+ if(nchar(pkg)) library(pkg, character.only=TRUE)})
# choisir ’ineq’ dans la liste
#
# Utilisation de la base de donn´es Ilocos
e
# Enqu^te sur le revenu de l’Office de Statistique Philippin
e
data(Ilocos)
attach(Ilocos)
#
plot(Lc(income),xlab="proportion de menages",
ylab="proportion de revenu",main="")