Cours statistique descriptive

´
´
Resume du Cours de Statistique
Descriptive
Yves Till´
e
15 d´cembre 2010
e

Objectif et moyens
Objectifs du cours
– Apprendre les principales techniques de statistique descriptive univarié
e
et bivarié.
e
ˆ
– Etre capable de mettre en oeuvre ces techniques de mani`re approprié
e
e
dans un contexte donn´.
e
ˆ
– Etre capable d’utiliser les commandes de base du Language R. Pouvoir
appliquer les techniques de statistiques descriptives au moyen du language
R.
– R´f´rences
ee
Dodge Y.(2003), Premiers pas en statistique, Springer.
é
Droesbeke J.-J. (1997), El´ments de statistique, Editions de l’Universit´
e
libre de Bruxelles/Ellipses.

Moyens
– 2 heures de cours par semaine.
– 2 heures de TP par semaine, r´partis en TP thóriques et applications en
e
e
Language R.

Le language R
– Shareware : gratuit et install´ en 10 minutes.
e
– Open source (on sait ce qui est réllement calcul´).
e
e
– D´velopp´ par la communaut´ des chercheurs, contient ńorm´ment de
e
e
e
e
e
fonctionnalit´s.
e
– Possibilit´ de programmer.
e
– D´savantage : pas tr`s convivial.
e
e
– Manuel :
http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf

3

Table des mati`res
e
1 Variables, donnés statistiques, tableaux, effectifs
e
1.1 D´finitions fondamentales . . . . . . . . . . . . . . . .
e
1.1.1 La science statistique . . . . . . . . . . . . . .
1.1.2 Mesure et variable . . . . . . . . . . . . . . . .
1.1.3 Typologie des variables . . . . . . . . . . . . .
1.1.4 S´rie statistique . . . . . . . . . . . . . . . . . .
e
1.2 Variable qualitative nominale . . . . . . . . . . . . . .
1.2.1 Effectifs, fr´quences et tableau statistique . . .
e
1.2.2 Diagramme en secteurs et diagramme en barres
1.3 Variable qualitative ordinale . . . . . . . . . . . . . . .
1.3.1 Le tableau statistique . . . . . . . . . . . . . .
1.3.2 Diagramme en secteurs . . . . . . . . . . . . .
1.3.3 Diagramme en barres des effectifs . . . . . . . .
1.3.4 Diagramme en barres des effectifs cumul´s . . .
e
1.4 Variable quantitative discr`te . . . . . . . . . . . . . .
e
1.4.2 Diagramme en bˆtonnets des effectifs . . . . .
a
1.4.3 Fonction de r´partition . . . . . . . . . . . . .
e
1.5 Variable quantitative continue . . . . . . . . . . . . . .
1.5.2 Histogramme . . . . . . . . . . . . . . . . . . .
1.5.3 La fonction de r´partition . . . . . . . . . . . .
e

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

9
9
9
9
9
10
11
11
12
13
13
15
15
16
17
17
18
19
19
19
21
23

2 Statistique descriptive univarié
e
2.1 Param`tres de position . . . . . .
e
2.1.1 Le mode . . . . . . . . . .
2.1.2 La moyenne . . . . . . . .
2.1.3 Remarques sur le signe de
2.1.4 Moyenne góm´trique . .
e e
2.1.5 Moyenne harmonique . .
2.1.6 Moyenne pond´ré . . . .
ee
2.1.7 La m´diane . . . . . . . .
e
2.1.8 Quantiles . . . . . . . . .
2.2 Param`tres de dispersion . . . .
e

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

27
27
27
27
29
31
31
32
33
35
37

5

. . . . . . . . .
. . . . . . . . .
. . . . . . .∑ .
.
sommation
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

`
TABLE DES MATIERES

6

2.2.1 L’´tendue . . . . . . . . . . . . . . . . . . .
e
2.2.2 La distance interquartile . . . . . . . . . . .
2.2.3 La variance . . . . . . . . . . . . . . . . . .
2.2.4 L’ćart-type . . . . . . . . . . . . . . . . . .
e
2.2.5 L’ćart moyen absolu . . . . . . . . . . . . .
e
2.2.6 L’ćart m´dian absolu . . . . . . . . . . . .
e
e
Moments . . . . . . . . . . . . . . . . . . . . . . .
Param`tres de forme . . . . . . . . . . . . . . . . .
e
2.4.1 Coefficient d’asym´trie de Fisher (skewness)
e
2.4.2 Coefficient d’asym´trie de Yule . . . . . . .
e
2.4.3 Coefficient d’asym´trie de Pearson . . . . .
e
Param`tre d’aplatissement (kurtosis) . . . . . . . .
e
Changement d’origine et d’unit´ . . . . . . . . . .
e
Moyennes et variances dans des groupes . . . . . .
Diagramme en tiges et feuilles . . . . . . . . . . . .
La boˆ ` moustaches . . . . . . . . . . . . . . . .
ıte a

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

37
37
37
38
40
40
40
41
41
41
41
42
42
44
45
46

3 Statistique descriptive bivarié
e
3.1 S´rie statistique bivarié . . . . . . . . . . . . . . .
e
e
3.2 Deux variables quantitatives . . . . . . . . . . . . .
3.2.1 Repr´sentation graphique de deux variables
e
3.2.2 Analyse des variables . . . . . . . . . . . . .
3.2.3 Covariance . . . . . . . . . . . . . . . . . .
3.2.4 Corr´lation . . . . . . . . . . . . . . . . . .
e
3.2.5 Droite de r´gression . . . . . . . . . . . . .
e
3.2.6 R´sidus et valeurs ajustés . . . . . . . . .
e
e
3.2.7 Sommes de carr´s et variances . . . . . . .
e
3.2.8 Dćomposition de la variance . . . . . . . .
e
3.3 Deux variables qualitatives . . . . . . . . . . . . .
3.3.1 Donnés observés . . . . . . . . . . . . . .
e
e
3.3.2 Tableau de contingence . . . . . . . . . . .
3.3.3 Tableau des fr´quences . . . . . . . . . . . .
e
3.3.4 Profils lignes et profils colonnes . . . . . . .
3.3.5 Effectifs thóriques et khi-carr´ . . . . . . .
e
e

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

53
53
53
53
55
55
56
57
60
61
62
64
64
64
65
66
67

4 Thórie des indices, mesures d’in´galit´
e
e
e
4.1 Nombres indices . . . . . . . . . . . . .
4.2 D´finition . . . . . . . . . . . . . . . . .
e
4.2.1 Propri´t´s des indices . . . . . .
ee
4.2.2 Indices synth´tiques . . . . . . .
e
4.2.3 Indice de Laspeyres . . . . . . .
4.2.4 Indice de Paasche . . . . . . . . .
4.2.5 L’indice de Fisher . . . . . . . .
4.2.6 L’indice de Sidgwick . . . . . . .
4.2.7 Indices chaˆ
ınes . . . . . . . . . .
4.3 Mesures de l’in´galit´ . . . . . . . . . .
e
e

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

77
77
77
78
78
78
80
80
81
81
82

2.3
2.4

2.5
2.6
2.7
2.8
2.9

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

`
TABLE DES MATIERES
4.3.1
4.3.2
4.3.3
4.3.4
4.3.5
4.3.6
4.3.7

Introduction . . . . . . . . .
Courbe de Lorenz . . . . . .
Indice de Gini . . . . . . . . .
Indice de Hoover . . . . . . .
Quintile et Decile share ratio
Indice de pauvret´ . . . . . .
e
Indices selon les pays . . . . .

7
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

82
82
84
84
84
85
85

5 Calcul des probabilit´s et variables alátoires
e
e
5.1 Probabilit´s . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
e
´ e
5.1.1 Evńement . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.2 Op´rations sur les ´vńements . . . . . . . . . . . . . .
e
e e
5.1.3 Relations entre les ´vńements . . . . . . . . . . . . . .
e e
5.1.4 Ensemble des parties d’un ensemble et syst`me complet
e
5.1.5 Axiomatique des Probabilit´s . . . . . . . . . . . . . . .
e
5.1.6 Probabilit´s conditionnelles et ind´pendance . . . . . .
e
e
5.1.7 Thór`me des probabilit´s totales et thór`me de Bayes
e e
e
e e
5.2 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . .
5.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . .
5.2.2 Permutations (sans r´p´tition) . . . . . . . . . . . . . .
e e
5.2.3 Permutations avec r´p´tition . . . . . . . . . . . . . . .
e e
5.2.4 Arrangements (sans r´p´tition) . . . . . . . . . . . . . .
e e
5.2.5 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Variables alátoires . . . . . . . . . . . . . . . . . . . . . . . . .
e
5.3.1 D´finition . . . . . . . . . . . . . . . . . . . . . . . . . .
e
5.4 Variables alátoires discr`tes . . . . . . . . . . . . . . . . . . . .
e
e
5.4.1 D´finition, esp´rance et variance . . . . . . . . . . . . .
e
e
5.4.2 Variable indicatrice ou bernoullienne . . . . . . . . . . .
5.4.3 Variable binomiale . . . . . . . . . . . . . . . . . . . . .
5.4.4 Variable de Poisson . . . . . . . . . . . . . . . . . . . .
5.5 Variable alátoire continue . . . . . . . . . . . . . . . . . . . . .
e
5.5.1 D´finition, esp´rance et variance . . . . . . . . . . . . .
e
e
5.5.2 Variable uniforme . . . . . . . . . . . . . . . . . . . . .
5.5.3 Variable normale . . . . . . . . . . . . . . . . . . . . . .
5.5.4 Variable normale centré r´duite . . . . . . . . . . . . .
e e
5.5.5 Distribution exponentielle . . . . . . . . . . . . . . . . .
5.6 Distribution bivarié . . . . . . . . . . . . . . . . . . . . . . . .
e
5.6.1 Cas continu . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.2 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.4 Ind´pendance de deux variables alátoires . . . . . . . .
e
e
5.7 Propri´t´s des esp´rances et des variances . . . . . . . . . . . .
ee
e
5.8 Autres variables alátoires . . . . . . . . . . . . . . . . . . . . .
e
5.8.1 Variable khi-carré . . . . . . . . . . . . . . . . . . . . .
e
5.8.2 Variable de Student . . . . . . . . . . . . . . . . . . . .
5.8.3 Variable de Fisher . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

87
87
87
87
88
89
89
92
93
94
94
94
95
95
95
96
96
97
97
97
98
102
103
103
105
108
108
110
110
111
112
113
113
114
116
116
117
117

`
TABLE DES MATIERES

8
5.8.4

Loi normale bivarié . . . . . . . . . . . . . . . . . . . . . 118
e

6 S´ries temporelles, filtres, moyennes mobiles et d´saisonnalisation127
e
e
6.1 D´finitions gń´rales et exemples . . . . . . . . . . . . . . . . . . 127
e
e e
6.1.1 D´finitions . . . . . . . . . . . . . . . . . . . . . . . . . . 127
e
6.1.2 Traitement des s´ries temporelles . . . . . . . . . . . . . . 128
e
6.1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.2 Description de la tendance . . . . . . . . . . . . . . . . . . . . . . 133
6.2.1 Les principaux mod`les . . . . . . . . . . . . . . . . . . . 133
e
6.2.2 Tendance lináire . . . . . . . . . . . . . . . . . . . . . . . 134
e
6.2.3 Tendance quadratique . . . . . . . . . . . . . . . . . . . . 134
6.2.4 Tendance polynomiale d’ordre q . . . . . . . . . . . . . . 134
6.2.5 Tendance logistique . . . . . . . . . . . . . . . . . . . . . 134
6.3 Op´rateurs de dćalage et de diff´rence . . . . . . . . . . . . . . . 136
e
e
e
6.3.1 Op´rateurs de dćalage . . . . . . . . . . . . . . . . . . . 136
e
e
6.3.2 Op´rateur diff´rence . . . . . . . . . . . . . . . . . . . . . 136
e
e
6.3.3 Diff´rence saisonni`re . . . . . . . . . . . . . . . . . . . . 138
e
e
6.4 Filtres lináires et moyennes mobiles . . . . . . . . . . . . . . . . 140
e
6.4.1 Filtres lináires . . . . . . . . . . . . . . . . . . . . . . . . 140
e
6.4.2 Moyennes mobiles : d´finition . . . . . . . . . . . . . . . . 140
e
6.4.3 Moyenne mobile et composante saisonni`re . . . . . . . . 141
e
6.5 Moyennes mobiles particuli`res . . . . . . . . . . . . . . . . . . . 143
e
6.5.1 Moyenne mobile de Van Hann . . . . . . . . . . . . . . . . 143
6.5.2 Moyenne mobile de Spencer . . . . . . . . . . . . . . . . . 143
6.5.3 Moyenne mobile de Henderson . . . . . . . . . . . . . . . 144
6.5.4 M´dianes mobiles . . . . . . . . . . . . . . . . . . . . . . . 145
e
6.6 D´saisonnalisation . . . . . . . . . . . . . . . . . . . . . . . . . . 145
e
6.6.1 M´thode additive . . . . . . . . . . . . . . . . . . . . . . . 145
e
6.6.2 M´thode multiplicative . . . . . . . . . . . . . . . . . . . 145
e
6.7 Lissage exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.7.1 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . 147
6.7.2 Lissage exponentiel double . . . . . . . . . . . . . . . . . . 150
7 Tables statistiques

157

Chapitre 1

Variables, donnés
e
statistiques, tableaux,
effectifs
1.1
1.1.1

D´finitions fondamentales
e
La science statistique

– M´thode scientifique du traitement des donnés quantitatives.
e
e
– Etymologiquement : science de l’´tat.
e
– La statistique s’applique ` la plupart des disciplines : agronomie, biologie,
a
d´mographie, ćonomie, sociologie, linguistique, psychologie, . . .
e
e

1.1.2

Mesure et variable

– On s’int´resse ` des unit´s statistiques ou unit´s d’observation : par exemple
e
a
e
e
des individus, des entreprises, des mńages. En sciences humaines, on
e
s’int´resse dans la plupart des cas ` un nombre fini d’unit´s.
e
a
e
– Sur ces unit´s, on mesure un caract`re ou une variable, le chiffre d’affaires
e
e
de l’entreprise, le revenu du mńage, l’ˆge de la personne, la cat´gorie soe
a
e
cioprofessionnelle d’une personne. On suppose que la variable prend toujours une seule valeur sur chaque unit´. Les variables sont d´signés par
e
e
e
simplicit´ par une lettre (X, Y, Z).
e
– Les valeurs possibles de la variable, sont appelés modalit´s.
e
e
– L’ensemble des valeurs possibles ou des modalit´s est appel´ le domaine
e
e
de la variable.

1.1.3

Typologie des variables

– Variable qualitative : La variable est dite qualitative quand les modalit´s
e
9

´
10CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
sont des cat´gories.
e
– Variable qualitative nominale : La variable est dite qualitative nominale
quand les modalit´s ne peuvent pas ˆtre ordonnés.
e
e
e
– Variable qualitative ordinale : La variable est dite qualitative ordinale
quand les modalit´s peuvent ˆtre ordonnés. Le fait de pouvoir ou non
e
e
e
ordonner les modalit´s est parfois discutable. Par exemple : dans les
e
cat´gories socioprofessionnelles, on admet d’ordonner les modalit´s :
e
e
‘ouvriers’, ‘employ´s’, ‘cadres’. Si on ajoute les modalit´s ‘sans profese
e
sion’, ‘enseignant’, ‘artisan’, l’ordre devient beaucoup plus discutable.
– Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont num´riques.
e
– Variable quantitative discr`te : Une variable est dite discr`te, si l’ene
e
semble des valeurs possibles est dńombrable.
e
– Variable quantitative continue : Une variable est dite continue, si l’ensemble des valeurs possibles est continu.
Remarque 1.1 Ces d´finitions sont ` relativiser, l’ˆge est thóriquement
e
a
a
e
une variable quantitative continue, mais en pratique, l’ˆge est mesur´ dans le
a
e
meilleur des cas au jour pr`s. Toute mesure est limité en prćision !
e
e
e

Exemple 1.1 Les modalit´s de la variable sexe sont masculin (cod´ M) et
e
e
f´minin (cod´ F). Le domaine de la variable est {M, F }.
e
e

Exemple 1.2 Les modalit´s de la variable nombre d’enfants par famille sont
e
0,1,2,3,4,5,. . .C’est une variable quantitative discr`te.
e

1.1.4

S´rie statistique
e

On appelle s´rie statistique la suite des valeurs prises par une variable X sur
e
les unit´s d’observation.
e
Le nombre d’unit´s d’observation est not´ n.
e
e
Les valeurs de la variable X sont notés
e
x1 , . . . , xi , . . . , xn .
Exemple 1.3 On s’int´resse ` la variable ‘´tat-civil’ noté X et ` la s´rie stae
a
e
e
a
e
tistique des valeurs prises par X sur 20 personnes. La codification est
C:
M:
V:
D:

c´libataire,
e
mari´(e),
e
veuf(ve),
divorcé.
e

1.2. VARIABLE QUALITATIVE NOMINALE

11

Le domaine de la variable X est {C, M, V, D}. Consid´rons la s´rie statistique
e
e
suivante :
M M D C C M C C C M
C M V M V D C C C M
Ici, n = 20,
x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.

1.2

Variable qualitative nominale

1.2.1

Effectifs, fr´quences et tableau statistique
e

Une variable qualitative nominale a des valeurs distinctes qui ne peuvent
pas ˆtre ordonnés. On note J le nombre de valeurs distinctes ou modalit´s.
e
e
e
Les valeurs distinctes sont notés x1 , . . . , xj , . . . , xJ . On appelle effectif d’une
e
modalit´ ou d’une valeur distincte, le nombre de fois que cette modalit´ (ou
e
e
valeur distincte) apparaˆ On note nj l’effectif de la modalit´ xj . La fr´quence
ıt.
e
e
d’une modalit´ est l’effectif divis´ par le nombre d’unit´s d’observation.
e
e
e
fj =

nj
, j = 1, . . . , J.
n

Exemple 1.4 Avec la s´rie de l’exemple prć´dent, on obtient le tableau stae
e e
tistique :
xj
C
M
V
D

nj
9
7
2
2
n = 20

fj
0.45
0.35
0.10
0.10
1

´
En langage R

>X=c(’Mari´(e)’,’Mari´(e)’,’Divorc´(e)’,’C´libataire’,’C´libataire’,’Mari´(e)’,’C´li
e
e
e
e
e
e
e
’C´libataire’,’C´libataire’,’Mari´(e)’,’C´libataire’,’Mari´(e)’,’Veuf(ve)’,’Mar
e
e
e
e
e
’Veuf(ve)’,’Divorc´(e)’,’C´libataire’,’C´libataire’,’C´libataire’,’Mari´(e)’)
e
e
e
e
e
> T1=table(X)
> V1=c(T1)
> data.frame(Eff=V1,Freq=V1/sum(V1))
Eff Freq
C´libataire
e
9 0.45
Divorc´(e)
e
2 0.10
Mari´(e)
e
7 0.35
Veuf(ve)
2 0.10

1.2.2

Diagramme en secteurs et diagramme en barres

Le tableau statistique d’une variable qualitative nominale peut ˆtre repr´sent´
e
e
e
par deux types de graphique. Les eﬀectifs sont repr´sent´s par un diagramme
e
e
en barres et les fr´quences par un diagramme en secteurs (ou camembert ou
e
piechart en anglais) (voir Figures 1.1 et 1.2).
Célibataire

Divorcé(e)
Veuf(ve)

Marié(e)

Figure 1.1 – Diagramme en secteurs des fr´quences
e

En langage R
> pie(T1,radius=1.0)

13

0

2

4

6

8

10

1.3. VARIABLE QUALITATIVE ORDINALE

Célibataire

Divorcé(e)

Marié(e)

Veuf(ve)

Figure 1.2 – Diagramme en barres des effectifs
En langage R
>m=max(V1)
>barplot(T1, ylim=c(0,m+1))

1.3
1.3.1

Variable qualitative ordinale
Le tableau statistique

Les valeurs distinctes d’une variable ordinale peuvent ˆtre ordonnés, ce
e
e
qu’on ćrit
e
x1 ≺ x2 ≺ · · · ≺ xj−1 ≺ xj ≺ · · · ≺ xJ−1 ≺ xJ .
La notation x1 ≺ x2 se lit x1 prć`de x2 .
e e
Si la variable est ordinale, on peut calculer les effectifs cumul´s :
e
Nj =

j
∑

nk , j = 1, . . . , J.

k=1

On a N1 = n1 et NJ = n. On peut ´galement calculer les fr´quences cumulés
e
e
e
∑
Nj
=
fk , j = 1, . . . , J.
n
j

Fj =

k=1

Exemple 1.5 On interroge 50 personnes sur leur dernier diplˆme obtenu (vao
riable Y ). La codification a ´t´ faite selon le Tableau 1.1. On a obtenu la s´rie
ee
e

´

Table 1.1 – Codiﬁcation de la variable Y
Dernier diplˆme obtenu
o
Sans diplˆme
o
Primaire
Secondaire
Sup´rieur non-universitaire
e
Universitaire

xj
Sd
P
Se
Su
U

Table 1.2 – S´rie statistique de la variable Y
e
Sd
Se
Su

Sd
Se
Su

Sd
Se
Su

Sd
Se
Su

P
Se
U

P
Se
U

P
Se
U

P
Se
U

P
Se
U

P
Se
U

P
Se
U

P
Se
U

P
Su
U

P
Su
U

P
Su
U

Se
Su
U

Se
Su

Table 1.3 – Tableau statistique complet
xj
Sd
P
Se
Su
U

nj
4
11
14
9
12
50

Nj
4
15
29
38
50

fj
0.08
0.22
0.28
0.18
0.24
1.00

Fj
0.08
0.30
0.58
0.76
1.00

statistique pr´sent´e dans le tableau 1.2. Finalement, on obtient le tableau stae
e
tistique complet pr´sent´ dans le Tableau 1.3.
e
e
En langage R
> YY=c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P",
"Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se",
"Su","Su","Su","Su","Su","Su","Su","Su","Su",
"U","U","U","U","U","U","U","U","U","U","U","U")
YF=factor(YY,levels=c("Sd","P","Se","Su","U"))
T2=table(YF)
V2=c(T2)
> data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2)))
Eff EffCum Freq FreqCum
Sd
4
4 0.08
0.08

1.3. VARIABLE QUALITATIVE ORDINALE
P
Se
Su
U

11
14
9
12

1.3.2

15
29
38
50

0.22
0.28
0.18
0.24

15

0.30
0.58
0.76
1.00

Diagramme en secteurs

Les fr´quences d’une variable qualitative ordinale sont repr´sentés au moyen
e
e
e
d’un diagramme en secteurs (voir Figure 1.3).
P

Se
Sd

U
Su

Figure 1.3 – Diagramme en secteurs des fr´quences
e
En langage R
> pie(T2,radius=1)

1.3.3

Diagramme en barres des effectifs

Les effectifs d’une variable qualitative ordinale sont repr´sent´s au moyen
e
e
d’un diagramme en barres (voir Figure 1.4).
En langage R
> barplot(T2)

0

2

4

6

8

10

12

14

´

Sd

P

Se

Su

U

Figure 1.4 – Diagramme en barres des effectifs

1.3.4

Diagramme en barres des effectifs cumul´s
e

0

10

20

30

40

50

Les effectifs cumul´s d’une variable qualitative ordinale sont repr´sent´s au
e
e
e
moyen d’un diagramme en barres (voir Figure 1.5).

Sd

P

Se

Su

U

Figure 1.5 – Diagramme en barres des effectifs cumul´s
e

`
1.4. VARIABLE QUANTITATIVE DISCRETE

17

En langage R
> T3=cumsum(T2)
> barplot(T3)

1.4
1.4.1

Variable quantitative discr`te
e

Une variable discr`te a un domaine dńombrable.
e
e
Exemple 1.6 Un quartier est compos´ de 50 mńages, et la variable Z repr´sente
e
e
e
le nombre de personnes par mńage. Les valeurs de la variable sont
e
1
2
3
4
5

1
2
3
4
5

1
2
3
4
5

1
2
3
4
5

1
3
3
4
5

2
3
3
4
6

2
3
3
4
6

2
3
3
4
6

2
3
3
4
8

2
3
4
5
8

Comme pour les variables qualitatives ordinales, on peut calculer les effectifs,
`
les effectifs cumul´s, les fr´quences, les fr´quences cumulés. A nouveau, on peut
e
e
e
e
construire le tableau statistique :
xj
1
2
3
4
5
6
8

nj
5
9
15
10
6
3
2
50

Nj
5
14
29
39
45
48
50

fj
0.10
0.18
0.30
0.20
0.12
0.06
0.04
1.0

Fj
0.10
0.28
0.58
0.78
0.90
0.96
1.00

En langage R
>
+
>
>
>

Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,
4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
T4=table(Z)
T4c=c(T4)
data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),FreqCum=cumsum(T4c/sum(T4c)))

´
1
2
3
4
5
6
8

5
9
15
10
6
3
2

1.4.2

5
14
29
39
45
48
50

0.10
0.18
0.30
0.20
0.12
0.06
0.04

0.10
0.28
0.58
0.78
0.90
0.96
1.00

Diagramme en bˆtonnets des effectifs
a

0

5

10

15

Quand la variable est discr`te, les effectifs sont repr´sent´s par des bˆtonnets
e
e
e
a
(voir Figure 1.6).

1

2

3

4

5

6

8

Figure 1.6 – Diagramme en bˆtonnets des effectifs pour une variable quantia
tative discr`te
e

En langage R
> plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)

1.5. VARIABLE QUANTITATIVE CONTINUE

1.4.3

19

Fonction de r´partition
e

0.0

0.2

0.4

0.6

0.8

1.0

Les fr´quences cumulés sont repr´sentés au moyen de la fonction de r´partition.
e
e
e
e
e
Cette fonction, pr´senté en Figure 1.7,est d´finie de R dans [0, 1] et vaut :
e
e
e

x < x1
 0
Fj xj ≤ x < xj+1
F (x) =

1
xJ ≤ x.

0

2

4

6

8

Figure 1.7 – Fonction de r´partition d’une variable quantitative discr`te
e
e
En langage R
> plot(ecdf(Z),xlab="",ylab="",main="",frame=0)

1.5
1.5.1

Variable quantitative continue

Une variable quantitative continue peut prendre une infinit´ de valeurs pose
sibles. Le domaine de la variable est alors R ou un intervalle de R. En pratique,
une mesure est limité en prćision. La taille peut ˆtre mesuré en centim`tres,
e
e
e
e
e
voire en millim`tres. On peut alors traiter les variables continues comme des
e
variables discr`tes. Cependant, pour faire des repr´sentations graphiques et
e
e

´
construire le tableau statistique, il faut proc´der ` des regroupements en classes.
e
a
Le tableau regroup´ en classe est souvent appel´ distribution groupé. Si [c− ; c+ [
e
e
e
j
j
designe la classe j, on note, de mani`re gń´rale :
e
e e
–
–
–
–
–
–
–
–

c− la borne inf´rieure de la classe j,
e
j
+
cj la borne sup´rieure de la classe j,
e
cj = (c+ + c− )/2 le centre de la classe j,
j
j
aj = c+ − c− l’amplitude de la classe j,
j
j
nj l’effectif de la classe j,
Nj l’effectif cumul´ de la classe j,
e
fj la fr´quence de la classe j,
e
Fj la fr´quence cumulé de la classe j.
e
e

La r´partition en classes des donnés nćessite de d´finir a priori le nombre
e
e
e
e
de classes J et donc l’amplitude de chaque classe. En r`gle gń´rale, on choisit
e
e e
au moins cinq classes de mˆme amplitude. Cependant, il existent des formules
e
qui nous permettent d’´tablir le nombre de classes et l’intervalle de classe (l’ame
plitude) pour une s´rie statistique de n observations.
e
– La r`gle de Sturge : J = 1√ (3.3 log10 (n)).
e
+
– La r`gle de Yule : J = 2.5 4 n.
e
L’intervalle de classe est obtenue ensuite de la mani`re suivante : longueur
e
de l’intervalle = (xmax − xmin )/J, o` xmax (resp. xmin ) d´signe la plus grande
u
e
(resp. la plus petite) valeur observé.
e

Remarque 1.2 Il faut arrondir le nombre de classe J ` l’entier le plus proche.
a
Par commodit´, on peut aussi arrondir la valeur obtenue de l’intervalle de classe.
e
A partir de la plus petite valeur observé, on obtient les bornes de classes
e
en additionnant successivement l’intervalle de classe (l’amplitude).

Exemple 1.7 On mesure la taille en centimetres de 50 ´l`ves d’une classe :
ee
152
154
156
157
159
161
162
164
168
170

152
154
156
157
159
160
162
164
168
171

152
154
156
157
160
160
163
165
168
171

153
155
156
158
160
161
164
166
169
171

153
155
156
158
160
162
164
167
169
171


21

On a les classes de tailles d´finies práblement comme il suit :
e
e
[151, 5; 155, 5[
[155, 5; 159, 5[
[159, 5; 163, 5[
[163, 5; 167, 5[
[167, 5; 171, 5[
On construit le tableau statistique.
[c− , c+ ]
j
j
[151, 5; 155, 5[
[155, 5; 159, 5[
[159, 5; 163, 5[
[163, 5; 167, 5[
[167, 5; 171, 5[

nj
10
12
11
7
10
50

Nj
10
22
33
40
50

fj
0.20
0.24
0.22
0.14
0.20
1.00

Fj
0.20
0.44
0.66
0.80
1.00

En langage R
> S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156,
+ 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162, +
162,162,163,164,164,164,164,165,166,167,168,168,168,169,169, +
170,171,171,171,171)
> T5=table(cut(S, breaks=c(151,155,159,163,167,171)))
> T5c=c(T5)
> data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c)))
(151,155] 10
10 0.20
0.20 (155,159] 12
22 0.24 0.44
(159,163] 11
33 0.22
0.66 (163,167]
7
40 0.14 0.80
(167,171] 10
50 0.20
1.00

1.5.2

Histogramme

L’histogramme consiste ` repr´senter les effectifs (resp. les fr´quences) des
a
e
e
classes par des rectangles contigus dont la surface (et non la hauteur) repr´sente
e
l’effectif (resp. la fr´quence). Pour un histogramme des effectifs, la hauteur du
e
rectangle correspondant ` la classe j est donc donné par :
a
e
hj =
– On appelle hj la densit´ d’effectif.
e

nj
aj

´
– L’aire de l’histogramme est ´gale ` l’effectif total n, puisque l’aire de
e
a
chaque rectangle est ´gale ` l’effectif de la classe j : aj × hj = nj .
e
a
Pour un histogramme des fr´quences on a
e
dj =

fj
aj

0.00

0.02

0.04

0.06

– On appelle dj la densit´ de fr´quence.
e
e
– L’aire de l’histogramme est ´gale ` 1, puisque l’aire de chaque rectangle
e
a
est ´gale ` la fr´quence de la classe j : aj × dj = fj .
e
a
e
Figure 1.8 repr´sente l’histogramme des fr´quences de l’exemple prćedent :
e
e
e

151.5

155.5

159.5

163.5

167.5

171.5

Figure 1.8 – Histogramme des fr´quences
e

En langage R
> hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), freq=FALSE,
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

Si les deux derni`res classes sont agr´gés, comme dans la Figure 1.9, la
e
e e
surface du dernier rectangle est ´gale ` la surface des deux derniers rectangles
e
a
de l’histogramme de la Figure 1.8.
En langage R
> hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5),
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,171.5))

23

0.00

0.02

0.04

0.06


151.5

155.5

159.5

163.5

171.5

Figure 1.9 – Histogramme des fr´quences avec les deux derni`res classes
e
e
agr´gés
e e
Remarque 1.3 Dans le cas de classes de mˆme amplitude certains auteurs
e
et logiciels repr´sentent l’histogramme avec les effectifs (resp. les fr´quences)
e
e
report´s en ordonné, l’aire de chaque rectangle ´tant proportionnelle ` l’effectif
e
e
e
a
(resp. la fr´quence) de la classe.
e

1.5.3

La fonction de r´partition
e

La fonction de r´partition F (x) est une fonction de R dans [0, 1], qui est
e
d´finie par
e

x < c−
 0
1

fj
−
Fj−1 + c+ −c− (x − cj ) c− ≤ x < c+
F (x) =
j
j
j
j


1
c+ ≤ x
J

´

0.0 0.2 0.4 0.6 0.8 1.0

Figure 1.10 – Fonction de r´partition d’une distribution group´e
e
e

151.5

155.5

159.5

163.5

167.5

171.5

En langage R
>
>
>
>

y=c(0,0,cumsum(T5c/sum(T5c)),1)
x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175)
plot(x,y,type="b",xlab="",ylab="",xaxt = "n")
axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

25

´

Chapitre 2

Statistique descriptive
univarié
e
2.1
2.1.1

Param`tres de position
e
Le mode

Le mode est la valeur distincte correspondant ` l’effectif le plus ´lev´ ; il est
a
e e
not´ xM .
e
Si on reprend la variable ‘Etat civil’ , dont le tableau statistique est le suivant :
xj
nj
fj
C
9
0.45
M
7
0.35
V
2
0.10
D
2
0.10
n = 20
1
le mode est C : c´libataire.
e
Remarque 2.1
– Le mode peut ˆtre calcul´ pour tous les types de variable, quantitative et
e
e
qualitative.
– Le mode n’est pas nćessairement unique.
e
– Quand une variable continue est dćoupé en classes, on peut d´finir une
e
e
e
classe modale (classe correspondant ` l’effectif le plus ´lev´).
a
e e

2.1.2

La moyenne

La moyenne ne peut ˆtre d´finie que sur une variable quantitative.
e
e
27

28

´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

La moyenne est la somme des valeurs observés divisé par leur nombre, elle
e
e
est noté x :
e ¯
x1 + x2 + · · · + xi + · · · + xn
1∑
xi .
x=
¯
=
n
n i=1
n

La moyenne peut ˆtre calculé ` partir des valeurs distinctes et des effectifs
e
e a
1∑
n j xj .
n j=1
J

x=
¯

Exemple 2.1 Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4.
La moyenne est
x=
¯

0+0+1+1+1+2+3+4
12
=
= 1.5.
8
8

On peut aussi faire les calculs avec les valeurs distinctes et les effectifs. On
consid`re le tableau :
e
xj nj
0
2
1
3
2
1
3
1
4
1
8

2×0+3×1+1×2+1×3+1×4
8
3+2+3+4
=
8
= 1.5.

x =
¯

Remarque 2.2 La moyenne n’est pas nćessairement une valeur possible.
e
En langage R
E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n
xb
xb=mean(E)
xb

`
2.1. PARAMETRES DE POSITION

2.1.3

29

Remarques sur le signe de sommation

D´finition 2.1
e

n
∑

∑

xi = x1 + x2 + · · · + xn .

i=1

1. En statistique les xi sont souvent les valeurs observés.
e
n
n
∑
∑
2. L’indice est muet :
xi =
xj .
i=1

j=1

3. Quand il n’y a pas de confusion possible, on peut ćrire
e

∑
i

xi .

Exemple 2.2
1.

4
∑

xi = x1 + x2 + x3 + x4 .

i=1

2.

5
∑

xi2 = x32 + x42 + x52 .

i=3

3.

3
∑

i = 1 + 2 + 3 = 6.

i=1

4. On peut utiliser plusieurs sommations emboˆ ees, mais il faut bien distinıt´
guer les indices :
3
2
∑∑

xij

= x11 + x12

(i = 1)

+ x21 + x22
+ x31 + x32

(i = 2)
(i = 3)

i=1 j=1

5. On peut exclure une valeur de l’indice.
5
∑

xi = x1 + x2 + x4 + x5 .

i=1
i̸=3

Propri´t´ 2.1
e e
1. Somme d’une constante
n
∑
i=1

a = a + a + · · · + a = na
n

fois

(a constante).

´

30
Exemple

5
∑

3 = 3 + 3 + 3 + 3 + 3 = 5 × 3 = 15.

i=1

2. Mise en ´vidence
e
n
∑

axi = a

i=1

n
∑

xi

(a constante).

i=1

Exemple
3
∑

2 × i = 2(1 + 2 + 3) = 2 × 6 = 12.

i=1

3. Somme des n premiers entiers
n
∑

i = 1 + 2 + 3 + ··· + n =

i=1

n(n + 1)
.
2

4. Distribution
n
∑

(xi + yi ) =

i=1

n
∑

xi +

i=1

n
∑

yi .

i=1

5. Distribution
n
∑

(xi − yi ) =

i=1

n
∑

xi −

i=1

n
∑

yi .

i=1

1∑
xi )
n i=1
n

Exemple (avec x =
¯
n
∑

(xi − x) =
¯

i=1

n
∑
i=1

xi −

n
∑

1∑
xi − n¯ = n¯ − n¯ = 0.
x
x
x
n i=1
n

x=n
¯

i=1

6. Somme de carr´s
e
n
∑
i=1

(xi − yi )2 =

n
∑

2
(x2 − 2xi yi + yi ) =
i

i=1

n
∑

x2 − 2
i

i=1

C’est une application de la formule
(a − b)2 = a2 − 2ab + b2 .

n
∑
i=1

xi y i +

n
∑
i=1

2
yi .

`

2.1.4

31

Moyenne góm´trique
e
e

Si xi ≥ 0, on appelle moyenne góm´trique la quantit´
e e
e
( n )1/n
∏
1/n
xi
= (x1 × x2 × · · · × xn )
.
G=
i=1

On peut ćrire la moyenne góm´trique comme l’exponentielle de la moyenne
e
e e
arithm´tique des logarithmes des valeurs observés
e
e
( n )1/n
n
n
∏
∏
1∑
1
G = exp log G = exp log
xi = exp
xi
= exp log
log xi .
n
n i=1
i=1
i=1
La moyenne góm´trique s’utilise, par exemple, quand on veut calculer la moyenne
e e
de taux d’int´rˆt.
ee
Exemple 2.3 Supposons que les taux d’int´rˆt pour 4 annés consćutives
ee
e
e
soient respectivement de 5, 10, 15, et 10%. Que va-t-on obtenir apr`s 4 ans si je
e
place 100 francs ?
– Apr`s 1 an on a, 100 × 1.05 = 105 Fr.
e
– Apr`s 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr.
e
– Apr`s 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr.
e
– Apr`s 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr.
e
Si on calcule la moyenne arithm´tique des taux on obtient
e
1.05 + 1.10 + 1.15 + 1.10
= 1.10.
4
Si on calcule la moyenne góm´trique des taux, on obtient
e e
x=
¯

G = (1.05 × 1.10 × 1.15 × 1.10)

1/4

= 1.099431377.

Le bon taux moyen est bien G et non x, car si on applique 4 fois le taux moyen
¯
G aux 100 francs, on obtient
100 Fr × G4 = 100 × 1.0994313774 = 146.1075 Fr.

2.1.5

Moyenne harmonique

Si xi ≥ 0, on appelle moyenne harmonique la quantit´
e
n
H = ∑n
.
i=1 1/xi
Il est judicieux d’appliquer la moyenne harmonique sur des vitesses.
Exemple 2.4 Un cycliste parcourt 4 ´tapes de 100km. Les vitesses respectives
e
pour ces ´tapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a ´t´ sa
e
ee
vitesse moyenne ?

´

32

– Un raisonnement simple nous dit qu’il a parcouru la premi`re ´tape en
e e
10h, la deuxi`me en 3h20 la troisi`me en 2h30 et la quatri`me en 5h. Il a
e
e
e
donc parcouru le total des 400km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc
400
= 19.2 km/h.
20.8333

Moy =

– Si on calcule la moyenne arithm´tique des vitesses, on obtient
e
x=
¯

10 + 30 + 40 + 20
= 25 km/h.
4

– Si on calcule la moyenne harmonique des vitesses, on obtient
H=

1
10

+

1
30

4
+

1
40

+

1
20

= 19.2 km/h.

La moyenne harmonique est donc la mani`re approprié de calculer la
e
e
vitesse moyenne.

Remarque 2.3 Il est possible de montrer que la moyenne harmonique est toujours inf´rieure ou ´gale ` la moyenne góm´trique qui est toujours inf´rieure
e
e
a
e e
e
ou ´gale ` la moyenne arithm´tique
e
a
e
H ≤ G ≤ x.
¯

2.1.6

Moyenne pond´ré
e e

Dans certains cas, on n’accorde pas le mˆme poids ` toutes les observations.
e
a
Par exemple, si on calcule la moyenne des notes pour un programme d’´tude, on
e
peut pond´rer les notes de l’´tudiant par le nombre de cr´dits ou par le nombre
e
e
e
d’heures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associ´s ` chaque
e a
observation, alors la moyenne pond´ré par wi est d´finie par :
ee
e
∑n
i=1 wi xi
xw = ∑n
¯
.
i=1 wi
Exemple 2.5 Supposons que les notes soient pond´rés par le nombre de
ee
cr´dits, et que les notes de l’´tudiant soient les suivantes :
e
e

`
Note
Cr´dits
e

33

5
6

4
3

3
4

6
3

5
4

La moyenne pond´ré des notes par les cr´dits est alors
ee
e
xw =
¯

6×5+3×4+4×3+3×6+4×5
30 + 12 + 12 + 18 + 20
92
=
=
= 4.6.
6+3+4+3+4
20
20

2.1.7

La m´diane
e

La m´diane, noté x1/2 , est une valeur centrale de la s´rie statistique obtenue
e
e
e
de la mani`re suivante :
e
– On trie la s´rie statistique par ordre croissant des valeurs observés. Avec
e
e
la s´rie observé :
e
e
3 2 1 0 0 1 2,
on obtient :
0 0

1 1

2 2

3.

– La m´diane x1/2 est la valeur qui se trouve au milieu de la s´rie ordonné :
e
e
e
0 0

1 1
↑

2 2

3.

On note alors x1/2 = 1.
Nous allons examiner une mani`re simple de calculer la m´diane. Deux cas
e
e
doivent ˆtre distingu´s.
e
e
– Si n est impair, il n’y a pas de probl`me (ici avec n = 7), alors x1/2 = 1 :
e
0

0

1

1
↑

2

2

3.

La Figure 2.1 montre la fonction de r´partition de la s´rie. La m´diane
e
e
e
peut ˆtre d´finie comme l’inverse de la fonction de r´partition pour la
e
e
e
valeur 1/2 :
x1/2 = F −1 (0.5).
En langage R
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1,0.50,1,0,length=0.14,col="blue")

´

34

0.00

0.50

1.00

Figure 2.1 – M´diane quand n est impair
e

−1

0

1

2

3

4

– Si n est pair, deux valeurs se trouvent au milieu de la s´rie (ici avec n = 8)
e
0

0 1

1 2
↑ ↑

2

3

4

La m´diane est alors la moyenne de ces deux valeurs :
e
x1/2 =

1+2
= 1.5.
2

La Figure 2.2 montre la fonction de r´partition de la s´rie de taille paire.
e
e
La m´diane peut toujours ˆtre d´ﬁnie comme l’inverse de la fonction de
e
e
e
r´partition pour la valeur 1/2 :
e
x1/2 = F −1 (0.5).
Cependant, la fonction de r´partition est discontinue par ‘palier’. L’inverse
e
de la r´partition correspond exactement ` un ‘palier’.
e
a

0.00

0.50

1.00

Figure 2.2 – M´diane quand n est pair
e

−1

En langage R

0

1

2

3

4

5

`

35

x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1.5,0.50,1.5,0,,length=0.14,col="blue")
En gń´ral on note
e e
x(1) , . . . , x(i) , . . . , x(n)
la s´rie ordonné par ordre croissant. On appelle cette s´rie ordonné la statise
e
e
e
tique d’ordre. Cette notation, tr`s usuelle en statistique, permet de d´finir la
e
e
m´diane de mani`re tr`s synth´tique.
e
e
e
e
– Si n est impair
x1/2 = x( n+1 )
2

– Si n est pair
x1/2 =

}
1{
x( n ) + x( n +1) .
2
2
2

Remarque 2.4 La m´diane peut ˆtre calculé sur des variables quantitatives
e
e
e
et sur des variables qualitatives ordinales.

2.1.8

Quantiles

La notion de quantile d’ordre p (o` 0 < p < 1) gń´ralise la m´diane.
u
e e
e
Formellement un quantile est donn´ par l’inverse de la fonction de r´partition :
e
e
xp = F −1 (p).
Si la fonction de r´partition ´tait continue et strictement croissante, la d´finition
e
e
e
du quantile serait sans ´quivoque. La fonction de r´partition est cependant dise
e
continue et “par palier”. Quand la fonction de r´partition est par palier, il existe
e
au moins 9 mani`res diff´rentes de d´finir les quantiles selon que l’on fasse ou
e
e
e
non une interpolation de la fonction de r´partition. Nous pr´sentons une de ces
e
e
m´thodes, mais il ne faut pas s’´tonner de voir les valeurs des quantiles diff´rer
e
e
e
l´g`rement d’un logiciel statistique ` l’autre.
e e
a
– Si np est un nombre entier, alors
xp =

}
1{
x(np) + x(np+1) .
2

– Si np n’est pas un nombre entier, alors
xp = x(⌈np⌉) ,
o` ⌈np⌉ repr´sente le plus petit nombre entier sup´rieur ou ´gal ` np.
u
e
e
e
a

´

36

Remarque 2.5
– La m´diane est le quantile d’ordre p = 1/2.
e
– On utilise souvent
x1/4
le premier quartile,
x3/4
le troisi`me quartile,
e
x1/10 le premier d´cile ,
e
x1/5
le premier quintile,
x4/5
le quatri`me quintile,
e
x9/10 le neuvi`me d´cile,
e
e
x0.05 le cinqui`me percentile ,
e
x0.95 le nonante-cinqui`me percentile.
e
– Si F (x) est la fonction de r´partition, alors F (xp ) ≥ p.
e

Exemple 2.6 Soit la s´rie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28,
e
34 contenant 12 observations (n = 12).
– Le premier quartile : Comme np = 0.25 × 12 = 3 est un nombre entier, on
a
x(3) + x(4)
15 + 16
x1/4 =
=
= 15.5.
2
2
– La m´diane : Comme np = 0.5 × 12 = 6 est un nombre entier, on a
e
x1/2 =

}
1{
x(6) + x(7) = (19 + 22)/2 = 20.5.
2

– Le troisi`me quartile : Comme np = 0.75 × 12 = 9 est un nombre entier,
e
on a
x(9) + x(10)
25 + 27
x3/4 =
=
= 26.
2
2

En langage R
x=c(12,13,15,16,18,19,22,24,25,27,28,34)
quantile(x,type=2)

Exemple 2.7 Soit la s´rie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27
e
contenant 10 observations (n = 10).
– Le premier quartile : Comme np = 0.25 × 10 = 2.5 n’est pas un nombre
entier, on a
x1/4 = x(⌈2.5⌉) = x(3) = 15.

`
2.2. PARAMETRES DE DISPERSION

37

– La m´diane : Comme np = 0.5 × 10 = 5 est un nombre entier, on a
e
x1/2 =

}
1{
x(5) + x(6) = (18 + 19)/2 = 18.5.
2

– Le troisi`me quartile : Comme np = 0.75 × 10 = 7.5 n’est pas un nombre
e
entier, on a
x3/4 = x(⌈7.5⌉) = x(8) = 24.

En langage R
x=c(12,13,15,16,18,19,22,24,25,27)
quantile(x,type=2)

2.2
2.2.1

Param`tres de dispersion
e
L’´tendue
e

L’´tendue est simplement la diff´rence entre la plus grande et la plus petite
e
e
valeur observé.
e
E = x(n) − x(1) .

2.2.2

La distance interquartile

La distance interquartile est la diff´rence entre le troisi`me et le premier
e
e
quartile :
IQ = x3/4 − x1/4 .

2.2.3

La variance

La variance est la somme des carr´s des ćarts ` la moyenne divisé par le
e
e
a
e
nombre d’observations :
n
1∑
s2 =
(xi − x)2 .
¯
x
n i=1
Thór`me 2.1 La variance peut aussi s’ćrire
e e
e
1∑ 2
x − x2 .
¯
n i=1 i
n

s2 =
x

(2.1)

´

38

D´monstration
e
=

1∑ 2
1∑
(xi − x)2 =
¯
(x − 2xi x + x2 )
¯ ¯
n i=1
n i=1 i

=

1∑
1∑ 2
1∑ 2
1∑
1∑ 2
xi − 2
xi x +
¯
x =
¯
xi − 2¯
x
xi + x2
¯
n i=1
n i=1
n i=1
n i=1
n i=1

=

1∑ 2
1∑ 2
xi − 2¯x + x2 =
x¯ ¯
x − x2 .
¯
n i=1
n i=1 i

n

s2
x

n

n

n

n

n

n

n

n

2
La variance peut ´galement ˆtre d´finie ` partir des effectifs et des valeurs
e
e
e
a
distinctes :
J
1∑
s2 =
nj (xj − x)2 .
¯
x
n j=1
La variance peut aussi s’ćrire
e
1∑
n j x2 − x2 .
¯
j
n j=1
J

s2 =
x

Quand on veut estimer une variance d’une variable X ` partir d’un ćhantillon
a
e
(une partie de la population s´lectionné au hasard) de taille n, on utilise la vae
e
riance “corrigé” divisé par n − 1.
e
e
1 ∑
n
(xi − x)2 = s2
¯
.
x
n − 1 i=1
n−1
n

2
Sx =

2
La plupart des logiciels statistiques calculent Sx et non s2 .
x

2.2.4

L’ćart-type
e

L’ćart-type est la racine carré de la variance :
e
e
√
sx = s2 .
x
Quand on veut estimer l’ćart-type d’une variable X partir d’un ćhantillon
e
e
de taille n, utilise la variance “corrigé” pour d´finir l’ćart type
e
e
e
√
√
n
2 =s
Sx = Sx
.
x
n−1
La plupart des logiciels statistiques calculent Sx et non sx .
Exemple 2.8 Soit la s´rie statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a
e
x=
¯

2+3+4+4+5+6+7+9
= 5,
8

`
2.2. PARAMETRES DE DISPERSION

39

1∑
(xi − x)2
¯
n i=1
n

s2
x

=

]
1[
(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2
8
1
=
[9 + 4 + 1 + 1 + 0 + 1 + 4 + 16]
8
36
=
8
= 4.5.

=

On peut ´galement utiliser la formule (2.1) de la variance, ce qui n´cessite moins
e
e
de calcul (surtout quand la moyenne n’est pas un nombre entier).
1∑ 2
¯
x − x2
n i=1 i
n

s2
x

=

1 2
(2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) − 52
8
1
=
(4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) − 25
8
236
=
− 25
8
= 29.5 − 25 = 4.5.
=

En langage R
> x=c(2,3,4,4,5,6,7,9)
> n=length(x)
> s2=sum((x-mean(x))^2)/n
> s2
[1] 4.5
> S2=s2*n/(n-1)
> S2
[1] 5.142857
> S2=var(x)
> S2
[1] 5.142857
> s=sqrt(s2)
> s
[1] 2.121320
> S=sqrt(S2)
> S
[1] 2.267787
> S=sd(x)

40

´

> S
[1] 2.267787
> E=max(x)-min(x)
> E
[1] 7

2.2.5

L’ćart moyen absolu
e

L’ćart moyen absolu est la somme des valeurs absolues des ćarts ` la
e
e
a
moyenne divisé par le nombre d’observations :
e
1∑
=
|xi − x| .
¯
n i=1
n

emoy

2.2.6

L’ćart m´dian absolu
e
e

L’ćart m´dian absolu est la somme des valeurs absolues des ćarts ` la
e
e
e
a
m´diane divisé par le nombre d’observations :
e
e
1∑
xi − x1/2 .
n i=1
n

emed =

2.3

Moments

D´finition 2.2 On appelle moment ` l’origine d’ordre r ∈ N le param`tre
e
a
e
1∑ r
x .
n i=1 i
n

m′ =
r

D´finition 2.3 On appelle moment centr´ d’ordre r ∈ N le param`tre
e
e
e
1∑
(xi − x)r .
¯
n i=1
n

mr =

Les moments gń´ralisent la plupart des param`tres. On a en particulier
e e
e
– m′ = x,
¯
1
– m1 = 0,
1∑ 2
– m′ =
x = s2 + x2 ,
¯
2
x
n i i
– m2 = s2 .
x
Nous verrons plus loin que des moments d’ordres sup´rieurs (r=3,4) sont utilis´s
e
e
pour mesurer la sym´trie et l’aplatissement.
e

`
2.4. PARAMETRES DE FORME

2.4
2.4.1

41

Param`tres de forme
e
Coefficient d’asym´trie de Fisher (skewness)
e

Le moment centr´ d’ordre trois est d´fini par
e
e
1∑
(xi − x)3 .
¯
n i=1
n

m3 =

Il peut prendre des valeurs positives, n´gatives ou nulles. L’asym´trie se mesure
e
e
au moyen du coefficient d’asym´trie de Fisher
e
g1 =

m3
,
s3
x

o` s3 est le cube de l’ćart-type.
u x
e

2.4.2

Coefficient d’asym´trie de Yule
e

Le coefficient d’asym´trie de Yule est bas´ sur les positions des 3 quartiles
e
e
(1er quartile, m´diane et troisi`me quartile), et est normalis´ par la distance
e
e
e
interquartile :
x3/4 + x1/4 − 2x1/2
AY =
.
x3/4 − x1/4

2.4.3

Coefficient d’asym´trie de Pearson
e

Le coefficient d’asym´trie de Pearson est bas´ sur une comparaison de la
e
e
moyenne et du mode, et est standardis´ par l’ćart-type :
e
e
AP =

x − xM
¯
.
sx

Tous les coefficients d’asym´trie ont les mˆmes propri´t´s, ils sont nuls si la
e
e
ee
distribution est sym´trique, n´gatifs si la distribution est allongé ` gauche (left
e
e
e a
asymmetry), et positifs si la distribution est allongé ` droite (right asymmetry)
e a
comme montr´ dans la Figure 2.3.
e

Figure 2.3 – Asym´trie d’une distribution
e

´

42

Remarque 2.6 Certaines variables sont toujours tr`s asym´triques ` droite,
e
e
a
comme les revenus, les tailles des entreprises, ou des communes. Une m´thode
e
simple pour rendre une variable sym´trique consiste alors ` prendre le logae
a
rithme de cette variable.

2.5

Param`tre d’aplatissement (kurtosis)
e

L’aplatissement est mesur´ par le coefficient d’aplatissement de Pearson
e
β2 =

m4
,
s4
x

ou le coefficient d’aplatissement de Fisher
g2 = β2 − 3 =

m4
− 3,
s4
x

o` m4 est le moment centr´ d’ordre 4, et s4 est le carr´ de la variance.
u
e
e
x
– Une courbe m´sokurtique si g2 ≈ 0.
e
– Une courbe leptokurtique si g2 > 0. Elle est plus pointue et poss`de des
e
queues plus longues.
– Une courbe platykurtique si g2 < 0. Elle est plus arrondie et poss`de des
e
queues plus courtes.
Dans la Figure 2.4, on pr´sente un exemple de deux distributions de mˆme
e
e
moyenne et de mˆme variance. La distribution plus pointue est leptokurtique,
e
l’autre est m´sokurtique. La distribution leptokurtique a une queue plus ´paisse.
e
e
0.0175

0.6

0.015
0.5
0.0125
0.4

0.01

0.3

0.0075

0.2

-4

-2

0.005

0.1

0.0025
2

4

2.6 2.8

3.2 3.4 3.6 3.8

4

Figure 2.4 – Distributions m´sokurtique et leptokurtique
e

2.6

Changement d’origine et d’unit´
e

D´finition 2.4 On appelle changement d’origine l’op´ration consistant ` ajoue
e
a
ter (ou soustraire) la mˆme quantit´ a ∈ R ` toutes les observations
e
e
a
yi = a + xi , i = 1, . . . , n

´
2.6. CHANGEMENT D’ORIGINE ET D’UNITE

43

D´finition 2.5 On appelle changement d’unit´ l’op´ration consistant ` multie
e
e
a
plier (ou diviser) par la mˆme quantit´ b ∈ R toutes les observations
e
e
yi = bxi , i = 1, . . . , n.
D´finition 2.6 On appelle changement d’origine et d’unit´ l’op´ration consise
e
e
tant ` multiplier toutes les observations par la mˆme quantit´ b ∈ R puis `
a
e
e
a
ajouter la mˆme quantit´ a ∈ R ` toutes les observations :
e
e
a
yi = a + bxi , i = 1, . . . , n.
Thór`me 2.2 Si on effectue un changement d’origine et d’unit´ sur une vae e
e
riable X, alors sa moyenne est affecté du mˆme changement d’origine et d’unit´.
e
e
e
D´monstration Si yi = a + bxi , alors
e
1∑
1∑
(a + bxi ) = a + b
xi = a + b¯.
x
n i=1
n i=1
n

y=
¯

n

2
Thór`me 2.3 Si on effectue un changement d’origine et d’unit´ sur une vae e
e
riable X, alors sa variance est affecté par le carr´ du changement d’unit´ et
e
e
e
pas par le changement d’origine.
D´monstration Si yi = a + bxi , alors
e
1∑
1∑
1∑
2
2
(yi − y )2 =
¯
(a + bxi − a − b¯) = b2
x
(xi − x) = b2 s2 .
¯
x
n i=1
n i=1
n i=1
n

s2 =
y

n

n

2
Remarque 2.7
1. Les param`tres de position sont tous affect´s par un changement d’origine
e
e
et d’unit´.
e
2. Les param`tres de dispersion sont tous affect´s par un changement d’unit´
e
e
e
mais pas par un changement d’origine.
3. Les param`tres de forme et d’aplatissement ne sont affect´s ni par un
e
e
changement d’unit´ ni par un changement d’origine.
e

´

44

2.7

Moyennes et variances dans des groupes

Supposons que les n observations soient r´parties dans deux groupes GA et
e
GB . Les nA premi`res observations sont dans le groupe GA et les nB derni`res
e
e
observations sont dans le groupe GB , avec la relation
nA + nB = n.
On suppose que la s´rie statistique contient d’abord les unit´s de GA puis les
e
e
unit´s de GB :
e
x1 , x2 , . . . , xnA −1 , xnA , xnA +1 , xnA +2 , . . . , xn−1 , xn .
observations de

observations de

GA

GB

On d´finit les moyennes des deux groupes :
e
nA
1 ∑
– la moyenne du premier groupe xA =
¯
xi ,
nA i=1
n
1 ∑
xi .
– la moyenne du deuxi`me groupe xB =
e
¯
nB i=n +1
A
La moyenne gń´rale est une moyenne pond´ré par la taille des groupes des
e e
ee
moyennes des deux groupes. En effet
(n
)
n
A
∑
1 ∑
1
x=
¯
xi +
xi = (nA xA + nB xB ) .
¯
¯
n i=1
n
i=n +1
A

On peut ´galement d´finir les variances des deux groupes :
e
e
nA
1 ∑
– la variance du premier groupe s2 =
(xi − xA )2 ,
¯
A
nA i=1
n
1 ∑
– la variance du deuxi`me groupe s2 =
e
(xi − xB )2 .
¯
B
nB i=n +1
A

Thór`me 2.4 (de Huygens) La variance totale, d´finie par
e e
e
1∑
(xi − x)2 ,
¯
n i=1
n

s2 =
x

se dćompose de la mani`re suivante :
e
e
nA s2 + nB s2
A
B
n

s2 =
x

variance intra-groupes

+

nA (¯A − x)2 + nB (¯B − x)2
x
¯
x
¯
.
n
variance inter-groupes

D´monstration
e
s2
x

[n
]
n
n
A
∑
1∑
1 ∑
2
2
2
=
(xi − x) =
¯
(xi − x) +
¯
(xi − x)
¯
n i=1
n i=1
i=n +1
A

(2.2)

2.8. DIAGRAMME EN TIGES ET FEUILLES

45

On note que
nA
∑

(xi − x)2
¯

i=1

=

nA
∑

(xi − xA + xA − x)2
¯
¯
¯

i=1

=

nA
∑

(xi − xA )2 +
¯

i=1

nA
∑

(¯A − x)2 + 2
x
¯

i=1

nA
∑

(xi − xA )(¯A − x)
¯ x
¯

i=1
=0

= nA s2 + nA (¯A − x)2 .
x
¯
A
On a ´videmment la mˆme relation dans le groupe GB :
e
e
n
∑

(xi − x)2 = nB s2 + nB (¯B − x)2 .
¯
x
¯
B

i=nA +1

En revenant ` l’expression (2.2), on obtient
a
[n
]
n
A
∑
1 ∑
2
2
2
sx =
(xi − x) +
¯
(xi − x)
¯
n i=1
i=n +1
A

=
=

]
1[
nA s2 + nA (¯A − x)2 + nB s2 + nB (¯B − x)2
x
¯
x
¯
A
B
n
nA (¯A − x)2 + nB (¯B − x)2
x
¯
x
¯
nA s2 + nB s2
A
B
+
.
n
n
2

2.8

Diagramme en tiges et feuilles

Le diagramme en tiges et feuilles ou Stem and leaf diagram est une mani`re
e
rapide de pr´senter une variable quantitative. Par exemple, si l’on a la s´rie
e
e
statistique ordonn´e suivante :
e
15, 15, 16, 17, 18, 20, 21, 22, 23, 23, 23, 24, 25, 25, 26,
26, 27, 28, 28, 29, 30, 30, 32, 34, 35, 36, 39, 40, 43, 44,
la tige du diagramme sera les dizaines et les feuilles seront les unit´s. On obtient
e
le graphique suivant.
The decimal point is 1 digit(s) to the right of the |
1
2
3
4

|
|
|
|

55678
012333455667889
0024569
034

´

46

´
Ce diagramme permet d’avoir une vue synth´tique de la distribution. Evidemment,
e
les tiges peuvent ˆtre d´finies par les centaines, ou des millers, selon l’ordre de
e
e
grandeur de la variable ´tudié.
e
e
En langage R
#
# Diagramme en tige et feuilles
#
X=c(15,15,16,17,18,20,21,22,23,23,23,24,25,25,26,26,
27,28,28,29,30,30,32,34,35,36,39,40,43,44)
stem(X,0.5)

2.9

La boˆ ` moustaches
ıte a

La boˆ ` moustaches, ou diagramme en boˆ ou encore boxplot en anıte a
ıte,
glais, est un diagramme simple qui permet de repr´senter la distribution d’une
e
variable. Ce diagramme est compos´ de :
e
– Un rectangle qui s’´tend du premier au troisi`me quartile. Le rectangle
e
e
est divis´ par une ligne correspondant ` la m´diane.
e
a
e
– Ce rectangle est compl´t´ par deux segments de droites.
ee
– Pour les dessiner, on calcule d’abord les bornes
b− = x1/4 − 1.5IQ et b+ = x3/4 + 1.5IQ,
o` IQ est la distance interquartile.
u
– On identifie ensuite la plus petite et la plus grande observation comprise
entre ces bornes. Ces observations sont appelés “valeurs adjacentes”.
e
– On trace les segments de droites reliant ces observations au rectangle.
– Les valeurs qui ne sont pas comprises entre les valeurs adjacentes, sont
repr´sentés par des points et sont appelés “valeurs extrˆmes”.
e
e
e
e
Exemple 2.9 On utilise une base de donnés de communes suisses de 2003
e
fournie par l’Office f´d´ral de la statistique (OFS) contenant un ensemble de
e e
variables concernant la population et l’amńagement du territoire. L’objectif
e
est d’avoir un aper¸u des superficies des communes du canton de Neuchˆtel. On
c
a
s’int´resse donc ` la variable HApoly donnant la superficie en hectares des 62
e
a
communes neuchˆteloises. La boˆ ` moustaches est pr´senté en Figure 2.5.
a
ıte a
e
e
L’examen du graphique indique directement une dissym´trie de la distribution,
e
au sens o` il y a beaucoup de petites communes et peu de grandes communes. Le
u
graphique montre aussi que deux communes peuvent ˆtre consid´rés communes
e
ee
des points extrˆmes, car elles ont plus de 3000 hectares. Il s’agit de la Br´vine
e
e
(4182ha) et de la Chaux-de-Fonds (5566ha).
En langage R

`
2.9. LA BOˆ
ITE A MOUSTACHES

0

1000

2000

47

3000

4000

5000

Figure 2.5 – Boˆ ` moustaches pour la variable superficie en hectares (HAıtes a
poly) des communes du canton de Neuchˆtel
a
# ´tape 1: installation du package sampling
E
#
dans lequel se trouve la base de donnés des communes belges
e
#
choisir "sampling" dans la liste
utils:::menuInstallPkgs()
# Etape 2: charge le package sampling
#
choisir "sampling" dans la liste
local({pkg <- select.list(sort(.packages(all.available = TRUE)))
+ if(nchar(pkg)) library(pkg, character.only=TRUE)})
# Utilisation des donnés
e
data(swissmunicipalities)
attach(swissmunicipalities)
# boxplot de la s´lection des communes neuch^teloises
e
a
# le num´ro du canton est 24
e
boxplot(HApoly[CT==24],horizontal=TRUE)
% selection des communes neuch^teloises de plus de 3000 HA
a
data.frame(Nom=Nom[HApoly>3000 & CT==24],Superficie=HApoly[HApoly>3000 & CT==24])

Exemple 2.10 On utilise une base de donnés belges fournie par l’Institut
e
National (belge) de Statistique contenant des informations sur la population
et les revenus des personnes physiques dans les communes. On s’int´resse ` la
e
a
variable “revenu moyen en euros par habitant en 2004” pour chaque commune
(variable averageincome) et l’on aimerait comparer les 9 provinces belges : Anvers, Brabant, Flandre occidentale, Flandre orientale, Hainaut, Li`ge, Limboug,
e
Luxembourg, Namur. La Figure 2.6 contient les boˆ ` moustaches de chaque
ıtes a
province. Les communes ont ´t´ triés selon les provinces belges. De ce graee
e
phique, on peut directement voir que la province du Brabant contient ` la fois
a
la commune la plus riche (Lasne) et la plus pauvre (Saint-Josse-ten-Noode). On
voit ´galement une dispersion plus importante dans la province du Brabant.
e
En langage R

48

´

40000
35000
30000
25000
20000

Anv.

Brab.

Fl.occ.

Fl.or.

Hainaut

Liège

Limb.

Lux.

Namur

Figure 2.6 – Boˆ ` moustaches du “revenu moyen des habitants” des comıtes a
munes selon les provinces belges

# Utilisation des donn´es
e
data(belgianmunicipalities)
attach(belgianmunicipalities)
# Construction d’une liste avec les noms des provinces
b=list(
"Anv."=averageincome[Province==1],
"Brab."=averageincome[Province==2],
"Fl.occ."=averageincome[Province==3],
"Fl.or."=averageincome[Province==4],
"Hainaut"=averageincome[Province==5],
"Li`ge"=averageincome[Province==6],
e
"Limb."=averageincome[Province==7],
"Lux."=averageincome[Province==8],
"Namur"=averageincome[Province==9]
)
boxplot(b)

`
2.9. LA BOˆ
ITE A MOUSTACHES

49

Exercices
Exercice 2.1 On p`se les 50 ´l`ves d’une classe et nous obtenons les r´sultats
e
ee
e
r´sum´s dans le tableau suivant :
e
e
43
48
49
52
54
59
63
67
72
81

43
48
50
53
56
59
63
68
72
83

43
48
50
53
56
59
65
70
73
86

47
49
51
53
56
62
65
70
77
92

48
49
51
54
57
62
67
70
77
93

1. De quel type est la variable poids ?
2. Construisez le tableau statistique en adoptant les classes suivantes :
[40 ;45] ]45 ;50] ]50 ;55] ]55 ;60] ]60 ;65] ]65 ;70] ]70 ;80] ]80 ;100]
3. Construisez l’histogramme des eﬀectifs ainsi que la fonction de r´partition.
e
Solution
1. La variable poids est de type quantitative continue.
2.
[c− , c+ ] nj Nj
fj
Fj
j
j
[40; 45]
3
3 0.06 0.06
]45; 50]
10 13 0.20 0.26
]50; 55]
8 21 0.16 0.42
]55; 60]
7 28 0.14 0.56
]60; 65]
6 34 0.12 0.68
]65; 70]
6 40 0.12 0.80
]70; 80]
5 45 0.10 0.90
]80; 100]
5 50 0.10 1.00
50
1
3.

Exercice 2.2 Calculez tous les param`tres (de position, de dispersion et de
e
forme) ` partir du tableau de l’exemple 1.7 sans prendre en compte les classes.
a
Solution

´

50

– M´diane : Comme n est pair,
e
x1/2 =

1
1
(x25 + x26 ) = (160 + 160) = 160.
2
2

– quantiles
– Premier quartile :
x1/4 = x13 = 156
– Deuxi`me quartile :
e
x3/4 = x38 = 165
´
– Etendue :
E = 171 − 152 = 19.
– Distance interquartile :
IQ = x3/4 − x1/4 = 165 − 156 = 9
– Variance :

1∑
1
(xi − x)2 =
¯
× 1668 = 33, 36.
n i=1
50
n

s2 =
x
´
– Ecart type :

sx =

√

s2 = 5, 7758.
x

´
– Ecart moyen absolu :
1
1∑
|xi − x| =
¯
× 245, 2 = 4, 904.
n i=1
50
n

emoy =
´
– Ecart m´dian absolu :
e

1
1∑
|xi − x1/2 | =
× 242 = 4, 84.
=
n i=1
50
n

emed

– Moment centr´ d’ordre trois :
e
1∑
1
(xi − x)3 =
¯
× 2743, 2 = 54, 864.
n i=1
50
n

m3 =

Exercice 2.3
1. Montrez que
s2 =
x

n
n
1 ∑∑
(xi − xj )2 .
2n2 i=1 j=1

`
2.9. LA BOˆ
ITE A MOUSTACHES

51

2. Montrez que
√
sx ≤ Et

n−1
.
2n

3. Montrez que, si xi > 0,

1∑
|xi − x| ≤ 2¯.
¯
x
n i=1
n

Solution

1.

n
n
1 ∑∑
(xi − xj )2
2n2 i=1 j=1

=

n
n
1 ∑∑ 2
(x + x2 − 2xi xj )
j
2n2 i=1 j=1 i

=

n
n
n
n
n
n
1 ∑∑ 2
1 ∑∑ 2
1 ∑∑
xi + 2
xj − 2
2xi xj
2n2 i=1 j=1
2n i=1 j=1
2n i=1 j=1

=

1 ∑ 2
1 ∑ 2 1∑ 1∑
xi +
x −
xi
xj
2n i=1
2n j=1 j n i=1 n j=1

=

1∑ 2 1∑
x −
xi x
¯
n i=1 i
n i=1

=

1∑ 2
x − x2
¯
n i=1 i

n

n

n

= s2 .
x

n

n

n

n

´

52
2.

=

n
n
1 ∑∑
(xi − xj )2
2n2 i=1 j=1

=

s2
x

n
n
1 ∑ ∑
(xi − xj )2
2n2 i=1
n
∑

j=1,j̸=i
n
∑

≤

1
2n2

=

n
n
1 ∑ ∑
2
Et
2n2 i=1

(x(1) − x(n) )2

i=1 j=1,j̸=i

j=1,j̸=i

=
=

1
2
n(n − 1)Et
2n2
n−1 2
E .
2n t

Donc,

√
sx ≤ E

n−1
.
2n

Chapitre 3

Statistique descriptive
bivarié
e
3.1

S´rie statistique bivarié
e
e

On s’int´resse ` deux variables x et y. Ces deux variables sont mesurés sur
e
a
e
les n unit´s d’observation. Pour chaque unit´, on obtient donc deux mesures. La
e
e
s´rie statistique est alors une suite de n couples des valeurs prises par les deux
e
variables sur chaque individu :
(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).
Chacune des deux variables peut ˆtre, soit quantitative, soit qualitative. On
e
examine deux cas.
– Les deux variables sont quantitatives.
– Les deux variables sont qualitatives.

3.2
3.2.1

Deux variables quantitatives
Repr´sentation graphique de deux variables
e

Dans ce cas, chaque couple est compos´ de deux valeurs num´riques. Un
e
e
couple de nombres (entiers ou réls) peut toujours ˆtre repr´sent´ comme un
e
e
e
e
point dans un plan
(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).
53

´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

54

Exemple 3.1 On mesure le poids Y et la taille X de 20 individus.
xi
yi
155 75
162 76
157 78
170 80
164 85
162 90
169 96
170 96
178 98
173 101

xi
180
175
173
175
179
175
180
185
189
187

80
60

70

poids

90

100

yi
60
61
64
67
68
69
70
70
72
73

155

160

165

170

175

180

185

190

taille

Figure 3.1 – Le nuage de points

En langage R

# nuage de points
poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101)
taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189
plot(taille,poids)

3.2. DEUX VARIABLES QUANTITATIVES

3.2.2

55

Analyse des variables

Les variables x et y peuvent ˆtre analysés s´par´ment. On peut calculer
e
e
e e
tous les param`tres dont les moyennes et les variances :
e
x=
¯

1∑
xi ,
n i=1

s2 =
x

1∑
(xi − x)2 ,
¯
n i=1

y=
¯

1∑
yi ,
n i=1

s2 =
y

1∑
(yi − y )2 .
¯
n i=1

n

n

n

n

Ces param`tres sont appel´s param`tres marginaux : variances marginales, moyennes
e
e
e
marginales, ćarts-types marginaux, quantiles marginaux, etc.. . .
e

3.2.3

Covariance

La covariance est d´finie
e
1∑
(xi − x)(yi − y ).
¯
¯
=
n i=1
n

sxy

Remarque 3.1
– La covariance peut prendre des valeurs positives, n´gatives ou nulles.
e
– Quand xi = yi , pour tout i = 1, . . . , n, la covariance est ´gale ` la vae
a
riance.

Thór`me 3.1 La covariance peut ´galement s’ćrire :
e e
e
e
1∑
xi yi − xy .
¯¯
n i=1
n

D´monstration
e
=

1∑
(xi − x)(yi − y )
¯
¯
n i=1

=

1∑
(xi yi − yi x − y xi + xy )
¯ ¯
¯¯
n i=1

=

1∑
1∑
1∑
1∑
xi yi −
yi x −
¯
y xi +
¯
xy
¯¯
n i=1
n i=1
n i=1
n i=1

=

1∑
xi yi − xy − xy + xy
¯¯ ¯¯ ¯¯
n i=1

=

1∑
xi yi − xy .
¯¯
n i=1

n

sxy

n

n

n

n

n

n

n

´

56

2

3.2.4

Corr´lation
e

Le coefficient de corr´lation est la covariance divisé par les deux ćart-types
e
e
e
marginaux :
sxy
.
rxy =
sx sy
Le coefficient de d´termination est le carr´ du coefficient de corr´lation :
e
e
e
2
rxy =

s2
xy
.
s2 s2
x y

Remarque 3.2
– Le coefficient de corr´lation mesure la d´pendance lináire entre deux vae
e
e
riables :
– −1 ≤ rxy ≤ 1,
2
– 0 ≤ rxy ≤ 1.
– Si le coefficient de corr´lation est positif, les points sont align´s le long
e
e
d’une droite croissante.
– Si le coefficient de corr´lation est n´gatif, les points sont align´s le long
e
e
e
d’une droite dćroissante.
e
– Si le coefficient de corr´lation est nul ou proche de z´ro, il n’y a pas de
e
e
d´pendance lináire. On peut cependant avoir une d´pendance non-lináire
e
e
e
e
avec un coefficient de corr´lation nul.
e
r=1

r=−1

r=0

r>0

r<0

r=0

Figure 3.2 – Exemples de nuages de points et coefficients de corr´lation
e


3.2.5

57

Droite de r´gression
e

La droite de r´gression est la droite qui ajuste au mieux un nuage de points
e
au sens des moindres carr´s.
e
On consid`re que la variable X est explicative et que la variable Y est
e
d´pendante. L’´quation d’une droite est
e
e
y = a + bx.
Le probl`me consiste ` identifier une droite qui ajuste bien le nuage de points.
e
a
Si les coefficients a et b ´taient connus, on pourrait calculer les r´sidus de la
e
e
r´gression d´finis par :
e
e
ei = yi − a − bxi .

yi
ei

70

80

y*
i

60

poids

90

100

Le r´sidu ei est l’erreur que l’on commet (voir Figure 3.3) en utilisant la droite
e
de r´gression pour pr´dire yi ` partir de xi . Les r´sidus peuvent ˆtre positifs ou
e
e
a
e
e
n´gatifs.
e

155

160

165

170

175

180

taille

Figure 3.3 – Le nuage de points, le r´sidu
e

185

190

58

´

En langage R
# Graphique avec le r´sidus
e
plot(taille,poids)
segments(158,a+b*158,190,a+b*190)
segments(180,a+b*180,180,96,col="red")
#
text(178,90,expression(e))
text(178.7,89.5,"i")
#
arrows(180,a+b*180,156,a+b*180,col="blue",length=0.14)
arrows(180,60,180,a+b*180,col="blue",length=0.14)
arrows(180,96,156,96,col="blue",length=0.14)
#
text(154.8,86,expression(y))
text(155.5,85.5,"i")
#
text(154.8,97,expression(y))
text(155.5,97.8,"*")
text(155.5,96.5,"i")
Pour d´terminer la valeur des coefficients a et b on utilise le principe des
e
moindres carr´s qui consiste ` chercher la droite qui minimise la somme des
e
a
carr´s des r´sidus :
e
e
n
n
∑
∑
2
M (a, b) =
e2 =
(yi − a − bxi ) .
i
i=1

i=1

Thór`me 3.2 Les coefficients a et b qui minimisent le crit`re des moindres
e e
e
carr´s sont donn´s par :
e
e
sxy
et a = y − b¯.
¯
x
b= 2
sx
D´monstration Le minimum M (a, b) en (a, b) s’obtient en annulant les d´rivés
e
e e
partielles par rapport ` a et b.
a

n
∑
 ∂M (a, b)

=−
2 (yi − a − bxi ) = 0


∂a
i=1
n

 ∂M (a, b) = − ∑ 2 (y − a − bx ) x = 0


i
i
i
∂b
i=1
On obtient un syst`me de deux ´quations ` deux inconnues. En divisant les
e
e
a
deux ´quations par −2n, on obtient :
e

n
 1∑

(yi − a − bxi ) = 0

 n
i=1
n

 1 ∑ (y − a − bx ) x = 0,


i
i
i
n i=1

ou encore

59


n
n
n
1∑
1∑
 1∑

yi −
a−b
xi = 0

 n
n i=1
n i=1
i=1
n
n
n

 1 ∑ y x − 1 ∑ ax − 1 ∑ bx2 = 0,


i i
i
n i=1
n i=1
n i=1 i

ce qui s’ćrit aussi
e


x
 y = a + b¯
 ¯ n
n
1∑
1∑ 2
yi xi − a¯ −
x
bx = 0.

 n
n i=1 i
i=1

La premi`re ´quation montre que la droite passe par le point (¯, y ). On obtient
e e
x ¯
a = y − b¯.
¯
x
En rempla¸ant a par y − b¯ dans la seconde ´quation, on a
c
¯
x
e
1∑ 2
1∑
xi yi − (¯ − b¯)¯ − b
y
xx
x
n i=1
n i=1 i
)
( n
n
1∑
1∑ 2
=
¯
xi yi − xy − b
¯¯
x − x2
n i=1
n i=1 i
n

n

= sxy − bs2
x
= 0,
ce qui donne
sxy − bs2 = 0.
x
Donc

sxy
.
s2
x
On a donc identifi´ les deux param`tres
e
e

sxy
 b=
(la pente)

s2
x
 a = y − b¯ = y − sxy x (la constante).
¯
x ¯
¯

s2
x
b=

On devrait en outre v´rifier qu’il s’agit bien d’un minimum en montrant que la
e
matrice des d´rivés secondes est d´finie positive.
e e
e
2
La droite de r´gression est donc
e
sxy
sxy
y = a + bx = y − 2 x + 2 x,
¯
¯
sx
sx
ce qui peut s’ćrire aussi
e
y−y =
¯

sxy
(x − x).
¯
s2
x

Remarque 3.3 La droite de r´gression de y en x n’est pas la mˆme que la
e
e
droite de r´gression de x en y.
e

´

60

80
60

70

poids

90

100

Figure 3.4 – La droite de r´gression
e

155

160

165

170

175

180

185

190

taille

3.2.6

R´sidus et valeurs ajustés
e
e

Les valeurs ajustés sont obtenues au moyen de la droite de r´gression :
e
e
∗
yi = a + bxi .

Les valeurs ajustés sont les ‘pr´dictions’ des yi rálisés au moyen de la variable
e
e
e e
x et de la droite de r´gression de y en x.
e
Remarque 3.4 La moyenne des valeurs ajustés est ´gale ` la moyenne des
e
e
a
valeurs observés y . En effet,
e ¯
1∑ ∗
1∑
1∑
yi =
(a + bxi ) = a + b
xi = a + b¯.
x
n i=1
n i=1
n i=1
n

n

n

Or, y = a + b¯, car le point (¯, y ) appartient ` la droite de r´gression.
¯
x
x ¯
a
e
Les r´sidus sont les diff´rences entre les valeurs observés et les valeurs
e
e
e
ajustés de la variable d´pendante.
e
e
∗
ei = yi − yi .

Les r´sidus repr´sentent la partie inexpliqué des yi par la droite de r´gression.
e
e
e
e
Remarque 3.5


61

– La moyenne des r´sidus est nulle. En effet
e
1∑
1∑
∗
ei =
(yi − yi ) = y − y = 0.
¯ ¯
n i=1
n i=1
n

n

– De plus,

n
∑

xi ei = 0.

i=1

La d´monstration est un peu plus difficile.
e

3.2.7

Sommes de carr´s et variances
e

D´finition 3.1 On appelle somme des carr´s totale la quantit´
e
e
e
SCT OT =

n
∑

(yi − y )2
¯

i=1

La variance marginale peut alors ˆtre d´finie par
e
e
1∑
SCT OT
=
(yi − y )2 .
¯
n
n i=1
n

s2 =
y

D´finition 3.2 On appelle somme des carr´s de la r´gression la quantit´
e
e
e
e
SCREGR =

n
∑

∗
(yi − y )2 .
¯

i=1

D´finition 3.3 La variance de r´gression est la variance des valeurs ajustés.
e
e
e
1∑ ∗
(y − y )2 .
¯
n i=1 i
n

s2 ∗ =
y

D´finition 3.4 On appelle somme des carr´s des r´sidus (ou r´siduelle) la
e
e
e
e
quantit´
e
n
∑
SCRES =
e2 .
i
i=1

D´finition 3.5 La variance r´siduelle est la variance des r´sidus.
e
e
e
1∑ 2
SCRES
=
e .
n
n i=1 i
n

s2 =
e

Note : Il n’est pas nćessaire de centrer les r´sidus sur leurs moyennes pour
e
e
calculer la variance, car la moyenne des r´sidus est nulle.
e

´

62
Thór`me 3.3
e e

SCT OT = SCREGR + SCRES .
D´monstration
e
SCT OT

=

n
∑

(yi − y )2
¯

i=1

=

n
∑

∗
∗
(yi − yi + yi − y )2
¯

i=1

=

n
∑

∗
(yi − yi )2 +

i=1

n
∑

∗
(yi − y )2 + 2
¯

i=1

n
∑

∗
∗
(yi − yi )(yi − y )
¯

i=1

= SCRES + SCREGR + 2

n
∑

∗
∗
(yi − yi )(yi − y ).
¯

i=1

Le troisi`me terme est nul. En effet,
e
n
∑

∗
∗
¯
(yi − yi )(yi − y ) =

n
∑

(yi − a − bxi )(a + bxi − y )
¯

i=1

i=1

En rempla¸ant a par y − b¯, on obtient
c
¯
x
n
∑

∗
∗
(yi − yi )(yi − y ) =
¯

i=1

=
=

n
∑
i=1
n
∑

[yi − y − b(xi − x))] b(xi − x)
¯
¯
¯
[(yi − y ) − b(xi − x)] b(xi − x)
¯
¯
¯

i=1
n
∑

b

(yi − y )(xi − x) − b2
¯
¯

i=1

=

n
∑

(xi − x)(xi − x)
¯
¯

i=1

bnsxy − b2 ns2
x

s2
sxy
xy
nsxy − 4 ns2
s2
sx x
x
= 0.

=

2

3.2.8

Dćomposition de la variance
e

Thór`me 3.4 La variance de r´gression peut ´galement s’ćrire
e e
e
e
e
s2 ∗ = s2 r2 ,
y
y
o` r2 est le coefficient de d´termination.
u
e


63

D´monstration
e
1∑ ∗
(y − y )2
¯
n i=1 i
}2
n {
1∑
sxy
y + 2 (xi − x) − y
¯
¯
¯
n i=1
sx
n

s2 ∗
y

=
=
=

n
s2 1 ∑
xy
(xi − x)2
¯
s4 n i=1
x

s2
xy
s2
x
s2
xy
= s2 2 2
y
sx sy
=

= s2 r2 .
y
2
La variance r´siduelle est la variance des r´sidus.
e
e
1∑ 2
e .
n i=1 i
n

s2 =
e

Thór`me 3.5 La variance r´siduelle peut ´galement s’ćrire
e e
e
e
e
s2 = s2 (1 − r2 ),
e
y
o` r2 est le coefficient de d´termination.
u
e
D´monstration
e
1∑ 2
e
n i=1 i
n

s2
e

=

1∑
∗
(yi − yi )2
n i=1
}2
n {
1∑
sxy
yi − y − 2 (xi − x)
¯
¯
n i=1
sx
n

=
=
=
=
=

n
n
n
s2 1 ∑
1∑
sxy 1 ∑
xy
(yi − y )2 + 4
¯
(xi − x)2 − 2 2
¯
(xi − x)(yi − y )
¯
¯
n i=1
sx n i=1
sx n i=1

s2
s2
xy
xy
s2 + 2 − 2 2
y
sx
sx
)
(
s2
xy
2
sy 1 − 2 2 .
sx sy
2

´

64

Thór`me 3.6 La variance marginale est la somme de la variance de r´gression
e e
e
et de la variance r´siduelle,
e
s2 = s2 ∗ + s2 .
y
y
e
La d´monstration dćoule directement des deux thór`mes prć´dents.
e
e
e e
e e

3.3
3.3.1

Deux variables qualitatives
Donnés observés
e
e

Si les deux variables x et y sont qualitatives, alors les donnés observés sont
e
e
une suite de couples de variables
(x1 , y1 ), . . . , (xi , yj ), . . . , (xn , yn ),
chacune des deux variables prend comme valeurs des modalit´s qualitatives.
e
Les valeurs distinctes de x et y sont notés respectivement
e
x1 , . . . , xj , . . . , xJ
et
y1 , . . . , yk , . . . , yK .

3.3.2

Tableau de contingence

Les donnés observés peuvent ˆtre regroupés sous la forme d’un tableau de
e
e
e
e
contingence
y1 · · · yk · · · yK total
x1
n11 · · · n1k · · · n1K
n1.
.
.
.
.
.
.
.
.
.
.
.
.
nj1
.
.
.

···

njk
.
.
.

···

njK
.
.
.

nj.

xJ
nJ1
total n.1

···
···

nJk
n.k

···

nJK
n.K

nJ.
n

xj
.
.
.

Les nj. et n.k sont appel´s les effectifs marginaux. Dans ce tableau,
e
– nj. repr´sente le nombre de fois que la modalit´ xj apparaˆ
e
e
ıt,
– n.k repr´sente le nombre de fois que la modalit´ yk apparaˆ
e
e
ıt,
– njk repr´sente le nombre de fois que les modalit´s xj et yk apparaissent
e
e
ensemble.
On a les relations
J
∑

njk = n.k , pour tout k = 1, . . . , K,

j=1
K
∑
k=1

njk = nj. , pour tout j = 1, . . . , J,

3.3. DEUX VARIABLES QUALITATIVES

65

et
J
∑

nj. =

j=1

K
∑

n.k =

J
K
∑∑

njk = n

.

j=1 k=1

k=1

Exemple 3.2 On s’int´resse ` une ´ventuelle relation entre le sexe de 200 pere
a
e
sonnes et la couleur des yeux. Le Tableau 3.1 reprend le tableau de contingence.
Table 3.1 – Tableau des effectifs njk
Bleu
10
20
30

Homme
Femme
Total

3.3.3

Vert
50
60
110

Marron
20
40
60

Total
80
120
200

Tableau des fr´quences
e

Le tableau de fr´quences s’obtient en divisant tous les effectifs par la taille
e
de l’ćhantillon :
e
njk
fjk =
, j = 1, . . . , J, k = 1, . . . , K
n
fj. =

nj.
, j = 1, . . . , J,
n

f.k =

n.k
, k = 1, . . . , K.
n

Le tableau des fr´quences est
e

x1
.
.
.

y1
f11
.
.
.

···
···

yk
f1k
.
.
.

···
···

yK
f1K
.
.
.

total
f1.

xj
.
.
.

fj1
.
.
.

···

fjk
.
.
.

···

fjK
.
.
.

fj.

xJ
total

fJ1
f.1

···
···

fJk
f.k

···

fJK
f.K

fJ.
1

Exemple 3.3 Le Tableau 3.2 reprend le tableau des fr´quences.
e

66

´

Table 3.2 – Tableau des fr´quences
e

Homme
Femme
Total

3.3.4

Bleu
0.05
0.10
0.15

Vert
0.25
0.30
0.55

Marron
0.10
0.20
0.30

Total
0.40
0.60
1.00

Profils lignes et profils colonnes

Un tableau de contingence s’interpr`te toujours en comparant des fr´quences
e
e
en lignes ou des fr´quences en colonnes (appel´s aussi profils lignes et profils
e
e
colonnes).
Les profils lignes sont d´finis par
e
(j)

fk

=

njk
fjk
=
, k = 1, . . . , K, j = 1, . . . , J,
nj.
fj.

et les profils colonnes par
(k)

fj

=

njk
fjk
=
, j = 1, . . . , J, k = 1, . . . , K.
n.k
f.k

Exemple 3.4 Le Tableau 3.3 reprend le tableau des profils lignes, et le Tableau
3.4 reprend le tableau des profils colonnes.
Table 3.3 – Tableau des profils lignes

Homme
Femme
Total

Bleu
0.13
0.17
0.15

Vert
0.63
0.50
0.55

Marron
0.25
0.33
0.30

Total
1.00
1.00
1.00

Table 3.4 – Tableau des profils colonnes

Homme
Femme
Total

Bleu
0.33
0.67
1.00

Vert
0.45
0.55
1.00

Marron
0.33
0.67
1.00

Total
0.40
0.60
1.00


3.3.5

67

Effectifs thóriques et khi-carr´
e
e

On cherche souvent une interaction entre des lignes et des colonnes, un lien
entre les variables. Pour mettre en ´vidence ce lien, on construit un tableau
e
d’effectifs thóriques qui repr´sente la situation o` les variables ne sont pas liés
e
e
u
e
(ind´pendance). Ces effectifs thóriques sont construits de la mani`re suivante :
e
e
e
n∗ =
jk

nj. n.k
.
n

Les effectifs observ´s njk ont les mˆmes marges que les effectifs thóriques n∗ .
e
e
e
jk
Enfin, les ćarts ` l’ind´pendance sont d´finis par
e
a
e
e
ejk = njk − n∗ .
jk
– La d´pendance du tableau se mesure au moyen du khi-carr´ d´fini par
e
e e
χ2 =
obs

K
J
∑ ∑ (njk − n∗ )2
jk
k=1 j=1

n∗
jk

=

J
K
∑ ∑ e2
jk
.
n∗
j=1 jk

(3.1)

k=1

– Le khi-carr´ peut ˆtre normalis´ pour ne plus d´pendre du nombre d’obe
e
e
e
servations. On d´finit le phi-deux par :
e
ϕ2 =

χ2
obs
.
n

Le ϕ2 ne d´pend plus du nombre d’observations. Il est possible de montrer
e
que
ϕ2 ≤ min(J − 1, K − 1).
– Le V de Cramer est d´finit par
e
√
√
χ2
ϕ2
obs
V =
=
.
min(J − 1, K − 1)
n min(J − 1, K − 1)
Le V de Cramer est compris entre 0 et 1. Il ne d´pend ni de la taille
e
de l’ćhantillon ni de la taille du tableau. Si V ≈ 0, les deux variables
e
sont ind´pendantes. Si V = 1, il existe une relation fonctionnelle entre les
e
variables, ce qui signifie que chaque ligne et chaque colonne du tableau de
contingence ne contiennent qu’un seul effectif diff´rent de 0 (il faut que le
e
tableau ait le mˆme nombre de lignes que de colonnes).
e
Exemple 3.5 Le Tableau 3.5 reprend le tableau des effectifs thóriques, le
e
Tableau 3.6 reprend le tableau des ćarts ` l’ind´pendance. Enfin, les e2 /n∗
e
a
e
jk
jk
sont pr´sent´s dans le tableau 3.7.
e
e
– Le khi-carr´ observ´ vaut χ2 = 3.03.
e
e
obs
– Le phi-deux vaut ϕ2 = 0.01515.
– Comme le tableau a deux lignes min(J − 1, K − 1) = min(2 − 1, 3 − 1) = 1.
√
Le V de Cramer est ´gal ` ϕ2 .
e
a

´

68

Table 3.5 – Tableau des effectifs thóriques n∗
e
jk

Homme
Femme
Total

Bleu
12
18
30

Vert
44
66
110

Marron
24
36
60

Total
80
120
200

Table 3.6 – Tableau des ćarts ` l’ind´pendance ejk
e
a
e

Homme
Femme
Total

Bleu
-2
2
0

Vert
6
-6
0

Marron
-4
4
0

Total
0
0
0

Table 3.7 – Tableau des e2 /n∗
jk
jk

Homme
Femme
Total

Bleu
0.33
0.22
0.56

Vert
0.82
0.55
1.36

Marron
0.67
0.44
1.11

Total
1.82
1.21
3.03

– On a V = 0.123. La d´pendance entre les deux variables est tr`s faible.
e
e

En langage R
yeux= c(rep("bleu",times=10),rep("vert",times=50),rep("marron",times=20),
rep("bleu",times=20),rep("vert",times=60),rep("marron",times=40))
sexe= c(rep("homme",times=80),rep("femme",times=120))
yeux=factor(yeux,levels=c("bleu","vert","marron"))
sexe=factor(sexe,levels=c("homme","femme"))
T=table(sexe,yeux)
T
plot(T,main="")
summary(T)

Exemple 3.6 Le tableau suivant est extrait de Boudon (1979, p. 57). La
variable X est le niveau d’instruction du fils par rapport au p`re (plus ´lev´,
e
e e


69

´gal, inf´rieur), et la variable Y est le statut professionnel du fils par rapport
e
e
au p`re (plus ´lev´, ´gal, inf´rieur).
e
e e e
e

Table 3.8 – Tableau de contingence : effectifs njk
Niveau d’instruction Statut professionnel du fils
du fils par rapport
par rapport au p`re
e
au p`re
e
Plus ´lev´ Egal inf´rieur total
e e
e
plus ´lev´
e e
134
96
61
291
´gal
e
23
33
24
80
inf´rieur
e
7
16
22
45
total
164
145
107
416

Table 3.9 – Tableau des fr´quences fjk
e
XY
Plus ´lev´
e e
plus ´lev´
e e
0.322
´gal
e
0.055
inf´rieur
e
0.017
total
0.394

Egal
0.231
0.079
0.038
0.349

inf´rieur
e
0.147
0.058
0.053
0.257

total
0.700
0.192
0.108
1.000

Table 3.10 – Tableau des profils lignes
XY
Plus ´lev´
e e
plus ´lev´
e e
0.460
´gal
e
0.288
inf´rieur
e
0.156
total
0.394

Egal
0.330
0.413
0.356
0.349

inf´rieur total
e
0.210
1
0.300
1
0.489
1
0.257
1

Table 3.11 – Tableau des profils colonnes
XY
Plus ´lev´ Egal
e e
plus ´lev´
e e
0.817
0.662
´gal
e
0.140
0.228
0.043
0.110
inf´rieur
e
total
1
1

inf´rieur total
e
0.570
0.700
0.224
0.192
0.206
0.108
1
1

´

70

Table 3.12 – Tableau des effectifs thóriques n∗
e
jk
XY
Plus ´lev´ Egal
e e
plus ´lev´
e e
114.72
101.43
´gal
e
31.54
27.88
inf´rieur
e
17.74
15.69
total
164
145

inf´rieur total
e
74.85
291
20.58
80
11.57
45
107
416

Table 3.13 – Tableau des ćarts ` l’ind´pendance ejk
e
a
e
XY
Plus ´lev´ Egal inf´rieur total
e e
e
plus ´lev´
e e
19.28
−5.43 −13.85
0
´gal
e
−8.54
5.12
3.42
0
inf´rieur
e
−10.74
0.31
10.43
0
total
0
0
0
0

Table 3.14 – Tableau des e2 /n∗
jk
jk
Plus ´lev´ Egal
e e
XY
plus ´lev´
e e
3.24
0.29
2.31
0.94
´gal
e
inf´rieur
e
6.50
0.01
total
12.05
1.24

inf´rieur
e
total
2.56
6.09
0.57
3.82
9.39
15.90
12.52
χ2 = 25.81
obs

On a donc
χ2
obs
ϕ2
V

= 25.81
χ2
25.81
obs
=
=
= 0.062
n
416
√
=

ϕ2
=
min(J − 1, K − 1)

√

0.062
= 0.176.
2

Exercices
Exercice 3.1 La consommation de cr`mes glacés par individus a ´t´ mesuré
e
e
ee
e
pendant 30 p´riodes. L’objectif est d´termin´ si la consommation d´pend de la
e
e
e
e
temp´rature. Les donnés sont dans le tableau 3.15. On sait en outre que
e
e


71

Table 3.15 – Consommation de cr`mes glac´es
e
e
consommation y
386
374
393
425
406
344
327
288
269
256

temp´rature x consommation y
e
41
286
56
298
63
329
68
318
69
381
65
381
61
470
47
443
32
386
24
342

n
∑

yi = 10783,

i=i
n
∑

n
∑

temp´rature x consommation y
e
28
319
26
307
32
284
40
326
55
309
63
359
72
376
72
416
67
437
60
548

xi = 1473,

i=i

2
yi = 4001293,

i=i

n
∑

x2 = 80145,
i

i=i
n
∑

xi yi = 553747,

i=i

1. Donnez les moyennes marginales, les variances marginales et la covariance
entre les deux variables.
2. Donnez la droite de r´gression, avec comme variable d´pendante la consome
e
mation de glaces et comme variable explicative la temp´rature.
e
3. Donnez la valeur ajust´e et le r´sidu pour la premi`re observation du
e
e
e
tableau 3.15.

Solution
y = 359.4333333, x = 49.1,
¯
¯
2
2
2
σy = 4184.112222, σx = 260.69, σxy = 810.0566667,
∗
ρ = 0.77562456, b = 3.107356119, a = 206.8621479, y1 = 334.2637488, e1 = 51.73625123,

temp´rature x
e
44
40
32
27
28
33
41
52
64
71

´

72

Exercice 3.2 Neuf ´tudiants ´mettent un avis p´dagogique vis-`-vis d’un proe
e
e
a
fesseur selon une ćhelle d’apprćiation de 1 ` 20. On rel`ve par ailleurs la note
e
e
a
e
obtenue par ces ´tudiants l’anné prć´dente aupr`s du professeur.
e
e
e e
e

y = Avis
x = R´sultat
e

5
8

7
11

Etudiants
16
6 12
10 13
9

14
17

10
7

9
15

8
16

1. Repr´sentez graphiquement les deux variables.
e
2. D´terminez le coefficient de corr´lation entre les variables X et Y. Ensuite,
e
e
donnez une interpr´tation de ce coefficient.
e
3. D´terminez la droite de r´gression Y en fonction de X.
e
e
´
4. Etablissez, sur base du mod`le, l’avis pour un ´tudiant ayant obtenu 12/20.
e
e
5. Calculez la variance r´siduelle et le coefficient de d´termination.
e
e

Solution

18 6
q

16
14

q
q

q

12

q

10
q

8

q

q
q

6
4
2
0
0

5

10

15

20

yi
xi
5
8
7
11
16 10
6
13
12
9
14 17
10
7
9
15
8
16
87 106
y=
¯

73

2
yi
x2 xi yi
i
25
64
40
49
121
77
256
100
160
36
169
78
144
81
108
196
289
238
100
49
70
81
225
135
64
256
128
951 1354 1034

87
= 9, 667
9

951
− 9, 6672 = 12, 22
9
106
= 11, 78
x=
¯
9
1354
s2 =
− 11, 782 = 11, 73
x
9
1034
− 9, 667 × 11, 78 = 1, 037
sxy =
9
1, 037
rxy = √
= 0.087
12, 22 11, 73
Ajustement lináire de y en x
e
s2 =
y

Dy|x : y − y =
¯

Sxy
(x − x)
¯
2
Sx

Dy|x : y = 0.088x + 8, 625
Valeur ajusté pour une cote de 12/20, (x=12)
e
y = 0.088 × 12 + 8, 625 = 9, 686
Mesure de la qualit´ du mod`le :
e
e
Variance r´siduelle
e
s2
y|x

= s2 (1 − r2 )
y
= 12, 22(1 − 0.0872 )
= 12, 13 ` comparer avec s2 = 12, 22
a
y

Coefficient de d´termination
e
r2 = 0.0872 = 0.008
ce coefficient repr´sente la proportion de variance expliqué par le mod`le (ici
e
e
e
0.8% faible).

´

74

Exercice 3.3 Consid´rons un ćhantillon de 10 fonctionnaires (ayant entre 40
e
e
et 50 ans) d’un minist`re. Soit X le nombre d’annés de service et Y le nombre
e
e
de jours d’absence pour raison de maladie (au cours de l’anné prć´dente)
e
e e
d´termin´ pour chaque personne appartenant ` cet ćhantillon.
e
e
a
e
xi
yi

2 14
3 13

16
17

8
12

13
10

20
8

24
20

7
7

5
2

11
8

1. Repr´sentez le nuage de points.
e
2. Calculez le coefficient de corr´lation entre X et Y.
e
3. D´terminez l’´quation de la droite de r´gression de Y en fonction de X.
e
e
e
4. D´terminez la qualit´ de cet ajustement.
e
e
´
5. Etablissez, sur base de ce mod`le, le nombre de jours d’absence pour un
e
fonctionnaire ayant 22 ans de service.
Solution
2)
xi
2
14
16
8
13
20
24
7
5
11
somme
120
moyenne 12.00
n
∑

2
yi
yi
x2
i
3
4
9
13
196
169
17
256
289
12
64
144
10
169
100
8
400
64
20
576
400
7
49
49
2
25
4
8
121
64
100
1860
1292
10.00 186.00 129.20

xi = 120;

i=l
n
∑

n
∑

xi yi
6
182
272
96
130
160
480
49
10
88
1473
147.30

yi = 100;

i=l

x2 = 1860;
i

i=l

n
∑

2
yi = 1292;

i=l
n
∑

xi yi = 1473

i=1

x = 120/10 = 12;
¯

y = 100/10 = 10;
¯

s2 = (1860/10) − 122 = 42; s2 = (1292/10) − 102 = 29, 2
x
y
sxy = (1473/10) − (10.12) = 27, 3

rxy = √

27, 3
= 0.78
42 × 29, 2

3)
Dxy ≡ y − y =
¯

Sxy
(x − x)
¯
2
Sx

27, 3
(x − 12)
42
≡ y = 0.65x + 2, 2

Dxy ≡ y − 10 =
Dxy
4)

r2 = 60.8%;
s2
e

=

s2 (1
y

− r ) = 29, 2 × (1 − 0.608) = 11, 43
2

2
s2 = 11, 43 est beaucoup plus petit que Sy = 29, 2
e

5)
y = 0.65 × 22 + 2, 2 = 16, 5 jours.

75

76

´

Chapitre 4

Thórie des indices,
e
mesures d’in´galit´
e
e
4.1

Nombres indices

4.2

D´finition
e

Un indice est la valeur d’une grandeur par rapport ` une valeur de r´f´rence.
a
ee
Prenons l’exemple du tableau 4.1 contenant le prix (fictif) d’un bien de consommation de 2000 ` 2006. Le temps varie de 0, 1, 2, . . . , 6 et 0 est consid´r´ comme
a
ee
le temps de r´f´rence par rapport auquel l’indice est calcul´.
ee
e
Table 4.1 – Tableau du prix d’un
anné
e
2000
2001
2002
2003
2004
2005
2006

bien de consommation de 2000 ` 2006
a
t prix pt
0
2.00
1
2.30
2
2.40
3
2.80
4
3.00
5
3.50
6
4.00

L’indice simple est d´fini par
e
I(t/t′ ) = 100 ×

pt
, t, t′ = 0, 1, . . . , 6.
pt′

Le tableau 4.2 contient la matrice des indices de prix du bien. Par exemple de
2000 ` 2006, le prix a doubl´, donc I(6/0) = 200.
a
e
77

´
´
´
CHAPITRE 4. THEORIE DES INDICES, MESURES D’INEGALITE

78

Table 4.2 – Tableau de l’indice simple du prix du tableau 4.1
t′ = 0
1
2
3
4
5
6

4.2.1

t=0
1
2
100.00 115.00 120.00
86.96 100.00 104.35
83.33 95.83 100.00
71.43 82.14
85.71
66.67 76.67
80.00
57.14 65.71
68.57
50.00 57.50
60.00

3
140.00
121.74
116.67
100.00
93.33
80.00
70.00

4
150.00
130.43
125.00
107.14
100.00
85.71
75.00

5
175.00
152.17
145.83
125.00
116.67
100.00
87.50

6
200.00
173.91
166.67
142.86
133.33
114.29
100.00

Propri´t´s des indices
e e

Consid´rons un indice quelconque I(t/0). On dit que cet indice poss`de les
e
e
propri´t´s de
ee
1
– r´versibilit´ si I(t/0) = 1002 × I(0/t) ,
e
e
– identit´ si I(t/t) = 100,
e
– circularit´ (ou transitivit´) si I(t/u) × I(u/v) = 100 × I(t/v).
e
e
Il est facile de montrer que ces trois propri´t´s sont satisfaites pour un indice
ee
simple.

4.2.2

Indices synth´tiques
e

Quand on veut calculer un indice ` partir de plusieurs prix, le probl`me
a
e
devient sensiblement plus compliqu´. Un indice synth´tique est une grandeur
e
e
d’un ensemble de biens par rapport ` une anné de r´f´rence. On ne peut pas
a
e
ee
construire un indice synth´tique en additionnant simplement des indices simples.
e
Il faut, en effet, tenir compte des quantit´s achetés.
e
e
Pour calculer un indice de prix de n biens de consommation ´tiquet´s de
e
e
1, 2, . . . , n, on utilise la notation suivante :
– pti repr´sente le prix du bien de consommation i au temps t,
e
– qti repr´sente la quantit´ de biens i consommé au temps t.
e
e
e
Consid´rons par exemple le Tableau 4.3 qui contient 3 biens de consommation
e
et pour lesquels ont connaˆ les prix et les quantit´s achetés.
ıt
e
e
Il existe deux m´thodes fondamentales pour calculer les indices de prix,
e
l’indice de Paasche et l’indice de Laspeyres.

4.2.3

Indice de Laspeyres

L’indice de Laspeyres, est d´fini par
e
∑n
i=1 q0i pti
L(t/0) = 100 × ∑n
.
i=1 q0i p0i
On utilise pour le calculer, les quantit´s q0i du temps de r´f´rence.
e
ee

´
4.2. DEFINITION

79

Table 4.3 – Exemple : prix et quantit´s de trois bien pendant 3 ans
e
Temps
Bien 1
Bien 2
Bien 3

0
Prix (p0i )
100
60
160

Quantit´s (q0i )
e
14
10
4

1
Prix (p1i )
150
50
140

Quantit´s (q1i )
e
10
12
5

2
Prix (p2i )
200
40
140

L’indice de Laspeyres peut aussi ˆtre pr´sent´ comme une moyenne pond´ré
e
e
e
ee
des indices simples. Soient l’indice simple du bien i :
Ii (t/0) = 100 ×

pti
,
p0i

et le poids w0i correspondant ` la recette totale du bien i au temps 0
a
w0i = p0i q0i .
L’indice de Laspeyres peut alors ˆtre d´fini comme une moyenne des indices
e
e
simples pond´r´s par les recettes au temps 0 :
ee
∑n
∑n
i=1 p0i q0i 100 ×
i=1 w0i Ii (t/0)
∑n
∑n
=
L(t/0) =
i=1 w0i
i=1 p0i q0i

pti
p0i

∑n
i=1 q0i pti
= 100 × ∑n
.
i=1 p0i q0i

L’indice de Laspeyres ne poss`de ni la propri´t´ de circularit´ ni de r´versibilit´.
e
ee
e
e
e
L’indice de Laspeyres est facile ` calculer, car seules les quantit´s q0i du temps
a
e
de r´f´rence sont nćessaires pour le calculer.
ee
e
Exemple 4.1 Si on utilise les donnés du tableau 4.3, les indices de Laspeyres
e
sont les suivants
∑n
q0i p1i
14 × 150 + 10 × 50 + 4 × 140
L(1/0) = 100 × ∑i=1
= 100 ×
= 119.6970,
n
14 × 100 + 10 × 60 + 4 × 160
q0i p0i
i=1
∑n
q0i p2i
14 × 200 + 10 × 40 + 4 × 140
= 142.4242,
L(2/0) = 100 × ∑i=1
= 100 ×
n
14 × 100 + 10 × 60 + 4 × 160
i=1 q0i p0i
∑n
q1i p2i
10 × 200 + 12 × 40 + 5 × 140
L(2/1) = 100 × ∑i=1
= 113.5714.
= 100 ×
n
10 × 150 + 12 × 50 + 5 × 140
i=1 q1i p1i

Quantit´s (q2i )
e
8
14
5

´
´
´

80

4.2.4

Indice de Paasche

L’indice de Paasche, est d´fini par
e
∑n
i=1 qti pti
P (t/0) = 100 × ∑n
.
i=1 qti p0i
On utilise, pour le calculer, les quantit´s qti du temps par rapport auquel on
e
veut calculer l’indice.
L’indice de Paasche peut aussi ˆtre pr´sent´ comme une moyenne harmoe
e
e
nique pond´ré des indices simples. Soient l’indice simple du bien i :
ee
Ii (t/0) = 100 ×

pti
,
p0i

et le poids wti correspondant ` la recette totale du bien i au temps t
a
wti = pti qti .
L’indice de Paasche peut alors ˆtre d´fini comme une moyenne harmonique des
e
e
indices simples pond´r´s par les recettes au temps t :
ee
∑n
∑n
∑n
i=1 qti pti
i=1 wti
i=1 pti qti
= 100 × ∑n
P (t/0) = ∑n
= ∑n
.
p0i
i=1 wti /Ii (t/0)
i=1 pti qti 100×pti
i=1 qti p0i
L’indice de Paasche ne poss`de ni la propri´t´ de circularit´ ni de r´versibilit´.
e
ee
e
e
e
L’indice de Paasche est plus difficile ` calculer que l’indice de Laspeyres, car on
a
doit connaˆ les quantit´s pour chaque valeur de t.
ıtre
e
Exemple 4.2 Si on utilise les donnés du tableau 4.3, les indices de Paasche
e
sont les suivants
∑n
q p
10 × 150 + 12 × 50 + 5 × 140
∑n 1i 1i = 100 ×
P (1/0) = 100 × i=1
= 111.1111,
10 × 100 + 12 × 60 + 5 × 160
q1i p0i
i=1
∑n
q2i p2i
8 × 200 + 14 × 40 + 5 × 140
= 100 ×
P (2/0) = 100 × ∑i=1
= 117.2131,
n
8 × 100 + 14 × 60 + 5 × 160
q2i p0i
i=1
∑n
q2i p2i
8 × 200 + 14 × 40 + 5 × 140
= 100 ×
P (2/1) = 100 × ∑i=1
= 110.
n
8 × 150 + 14 × 50 + 5 × 140
q2i p1i
i=1

4.2.5

L’indice de Fisher

L’indice de Laspeyres est en gń´ral plus grand que l’indice de Paasche,
e e
ce qui peut s’expliquer par le fait que l’indice de Laspeyres est une moyenne
arithm´tique d’indices ´l´mentaires tandis que l’indice de Paasche est une moyenne
e
ee
harmonique. Nous avons vu qu’une moyenne harmonique est toujours inf´rieure
e

´
4.2. DEFINITION

81

ou ´gale ` une moyenne arithm´tique (voir la remarque de la page 32). Cepene
a
e
dant ici, ce r´sultat est approximatif, car on n’utilise pas les mˆmes poids pour
e
e
calculer l’indice de Paasche (wti ) et de Laspeyres (w0i ).
Fisher a propos´ d’utiliser un compromis entre l’indice de Paasche et de
e
Laspeyres en calculant simplement la moyenne góm´trique de ces deux indices
e e
√
F (t/0) = L(t/0) × P (t/0).
L’avantage de l’indice de Fisher est qu’il jouit de la propri´t´ de r´versibilit´.
ee
e
e
Exemple 4.3 Si on utilise toujours les donnés du tableau 4.3, les indices de
e
Fisher sont les suivants :
√
F (1/0) = L(1/0) × P (1/0) = 115.3242,
√
F (2/0) = L(2/0) × P (2/0) = 129.2052,
√
F (2/1) = L(2/1) × P (2/1) = 111.7715.

4.2.6

L’indice de Sidgwick

L’indice de Sidgwick est la moyenne arithm´tique des indices de Paasche et
e
de Laspeyres.
L(t/0) + P (t/0)
S(t/0) =
.
2

4.2.7

Indices chaˆ
ınes

Le d´faut principal des indices de Laspeyres, de Paasche, de Fisher et de Sidge
wick est qu’il ne poss`dent pas la propri´t´ de circularit´. Un indice qui poss`de
e
ee
e
e
cette propri´t´ est appel´ indice chaˆ
ee
e
ıne. Pour construire un indice chaˆ
ıne, avec
l’indice de Laspeyres, on peut faire un produit d’indice de Laspeyres annuels.
L(t/t − 1) L(t − 1/t − 2)
L(2/1) L(1/0)
×
× ··· ×
×
.
100
100
100
100
Pour calculer un tel indice, on doit ´videmment connaˆ
e
ıtre les quantit´s pour
e
chaque valeur de t. L’indice suisse des prix ` la consommation est un indice
a
chaˆ de Laspeyres.
ıne
CL(t/0) = 100 ×

Exemple 4.4 En utilisant encore les donnés du tableau 4.3, les indices chaˆ
e
ınes
de Laspeyres sont les suivants :
CL(1/0) = L(1/0) = 119.6970,
CL(2/1) = L(2/1) = 113.5714,
L(2/1) × L(1/0)
= 135.9416.
CL(2/0) =
100

´
´
´

82

4.3
4.3.1

Mesures de l’in´galit´
e
e
Introduction

Des indicateurs particuliers ont ´t´ d´velopp´s pour mesurer les in´galit´s
ee e
e
e
e
des revenus ou les in´galit´s de patrimoine. On consid`re qu’une soci´t´ est pare
e
e
ee
faitement ´galitaire si tous les individus re¸oivent le mˆme revenu. La situation
e
c
e
thórique la plus in´galitaire est la situation o` un individu per¸oit la totalit´
e
e
u
c
e
des revenus, et les autre individus n’ont aucun revenu.

4.3.2

Courbe de Lorenz

Plusieurs indices d’in´galit´ sont li´s ` la courbe de Lorenz. On note
e
e
e a
x1 , . . . , xi , . . . , xn
les revenus des n individus de la population ´tudié. On note ´galement
e
e
e
x(1) , . . . , x(i) , . . . , x(n) ,
la statistique d’ordre, c’est-`-dire la s´rie de revenus tri´s par ordre croissant.
a
e
e
Notons maintenant qi la proportion de revenus par rapport au revenu total
qu’ont gagn´ les i individus ayant les plus bas revenus, ce qui s’ćrit
e
e
∑i
j=1
qi = ∑n

x(j)

j=1 x(j)

avec q0 = 0 et qn = 1.

La courbe de Lorenz est la repr´sentation graphique de la fonction qui `
e
a
la part des individus les moins riches associe la part y du revenu total qu’ils
per¸oivent. Plus prćis´ment, la courbe de Lorenz relie les points (i/n, qi ) pour
c
e e
i = 1, . . . , n. En abscisse, on a donc une proportion d’individus class´s par ordre
e
de revenu, et en ordonné la proportion du revenu total re¸u par ces individus.
e
c
Exemple 4.5 On utilise une enquˆte mńage sur le revenu dans une r´gion
e
e
e
des Philippines appelé Ilocos. Cette enquˆte de 1997 sur le revenu des mńages
e
e
e
a ´t´ produite par l’Office philippin de Statistique. La courbe de Lorenz est
ee
pr´senté en Figure 4.1.
e
e

Remarque 4.1 Sur le graphique, on indique toujours la diagonale. La courbe
de Lorenz est ´gale ` la diagonale si tous les individus ont le mˆme revenu. Plus
e
a
e
l’ćart entre la courbe de Lorenz et la diagonale est important, plus les revenus
e
sont distribu´s de mani`re in´galitaire.
e
e
e

En langage R

´
´
4.3. MESURES DE L’INEGALITE

83

Figure 4.1 – Courbe de Lorenz
1.0

proportion de revenu

0.8

0.6

0.4

0.2

0.0
0.0

0.2

0.4

0.6

0.8

1.0

proportion de menages

#
# Courbe de Lorenz et indices d’in´galit´
e
e
#
# Etape 1 : on installe la package ineq
utils:::menuInstallPkgs()
# choisir ’ineq’ dans la liste
#
#Etape 2 : on charge le package ineq
local({pkg <- select.list(sort(.packages(all.available = TRUE)))
+ if(nchar(pkg)) library(pkg, character.only=TRUE)})
# choisir ’ineq’ dans la liste
#
# Utilisation de la base de donn´es Ilocos
e
# Enqu^te sur le revenu de l’Office de Statistique Philippin
e
data(Ilocos)
attach(Ilocos)
#
plot(Lc(income),xlab="proportion de menages",
ylab="proportion de revenu",main="")

Cours statistique descriptive

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Cours statistique descriptive

Ähnlich wie Cours statistique descriptive (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Cours statistique descriptive