3. Origines et définitions
«Status», Etat en latin, apparaît en français en 1771.
Initialement concerne les affaires de l’Etat
Historique
Dès 3000 av J.C. en Mésopotamie, se poursuit en Chine
et dans l’Empire Romain
Au XIXe Siècle 1er Congrès International de la Statistique
uniformiser les techniques de compilation des
statistiques (Adolphe Quételet)
4. Terminologie
Statistiques ≠ Statistique
Statistique descriptive v.s. Statistique inductive
Population et recensement
Les véhicules automobiles immatriculés en Belgique
La population des P.M.E. d'un pays
Les salariés d'une entreprise
Les habitants d'un quartier
Individu, unité statistique
5. Critères (caractères): propriétés des individus
Ex1: Etude du personnel d’une entreprise d’après leur ancienneté
Ex2: Parc automobile d’une entreprise d’après la marque des voitures
Peut être quantitatif (variable statistique) ou qualitatif (caractère
statistique):
Ex1: poids, taille, résultats d’examen,…
Ex2: couleur de carrosserie d’une voiture, la nationalité,…
Variable statistique discrète ou continue
EX1: Nombre d’enfants par famille,…
Ex2: poids, taille, temps d’appels téléphoniques,…
Echantillon représentatif et sondage
Biais statistique
6. Exemple de biais statistique
Prédictions du Literary Digest en 1936 à l’aube des élections
américaines
7. Série statistique et série chronologique
Tableau d’effectifs et/ou effectifs cumulés.
Si variable discrète distribution des
fréquences/tableaux recensés
Si variable continue distribution groupés des
fréquences/tableaux à classes
8. « Le statisticien moyen est marié à 1,75 femmes qui
font leur possible pour l’éloigner de la maison 2,25
nuits dans la semaine avec seulement 50% de succès.
L’inclinaison de son front est de 2% (dénotant une
grande fermeté d’esprit), il possède 5/8 d’un compte
en banque et 3.06 enfants qui le rendent à demi-fou;
1.65 de ses enfants sont des garçons. Seuls 0.07% de
tous les statisticiens sont éveillés à leur petit
déjeuner, au cours duquel ils consomment 1.68 tasses
de café-et renversent les 0.32 restantes sur leur
palstron…Le samedi soir il engage 1/3 de baby -sitter
pour ses 3.06 chérubins, à moins qu’il ne soit affublé
des 5/8 d’une belle-mère vivant à domicile et qui
montera la garde pour la moitié du prix… »
W.F. Miksch(1950)
9. Exemple de données: on veut savoir le nombre d’examens oraux à présenter
en fin d’année par des élèves de première année comptabilité.
Données recueillies: 9, 11, 8, 10, 13, 12, 10, 11, 10
Soit n le nombre de valeurs observées d’une variable numérique
discrète dont les valeurs possibles, rangées dans l’ordre croissant,
sont x1, x2, x3,…xp
n est l’effectif de la population( ou de l’échantillon), ici n=9
l’ensemble des données rassemblées sans se soucier de l’ordre
est un série statistique/tableau brut
Une suite ordonnée est l’arrangement des données numériques
dans l’ordre croissant ou décroissant
L’étendue est la différence entre la plus grande et la plus petite
valeur, ici l’étendue est de 5
10. La fréquence absolue d’une valeur xi est le nombre ni
d’observations égales à xi. Dès lors:
p
∑ni=n
i=1
La fréquence relative fi d’une valeur xi est le rapport
ni /n. Dès lors:
p
∑ fi =1
i=1
La fréquence relative est souvent exprimée en %:
fi %= 100 ni/ n
11. La fréquence (absolue ou relative) cumulée d’une
valeur xi est la somme des fréquences( absolues ou
relatives) de cette valeur et des valeurs inférieures.
Soit X une variable numérique discrète. On a donc les
valeurs suivantes pour:
Freq.abs. cum. Val de X Freq.rel. cum.
Ρ0=0 Si X<x1 Φ0=0
Ρ1=n1 Si x1≤X<x2 Φ1=f1
Ρ2 = n1+n2 Si x2≤X<x3 Φ2=f1+ f2
Ρp = n Φp=1
12. On constate que:
Φi=ρi/n
La distribution des fréquences (absolues ou
relatives, cumulées ou non) d’une variable est un
tableau contenant les valeurs possibles des cette
variable, rangées par ordre croissant et pour
chacune de ces valeurs la fréquence (absolue ou
relative, cumulée ou non) correspondante. On parle
de tableau recensé.
13. Exemple
A partir des données brutes suivantes, établissez la
distribution des fréquences correspondante
7 1 5 12 3
6 4 1 8 10
5 8 2 6 0
5 5 4 7 8
4 7 5 6 5
6 8 5 3 3
2 1 3 3 2
7 4 10 6 4
15. Représentations graphiques
Diagramme en bâtons
Consiste à porter en abscisse les valeurs observées xi
Tracer en regard de chacune d’elles et parallèlement à
l’axe des ordonnées un segment vertical, appelé
bâton, de longueur égal à sa fréquence (absolue ou
relative) non cumulée.
16. Exemple diagramme en bâtons
Diagramme en bâton des fréquences absolues (ni)
8
7
Frequence Absolue
6
Fréquance Absolue( ni)
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Valeurs de la variable (xi)
17. Polygone des fréquences
S’obtient en joignant les extrémités des segments
successifs du diagramme en bâtons
Exemple de polygone des fréquences
Polygône des fréquences absolues (ni)
8
Frequence Absolue
7
Fréquance Absolue( ni)
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Valeurs de la variable (xi)
18. Diagramme en bâtons et polygone des fréquences
Diagramme en bâton et polygone des fréquences
8
absolues (ni)
7
Fréquence Absolue
6
Fréquance Absolue( ni)
Fréquence Absolue
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Valeurs de la variable (xi)
19. Polygone des fréquences relatives cumulées
Fonction de distribution de la variable ou fonction de
répartition des fréquences
Fonction en escalier, non décroissante, continue à
droite et variant de 0 à 1
Est le graphique de la fonction F(x) définie comme
suit:
∀X∈ ℝ,
0 Si X < x1
F(x)= (n1+ n2+…ni)/n Si xi ≤ X <xi+1
1 Si x ≥ xp
avec i=1,2,…,p
20. Exemple de polygone des fréquences relatives cumulées
Polygone des fréquences relatives cumulées
1
Fréquence relative cumulée
0.9
0.8
Fréquence relative cumulée
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Valeurs de la variable (xi)
21. Diagramme sectoriel ou camembert
Pour l’analyse des données en %
Caractère Effectif Freq
Diagramme sectoriel (camembert)
rel.
Célibataire 9
0.45 10% Célibataire
Divorcé 2 Divorcé
0.10
Marié
Marié 7
0.35 45% Veuf
Veuf 2
0.10 35%
10%
22. Le regroupement des données en classes ou catégories
consiste à partitionner le domaine de la variable en intervalles
contigus.
Si le nombre de valeurs observées distinctes devient grand
Variables continues
Fréquences absolues faibles
On définit:
La fréquence absolue d’une classe Ci est le nombre ni
d’observations appartenant à l’intervalle Ci
La fréquence relative d’une classe le Ci est le rapport ni/n
noté fi
23. La fréquence (absolue ou relative) cumulée d’une classe Ci est la
somme des fréquences ( absolues ou relatives) de cette classe et
des classes précédentes.
La distribution groupée des fréquences d’une variable est un
tableau contenant les classes de cette variable et, pour chacune
de ces classes, les fréquences correspondantes( on parle aussi de
tableau à classes)
L’étendue ou amplitude d’une classe est la différence entre ses
extrémités appelées borne supérieure et borne inférieure.
Le centre ou la valeur centrale d’une classe Ci est le point
correspondant au milieu de cette classe. Il s’obtient en calculant la
moyenne arithmétique des bornes de la classe.
Remarque: dans le cadre de ce cours on essaiera de choisir des classes de
même amplitude afin de faciliter la comparaison des deux classes
24. Comment déterminer le nombre de classes?
Pas de loi rigoureuse
Dépend du problème considéré
Pas trop grand, faible nombre d’individus par
classes
Pas trop petit, sinon les classes sont trop larges et
risque de perte d’information
Généralement entre 5 et 20 classes
Quelques formules empiriques:
Règle de Sturge: Nombre de classes = 1+ (3,3*log n)
Règle de Yule: Nombre de classes = 2,5 ∜ n
25. Comment déterminer l’amplitude d’une classe?
Amplitude des classes = (X max - X min) / Nombre de
classes
avec X max et X min, respectivement la plus grande et la plus petite valeur de X dans la
série statistique.
A partir de Xmin on obtient les limites de classes ou bornes
de classes par addition successive de l’intervalle de classe.
Les classes peuvent être désignées par leurs bornes ou par
leur centre si elles ont même amplitude
Par convention la borne inférieure de chaque classe
appartient à la classe; la borne supérieure ne lui appartient
pas
27. Nombre de classes:
Régle de Sturge: 1+ (3.3*log 98)=7.57
Règle de Yule: 2.5*∜ 98=7.87
Amplitude des classes:
Xmax-Xmin/nombre de classes= 110-40/7= 10
Remarque: nous pouvons arrondir le nombre de classes en fonction des
résultats obtenus et afin de faciliter de regroupement de données.
29. Représentations graphiques
Histogramme:
Consiste à porter en abscisse, de façon équidistante, des points
correspondants aux bornes de chaque classe du tableau
groupé.
Construire sur chaque intervalle de classe comme base un
rectangle dont la hauteur est la fréquence absolue (ou relative)
de cette classe. On dit un rectangle de hauteur proportionnelle
à la fréquence de la classe considérée.
Dès lors si toutes les classes ont même amplitude on obtient une
suite de rectangles de même base(=histogramme normé).
Si on adopte l’amplitude de classes pour unité sur Ox et la
fréquence absolue 1 pour unité sur Oy, l’aire de chaque rectangle
aura pour mesure la fréquence absolue ni de la classe Ci.
La mesure de l’aire total sous l’histogramme est donc n pour les
fréquences absolues et 1 pour les fréquences relatives.
30. Exemple 2:
A partir des données brutes suivantes qui représentent les cotes
obtenues à un examen par 50 étudiants, constatons le
changement « d’allure » de l’histogramme en fonction de
l’amplitude pour les classes:
0.0 2.1 6.1 7.8 9.5 10.4 12.1 12.8 13.9 14.8
0.0 3.2 6.2 8.2 9.6 10.5 12.4 12.8 14.2 15.5
0.5 4.5 7.2 9.1 9.9 11.1 12.5 12.9 14.6 16.1
1.2 5.3 7.2 9.1 9.9 11.8 12.6 13 14.7 16.8
1.7 5.3 7.4 9.5 10.1 11.9 12.6 13.7 14.7 18.2
35. Polygone des fréquences (absolues ou relatives)
Consiste à joindre par des segments de droite les centres
(ou milieux) des bases supérieures des rectangles
successifs des histogrammes.
Remarque: on complète le polygone en le faisant commencer au
point Q, abscisse 35(= valeur centrale de la classe [30,40[) et 0
en ordonnée(=fréquence nulle); et finir au point S d’abscisse
115(=valeur centrale de la classe [110,120[ ) et d’ordonnée 0.
L’aire comprise entre le polygone et l’axe des abscisses est
égale à l’aire de l’histogramme, pour autant que toutes les
classes soient de même amplitude!
36. Polygone des fréquences relatives(absolues)
cumulées
consiste à porter en regard des bornes supérieures des
classes des ordonnées égales aux fréquences relatives
cumulées de ces classes
Remarque: Nous faisons l’hypothèse que toute la fréquence
d’une classe est concentrée en sa borne supérieure
Consiste à joindre les points successifs obtenus par
des segments de droite et compléter le graphe, aux
extrémités, par des parallèles à l’axe des abscisses.
On appelle ce graphe la fonction de distribution de la
variable
38. Histogramme non normé
Dans le cas ou les classes ne sont pas de même
amplitude, il faut ajuster la hauteur des rectangles
Exemple 3:
Voici le tableau des ouvriers d’une entreprise suivant leur âge:
Freq.abs.
Age
(ni)
[20,25[ 9
[25,30[ 27
[30,35[ 36
[35,40[ 45
[40,45[ 18
[45,50[ 9
[50,55[ 3
[55,60[ 3
40. Supposons que les deux dernières classes aient été regroupées
de la façon suivante:
Freq.abs
Age
ni
[20,25[ 9
[25,30[ 27
[30,35[ 36
[35,40[ 45
[40,45[ 18
[45,50[ 9
[50,60[ 6
Cet histogramme est faux!
41. En effet, cet histogramme est faux car il représente une série
statistique qui correspondrait aux fréquences absolues suivantes:
[45,50[ 9
[50,55[ 6
[55,60[ 6
On constate que l’amplitude de la classe [50,60[ étant double de
l’amplitude de chacune des autres classes, il faut représenter sur le
segment [50,60[, un rectangle de hauteur moitié de la fréquence
absolue donnée, autrement dit un rectangle de hauteur 6/2=3.
Dés lors, si une classe est d’amplitude k fois plus grande (ou plus
petite) que l’amplitude prise pour l’unité, il faut diviser(ou
multiplier) par k la fréquence correspondante à la classe concernée.
Lors de la représentation à l’aide de l’histogramme c’est l’aire des
rectangles, et non leur hauteur, qui est proportionnelle à la
fréquence (absolue ou relative).