2. • Discuter l’intérêt des statistiques en Sc médicales
• Définir les variables, citer un exemple pour chaque type de
variables
• Construire à partir d’une série statistique :
Un tableau de classes élémentaires
Un tableau de données groupées
Un histogramme
Un polygone
Un diagramme en barre (tuyau d’orgue)
Un diagramme en cercle
•Calculer la moyenne, le mode, la médiane, l’écart type
•Calculer la corrélation de Pearson et de Spearman
Objectifs éducationnels
2
3. Le terme statistique vient du mot latin "status" .
La statistique est l’ensemble de méthodes à partir
desquelles on recueille, organise, résume, présente et
analyse des données, afin d’en tirer des conclusions et
de prendre des décisions.
Introduction
C’est une méthode de raisonnement/ d’analyse
permettant d’interpréter un grand nombre de données
pour tirer des informations chiffrées et utilisables.
des statistique = des données
3
4. La Biostatistique est l’application de la statistique dans le
domaine biologique et médicale.
"La recherche biomédicale s’appuie beaucoup sur
la statistique qui permet notamment de comparer
l’effet de différents traitements à partir d’un
échantillon de patients. La statistique est
absolument ubiquitaire et actuellement aucun
article médical ne peut être publié sans qu’il ne
contienne des intervalles de confiance, des écarts-
types ou des tests statistiques avec leur p."
Introduction
4
7. Présentation tabulaire
Enumération des observations (Série statistique)
Lorsque les observations sont nombreuses, il peut être
utile de les condenser sous la forme d’une distribution
de fréquences
Le nombre d’occurrence d’une même valeur observée
est sa fréquence absolue (ni)
7
i
n
if
n
9. Caractère quantitatif discret
Tableau (4) :
Nombre des
mères ayant
ni fi Fi
0 enfant 8 26.66 26.66
1 8 26.66 53.32
2 7 23.33 76.65
3 3 10 86.65
4 2 6.66 93.31
5 1 3.33 96.64
6 1 3.33 99 .97
TOTAL 30 100
9
10. Caractère quantitatif continu
il est souvent nécessaire de regrouper en classes
les valeurs obs
La classe est définie par une amplitude
La fréquence d’une classe est le nombre
d’observations qui y sont contenues
xi =
Le nombre de classes est généralement compris
entre 6 et 20. Il est proportionnel à l’effectif de la
population étudié.
a = (limite supérieure de la série – limite inférieure
de la série)/ N
Autres formes empiriques :
N = 1 + 10/3 log10(n)
N = 2,5 4 n 10
2
supb
inf
b
11. Exemple : Dans une population donnée, on a pour l’âge la
distribution suivante :
Age
xi ni
0 – 10 5 75
10 – 20 15 150
20 – 30 25 100
30 – 40 35 125
40 – 50 45 75
50 - 60 55 100
60 - 70 65 50
TOTAL
11
12. Représentations graphiques
12
Le type de représentation graphique à réaliser dépend de la nature
qualitative ou quantitative, discrète ou continue du caractère étudié.
Le graphique doit respecter les normes suivantes :
Un titre qui indique l’objet de la représentation graphique
Des axes de références
La source des données
Les caractères qualitatifs
15. Les caractères quantitatifs discret
Diagramme en barres ou en bâtons
Il est établi en traçant parallèlement à l’axe des ordonnées et en regard de
chaque valeur observée Xi, un segment de longueur égale à la fréquence de
cette valeur
Diagramme cumulatif
Le diagramme cumulatif est obtenu à partir des fréquences cumulées croissantes.
Dans le cas d’une variable discrète, la courbe cumulative se présente
comme une courbe en escalier.
15
18. Les caractères quantitatifs continus
Histogramme
Les histogrammes se composent de rectangles contigus dont les
intervalles de classes sont les bases et les fréquences les hauteurs,
de telle sorte que les aires des rectangles sont proportionnelles aux
fréquences.
Lorsque l’intervalle de classe (amplitudes) est variable,
il est indispensable de porter en ordonnées les fréquences unitaires
Polygone des fréquences
On obtient un polygone de fréquences en joignant par une ligne
brisée les milieux des segments supérieurs de chaque rectangle de
l’histogramme.
18
23. La médiane (Me)
Me est la valeur qui divise la population en deux parties égales
Pour les données non groupées
le nombre d’observations est impair
Me =
2
1)(n
X
2 3 5 9 12 15 17
Lorsque n est pair
2
)X(X 1)
2
n
(
n/2
2 3 5 9 12 15 17 20
23
24. Pour les distributions groupées
La médiane (Me) (suite)
Me = binf + a .
M e
1i
n
N
2
n
Nombre des
mères ayant
ni fi Fi
0 enfant 8 26.66 26.66
1 8 26.66 53.32
2 7 23.33 76.65
3 3 10 86.65
4 2 6.66 93.31
5 1 3.33 96.64
6 1 3.33 99 .97
TOTAL 30
24
25. n
ni
n
ni
n
ni
Salaires ni fi Fi
0-10 10 0.1 0.1
10-15 50 0.5 0.6
15-20 25 0.25 0.85
20-25 10 0.1 0.95
25-30 3 0.03 0.98
30-50 2 0.02 1
100 1
25
La médiane (Me) (suite)
Me = 10 + 5 . (0.5-0.1)/0.5
26. les quartiles partagent la série des valeurs rangées par ordre croissant
en quatre parties contenant chacune 25% des observations.
Quintile : 5 parties
F(qu3)=3/5
Déciles : 10 parties
F(D1)= 1/10
F(D7)= 7/10
Centiles ou percentiles : 100 parties
F(C5)=5/100
Les quartiles :
26
27. Le mode (Mo)
Mo est la valeur de la variable qui se rencontre le plus fréquemment
2, 5, 5, 5, 7, 13, 16
Xi 0 1 2 3 4 5 6
ni 24 57 75 53 33 7 4
Cas d’une variable continue
21
1
inf
EE
E
abMo
27
30. Cas d’une variable continue
Classes Xi ni nixi
48 – 49 48,5 3 145,5
50 – 51 50,5 10 505
52 – 53 52,5 9 472,5
54 – 55 54,5 7 381,5
56 – 57 56,5 7 395,5
58 – 59 58,5 3 175,5
60 - 61 60,5 1 60,5
TOTAL 40 2136
La moyenne arithmétique (suite)
i
k
1i i
k
1i ii
k21
kk2211
xf
n
xn
.....nnn
xn.....xnxn
X
30
31. Paramètres de dispersion
Ces paramètres permettent de chiffrer la variabilité des valeurs
observées autour d’un paramètre de position.
X: 2 3 4 5 6 4X
Y: 4 4 4 4 4 4Y
31
32. L’étendue ( e )
e= Xn – X1
Écarts interquantiles
Écart interquartile : IQ = Q3 – Q1
Écart interdécile : ID = D9 – D1
Écart intercentile : IC = C99 – C1
La série dont l’étendue est grand sera plus dispersée que celle dont l’étendue est petit
e est souvent rejeté
32
33. L’écart type
Il s’agit d’une distance moyenne des observations par rapport
à la moyenne arithmétique
2
i
)x(x
n
1
2
i
2
xx
n
1
=
Pour les données non groupées
S2 =
Pour les données groupées
S2 = 2
ii
)x(xn
n
1
)(2
VarianceSS
33
34. Le coefficient de variation
X
S
xCV )(
Comparer la variabilité des distributions qui ne sont pas de
même nature ou encore de même nature et des différentes
unités.
Interpréter la variabilité quand il s’agit d’une seule distribution
CV0,33 la dispersion est importante et les valeurs de la
variable sont éloignées de leur moyenne
CV <0,33 la dispersion est moins importante et les valeurs
sont resserrées autour de leur moyenne.
34
35. Statistique descriptive à deux dimensions
La Statistique descriptive à deux dimensions a pour but
de caractériser les relations
qui peuvent exister entre deux séries d’observations
considérées simultanément.
35
Tableaux statistiques
Représentations graphiques
Réduction des données
Les observations relatives à deux variables (X, Y) peuvent se
présenter d’une manière simple sous la forme d’une série
statistique double :
X= x1, x2, ………………….xn
Y= y1, y2, ………………….yn
41. Corrélation
41
Le coefficient de corrélation de Pearson mesure l’intensité de
la linéarité et le sens de la relation entre les deux variables
quantitatives
yx
SS
yxCov
r
),(
r est compris entre -1 et 1 :
-r=1 : corrélation positive parfaite
-r=0 : pas de corrélation
-0.3r 0.6 : corrélation médiocre
-0.6 r 1 : bonne corrélation
42. Le coefficient de corrélation des
rangs de Spearman (rs)
42
Pour calculer rs :
•présenter les données en couples de valeurs
•classer séparément les x et les y. A chaque x
correspond un rang de 1 à n et de même pour Y
•à partir des n paires de xi et yi affectées du rang ri et
ri’, on calcule pour chaque paire i la différence di=ri-ri’
•puis calculer rs
)1(
6
1 2
2
nn
d
r i
s