SlideShare ist ein Scribd-Unternehmen logo
1 von 74
La Statistique Descriptive
Professeur François KOHLER
kohler@medecine.uhp-nancy.fr
Buts
• Ensembles de méthodes dont le but est de
présenter les données pour que l'on puisse en
prendre connaissance facilement.
• Cela peut concerner :
– une variable à la fois : statistique à une dimension,
– deux variables à la fois : statistique à deux dimensions,
– plus de deux variables à la fois : statistique
multidimensionnelle.
Statistique descriptive
• Ces méthodes comportent :
–Les tableaux : distributions de fréquences.
–Les diagrammes : graphiques.
–Les paramètres statistiques :
• Réduction des données à quelques valeurs
numériques caractéristiques.
Rappel
• 3 Types de données :
– Qualitatives (présence ou absence d’une
caractéristique)
• Binaires,
• Nominales.
– Quantitatives (compte ou mesure)
• Discontinues,
• Continues.
– Ordinales (rang)
Distributions de fréquences
• Concernent les 3 types de données avec des points
communs et des points spécifiques à chacun des types.
• Séries statistiques (tout type de données) :
– Enumération des résultats :
• Exemples :
– Couleurs des cheveux : blond, brun, blond, noir….
– Nombre d’enfants dans les familles : 1, 2, 1, 4, 0 ….
– Séries statistiques ordonnées :
• Ne concernent que les données quantitatives
et
ordinales
• Enumération du plus petit au plus grand
– Exemple : Nombre d’enfants : 0, 1, 1, 2, 4 ….
• Le nombre total d’observations est l’effectif. Il est noté n
(certain le note N).
Distributions non groupées
• Données
– qualitatives,
– ordinales,
– quantitatives
discontinues
• Formellement, ces
tableaux ne concernent
pas les données
quantitatives continues.
xi ni fi
x1 n1 f1
x2 n2 f2
… … …
xp np fp
xi ni fi
x1 n1 f1
x2 n2 f2
… … …
Distributions non groupées
Chaque ligne correspond à
une valeur observée
différente. Il y a p valeurs
différentes observées.
ni correspond au nombre
d’observations (effectif) ayant
comme valeur xi
fi correspond à la fréquence
(pourcentage) d’observations
ayant comme valeur xi : n
n
f i
i =
n
n
f i
i =
Distributions non groupées
• Données ordinales et
quantitatives
discontinues.
• x1 est la plus petite
valeur, xp la plus grande
des valeurs observées.
• Effectifs cumulés.
– N2 = n2+n1
• Fréquences cumulées.
– F2 = f2+f1
xi ni fi Ni Fi
x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
… … … …. …
xp np fp Np Fp
Distributions non groupées
Ni est l’effectif cumulé c’est dire le
nombre d’observations ayant des
valeurs inférieures ou égales à xi :
Fi est la fréquence cumulée c’est à
dire la fréquence des
observations ayant des valeurs
inférieures ou égales à xi :
∑=
=
i
1j
ji nN
∑=
=
i
1j
ji fF
xi ni fi Ni Fi
x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
… … … …. …
xp np fp Np Fp
Distributions groupées
• Les valeurs sont mises en classes.
• Toutes les distributions relatives à des
variables continues doivent être considérées
comme des distributions groupées, puisque
l'infinité de valeurs admissibles est
condensée en un nombre fini de mesures en
fonction de la précision de la méthode de
mesure utilisée.
A propos des classes
• Leurs valeurs extrêmes sont appelées bornes des
classes.
• Les classes sont mutuellement exclusives.
• L'amplitude de la classe ou intervalle ou module de
classe :
∆= borne supérieure - la borne inférieure.
• Le point central ou encore point médian est situé à mi
chemin entre les bornes.
– Ci = Binfi +∆i/2
• Dans certains cas la limite inférieure de la première
classe ou supérieure de la dernière classe n'est pas
précisée. On parle de classes ouvertes. A éviter !...
A propos des classes
• L'intervalle de classe est généralement
constant, toutefois, on utilise parfois une
amplitude variable notamment pour les
classes des valeurs extrêmes.
• En cas de classes d'amplitudes différentes, la
densité de fréquence ni/ ∆i permet de
comparer les effectifs ou les fréquences d'une
classe à l'autre.
• la densité de fréquence est utilisée pour
tracer l’histogramme.
Données quantitatives
continues
• Remarques :
– Si l’on mesure le poids d’un nouveau né avec une
précision de 1g, l’enfant qui pèse 3500g a en fait
un poids compris entre [3499,5g et 3500,5g[.
3500g représente le centre de la classe.
– Si l’on mesure l’âge en années pleines des
individus, une personne de 20 ans a un âge
compris entre [20 ans (inclus) et 21 ans[ (exclu).
20 ans représente la borne inférieure de la classe.
Distribution groupée
• On remplace la colonne xi par une colonne qui
comprend soit les bornes de classes, soit le
centre de classe ou la borne inférieure de la
classe (données temporelles comme l’âge en
années pleines).
Exemple
Classe Ci ni fi Ni Fi
[140-160[ 150,0 10 0,05 10 0,05
[160-165[ 162,5 20 0,10 30 0,15
[165-170[ 167,5 30 0,15 60 0,30
[170-175[ 172,5 45 0,23 105 0,53
[175-180[ 177,5 40 0,20 145 0,73
[180-185[ 182,5 35 0,18 180 0,90
[185-190[ 187,5 15 0,08 195 0,98
[190-200[ 195,0 5 0,03 200 1,00
Pour les calculs, le centre
de classe Ci est utilisé en
remplacement de xi sauf
de façon usuelle pour
l’âge (données
temporelles).
Formules
2
i
p
1i i
n
1i
2
i
p
1i ii
n
1i i
p
1i i
p
1i i
i
i
xnxvaleursdescarrésdesTotal
xnxvaleursdesTotal
1f
nn
n
n
f
∑∑
∑∑
∑
∑
==
==
=
=
==
==
=
=
=
p = nombre de valeurs différentes observées
En pratique
• Pour les calculs des paramètres statistiques
usuels des données quantitatives et
uniquement de ce type de données.
• On complète la distribution par :
– Une colonne ni* xipour calculer le total,
– Une colonne ni *xi
2
pour calculer le total des carrés.
Les graphiques représentent
les distributions
• Distributions non cumulées
– Distributions non groupées
• Données qualitatives :
– Diagramme sectoriel
 Angle au centre proportionnel à ni (ou fi).
• Données quantitatives discrètes
– Diagramme en bâtons
 On trace parallèlement à l'axe des ordonnées, en regard des xi
qui sont portés en abscisse, un segment de longueur
proportionnel à ni
– Polygone des fréquences
 Ligne brisée joignant les bâtons.
 Fréquences absolues / fréquences relatives.
Exemple : Données qualitatives
• Diagramme sectoriel
Groupes
sanguins ni fi
A 35 35%
B 9 9%
O 40 40%
AB 16 16%
100 100%
Exemple : Donnée quantitative
discontinue
nombre
d'enfants
(xi)
nombre de
familles (ni)
0 10
1 20
2 15
3 5
4 3
> 4 0
0
5
10
15
20
25
0 1 2 3 4 > 4
Polygone des fréquences
Les graphiques représentent
les distributions
• Distributions non cumulées
–Distributions groupées
• Données quantitatives
– Histogramme :
 Composé de rectangles ayant comme base
l'intervalle de classe et comme hauteur la
densité de fréquence (ni/∆i).
 La surface est proportionnelle à ni.
Les graphiques représentent
les distributions
• Distributions cumulées
–Uniquement pour des données
quantitatives
• Polygone des fréquences :
– Distributions non groupées = escalier.
– Distributions groupées = ligne brisée.
• Histogrammes.
Exemple : Histogramme
Classe ni
Densité
(*10)
[140-160[ 10 5
[160-165[ 20 40
[165-170[ 30 60
[170-175[ 45 90
[175-180[ 40 80
[180-185[ 35 70
[185-190[ 15 30
[190-200[ 5 5
140 160 170 180 190
0
10
20
30
40
50
60
70
80
90
200
Aspects de la distribution
• Distribution non cumulée :
– en forme de : Cloche, J, U ;
– À une seule bosse, à plusieurs bosses ;
– …….
• Symétrie – Aplatissement.
Remarques
• Autres représentations :
– Diagramme de Pareto et courbe ABC ;
– Boite à moustache (Box-plot).
• Attention :
– Les tableurs comme Excel ou Calc ne permettent
pas facilement de faire des histogrammes.
Diagramme de Pareto
• Dans le domaine de la qualité, on étudie les
causes de dysfonctionnement d'un système.
• Quand il s'agit de variables qualitatives
binaires, on présente les résultats sous forme
de diagramme de Pareto et de courbe ABC.
• Objectif : Visualiser les causes les plus
fréquentes de défaut de qualité.
Exemple
• La tenue des dossiers médicaux fait l'objet de
textes règlementaires contraignants.
• l'évaluation de la qualité des dossiers fait
partie du processus de certification.
• Un dossiers peut avoir plusieurs anomalies.
• On a étudié les anomalies rencontrées sur 200
dossiers.
Résultats
On trie le tableau par ordre décroissant du
nombre d'anomalies et on calcule les
pourcentages par rapport au nombre total
d'anomalies
Nombre de dossiers analysés 200
Effectif des
anomalies
Pourcentage
de dossiers
Dossiers non retrouvés 3 1,50%
Absence d'une pièce réglementaire 80 40,00%
Délai de la lettre de sortie non
respecté 150 75,00%
Dossier comportant des pièces non
"signées" 180 90,00%
Dossier comportant des pièces sans
identification du patient 10 5,00%
Doosier ne permettant pas de
retrouver la démarche clinique 30 15,00%
Etude de la qualité du dossier du patient : anomalies
rencontrées
Effectif % d'anomalies
Dossier comportant des pièces
non "signées" 180 39,74%
Délai de la lettre de sortie non
respecté 150 33,11%
Absence d'une pièce
réglementaire 80 17,66%
Doosier ne permettant pas de
retrouver la démarche clinique 30 6,62%
Dossier comportant des pièces
sans identification du patient 10 2,21%
Dossiers non retrouvés 3 0,66%
Total 453 100,00%
Digramme de Pareto
et courbe ABC
Effectif % de anomalies % Cumulé
Dossier comportant des pièces non "signées" 180 39,74% 39,74%
Délai de la lettre de sortie non respecté 150 33,11% 72,85%
Absence d'une pièce réglementaire 80 17,66% 90,51%
Doosier ne permettant pas de retrouver la démarche clinique30 6,62% 97,13%
Dossier comportant des pièces sans identification du patient10 2,21% 99,34%
Dossiers non retrouvés 3 0,66% 100,00%
Total 453 100,00%
Les paramètres statistiques
• Paramètres de position
– Valeurs centrales
• Moyenne arithmétique
• Les autres moyennes
– géométrique
– harmonique
– quadratique
• Médiane
• Mode
• Médiale
– Les fractiles
• Quartiles
• Percentiles
• Paramètres de dispersion
– Amplitude ou étendue
– Ecart interquartiles
– Variance, Ecart type
– Coefficient de variation
• Paramètre d'aplatissement et de symétrie
Paramètres de l’échantillon
Paramètres de la population
E
s
t
i
m
a
t
i
o
n E
s
t
i
m
a
t
i
o
n
Le + souvent
Moyenne Arithmétique
• Appelée moyenne notée
– Paramètre central qui concerne bien évidemment
uniquement des variables quantitatives.
– Dans l’unité de la variable.
– Calculable quelque soit la loi qui régit la distribution.
– Somme des valeurs (T) divisée par le nombre de mesures (n).
– Suivant la forme de présentation des observations, différentes
formules de calcul peuvent être employées.
Population m (mean) Echantillon x (average)
x
Moyenne arithmétique
• On note :
n : Nombre total de
mesures.
p : Nombre de valeurs
différentes
observées.
ni : Nombre
d’occurrences de la
valeur observée i.
fi : Fréquence
(pourcentage) de la
valeur observée i.
∑
∑∑∑
∑∑
=
===
==
==
===
===
p
1i
ii
p
1i
ii
p
1i
ii
n
1i
i
p
1i
i
i
i
p
1i
i
xf
n
T
x
xfnxnxT
1f
n
n
fnn
Moyenne arithmétique
• Propriétés :
– Centre de gravité de la distribution.
– La somme des écarts à la moyenne est nulle.
– Affectée par les changements de variable.
• Si y = ax + b; on a : y = ax + b
– La moyenne contrairement à la médiane est très sensible
aux valeurs extrêmes.
– La moyenne d'un groupe résultant de la fusion d'autres
groupes n'est égale à la moyenne des moyennes que si
tous les groupes ont le même effectif.
– Dans une distribution en cloche, unimodale et symétrique,
moyenne, mode et médiane sont confondus.
Distribution des moyennes de
plusieurs échantillons
• La moyenne de l'échantillon est le meilleur
estimateur de la moyenne de la population.
• La distribution des moyennes de petits
échantillons (n<30) indépendants tirés de la
même population suit une loi normale si la
distribution de la variable est normale.
• Au-delà de 30, la distribution des moyennes suit
une loi normale sans condition sur la distribution
de la variable.
Exemple
• Soit la série correspondant aux tailles en cm
de 6 étudiants : 160,170,180,180, 190, 200.
n = 6; T = 160+170+180+180+190+200 = 1080
cm180
6
1080
x ==
nombre
d'enfants
(xi)
nombre de
familles
(ni) ni*xi
0 10 0
1 20 20
2 15 30
3 5 15
4 3 12
Total 53 77
Le nombre de familles enquêtées
est de 53.
Le nombre total d’enfants est
de 77.
La moyenne du nombre d’enfants
par famille est de 77/53 = 1,45.
Attention aux arrondis ici si on
arrondit à une décimale la
moyenne est de 1,5 enfants par
famille.
Exemple
• Les étudiants de première année de L1 santé sont répartis
dans 3 amphithéâtres avec les données ci-dessous. Quelle est
la moyenne de l’âge en L1 santé ?
Effectifs
Moyenne
de l'âge
en années
Amphi 1 1000 18,1
Amphi 2 500 19,5
Amphi 3 1000 18,3
Les effectifs étant différents dans les 3
groupes, la moyenne recherchée n’est pas la
moyenne des moyennes.
•On calcule le total de l’âge des 3 groupes
réunis : T = 18,1*1000+ 500*19,5+ 18,3*1000
=46 150.
•L’effectif total est de 2 500.
•La moyenne recherchée est 46150/2500
=18,5 ans
Exemple
Les autres moyennes
• Moyenne géométrique d'une série de valeurs
positives est la racine nième
du produit des n
valeurs. Elle est toujours inférieure ou égale à la
moyenne arithmétique.
• Moyenne harmonique d'une série de valeurs
positives est égale à l'inverse de la moyenne des
inverses.
• Moyenne quadratique est la racine carré de la
moyenne arithmétique des carrés.
La médiane
• La médiane notée x (tilde) est telle que la moitié des
observations lui sont inférieure (ou égale) et la
moitié supérieure (ou égale) : xi tel que Fi = 0,5.
– Sur les distributions symétriques unimodales en cloche
(normales par exemple) la médiane est égale à la
moyenne et au mode.
– Paramètre peu sensible aux valeurs extrêmes.
– Peut être utilisée pour des données ordinales.
∼
La médiane : calcul
• Sur une distribution non groupée :
– Si n impair, la médiane est l'observation de rang (N+1)/2
– Si n est pair, tout nombre entre xN/2 et xN/2+1
convient. On prend la moyenne (pondérée en cas d'ex-aequo)
entre ces deux valeurs.
• Sur une distribution groupée, la classe médiane
est celle qui contient la médiane.
– Détermination graphique.
– En admettant que les observations soient réparties
uniformément dans cette classe, on réalise une approximation
linéaire.
Classe ni Ni Fi
[140-160[ 10 10 0,05
[160-165[ 20 30 0,15
[165-170[ 30 60 0,30
[170-175[ 45 105 0,53
[175-180[ 40 145 0,73
[180-185[ 35 180 0,90
[185-190[ 15 195 0,98
[190-200[ 5 200 1,00
Total 200
• La classe qui contient la
médiane est [170-[175.
• On pose les 2 équations :
0,53 = a*175 +b
0,30 = a*170+b
• =>
0,23 = a*(175-170)
a = 0,046 et b= -7,52
• => y = 0,046x – 7,52
• Cherchons x tel que y = 0,5
Médiane = 174,35
Exemple
Mode
• Mode encore appelé valeur dominante :
– Correspond à la valeur la plus fréquente. xi
correspondant au ni (ou fi)maximum.
– Il peut y avoir un ou plusieurs modes.
• Rappel :
– Dans les distributions en cloche, unimodales
symétriques, mode, médiane et moyenne sont
confondus.
Fractiles
• Quartiles
– Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont
inférieures, 3/4 lui sont supérieures.
– Q2 = Médiane.
– Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont
inférieures, 1/4 lui sont supérieures.
• Détermination graphique.
• Interpolation linéaire (cf médiane).
• Percentiles
– 10ième
percentile : xi tel que Fi = 0,10
Remarques
• On a :
– 50% des individus qui ont des valeurs en dehors de
l’intervalle Q1-Q3 et 50% à l’intérieur.
– 25% des individus qui ont des valeurs comprises entre
Q1 et médiane.
– 25% des individus qui ont des valeurs comprises entre
médiane et Q3.
– 25% des individus qui ont des valeurs inférieure à Q1
– 25% des individus qui ont des valeurs supérieures à
Q3
– Ceci permet rapidement de se rendre compte si la
distribution est symétrique ou non.
Paramètres de dispersion
• Amplitude ou étendue.
• Ecart interquartiles.
• Variance et écart type.
• Coefficient de variation.
Amplitude ou étendue
• Ecart entre la valeur de l'observation maximale et celle de
l'observation minimale.
• Non définie pour les distributions groupées (tolérance pour
les variables quantitatives continues de la précision de la
mesure).
• On montre que l'écart type est toujours inférieur ou égal à la
moitié de l'amplitude.
• Dans les distributions unimodales en cloche l'écart type est
égal :
– au tiers de l'amplitude pour n de l'ordre de 10,
– au quart de l'amplitude pour n entre 15 et 50,
– au cinquième pour des effectifs de 50 à 200,
– au sixième pour des effectifs de 200 à 1000.
Ecart interquartiles (EIQ)
• EIQ = Q3 -Q1.
• Englobe 50% des observations.
• On utilise parfois l'écart semi-interquartile
(Q3-Q1)/2.
Variance et écart type
• La variance (variance) d'une série ou d'une
distribution de fréquences est la moyenne
arithmétique des carrés des écarts à la moyenne
• C'est par rapport à la moyenne que la somme des
carrés des écarts est la plus faible.
• La variance de l'échantillon est souvent notée S2
.
• Ce n'est pas un bon estimateur de la variance de la
population souvent notée σ2
.
• L’estimation de la variance est notée σ2
.
^
n
)x(x
S
n
1i
2
i
2
∑=
−
=
Variance et écart type
• Le numérateur de la variance est appelé somme des
carrés des écarts et noté SCE.
• L'écart type est la racine carré de la variance. On
l'appelle également déviation standard (standard
deviation). Il est dans l'unité de la variable.
• Variance et écart type sont indépendants des
translations (changement d ’origine) mais pas des
multiplications (changement d'unité).
– Si y = a * x + b, on a Sy = |a| * Sx
• Pour les distributions en cloche, la variance calculée
à partir des classes est surestimée, certain réalise la
correction de Sheppard.
Formules
1n
SCE
σˆ
n
SCE
S
n
T
U)x(xSCE
xf
n
T
x
xnx
fnxnxT
1f
n
n
fnn
N
1i
2
2
i
p
1i
ii
p
1i
2
ii
n
1i
2
i
p
1i
i
p
1i
ii
n
1i
i
p
1i
i
i
i
p
1i
i
−
=
=
−=−=
==
==
===
===
∑
∑
∑∑
∑∑∑
∑∑
=
=
==
===
==
U
Ecart type de la moyenne
• Si l’on considère plusieurs échantillons indépendants,
issus d’une population, on obtient plusieurs
moyennes.
• La distribution des moyennes a un écart type appelé
écart type de la moyenne ou erreur standard de la
moyenne (ESM) (standard deviation of the mean –
SDM).
n
σˆ
MˆES =
Représentation en Box Plot
• Résume la distribution en terme de
paramètres de position et de dispersion.
Coefficient de variation
• CV est le rapport écart type divisé par la
moyenne.
• CV est un nombre pur, sans unités.
• CV est totalement indépendant des unités.
• Le CV permet de comparer la variabilité de
distributions de variables qui ne sont pas dans
les mêmes unités.
Moments centrés d’ordre k.
Symétrie et aplatissement
• Moments centrés d'ordre k
– moyenne arithmétique des écarts à la moyenne élevée à la
puissance k.
– si k pair => paramètre de dispersion.
– si k impair => paramètre de symétrie.
• Coefficient de Pearson et de Fisher
– b1 pour caractériser la symétrie de la courbe; b2 pour caractériser
l'aplatissement.
– b1 = M3
2
/ M2
3
: est voisin de 0 si la distribution est symétrique.
– b2 = M4 / M2
2
: est voisin de 3 si la distribution suit une loi normale
(plus aplatie qu'elle si b2 < 3).
– cf Loi Normale.
Statistique descriptive
à 2 dimensions
• Objectif : mettre en évidence les relations qui existent
entre deux séries d'observations.
– Nature des variables : les deux variables peuvent être
quantitatives, qualitatives ou l'une quantitative et l'autre
qualitative.
– Deux variables mesurées chez le même individu par exemple poids
et taille; poids et couleur des yeux, présence d’un cancer et
éthylisme...
• Situations :
– Séries appariées : même variable mesurée dans deux
circonstances :
• Avant - Après traitement.
• Cas - Témoins on apparie un témoin dépourvu de la maladie que l'on veut
étudier sur différents points que l'on sait lier au phénomène étudié (par
exemple pour une étude de la mortalité on apparie sur âge, sexe, ...
– Séries non appariées :
• Même variable mesurée dans des groupes différents.
Tableaux à 2 dimensions
• Série, distribution de fréquences : tables de
contingence.
Sujet Poids Taille
1 70 170
2 80 180
3 65 165
4 75 175
5 90 182
6 73 170
7 60 162
8 68 165
9 83 180
…. … …
Poids
Taille 60 65 68 70 73 75 80 83 90 Tot.
162 1 1
165 1 1 2
170 1 12 13
175 10 10
180 4 15 1 2 22
182 1 1
Tot. 1 1 1 5 12 25 1 1 3 48
Table de contingence
• Nombre de mesures totale n
• Total de chaque ligne = li
• Total de chaque colonne = cj
• Effectif d'une cas = nij
• Fréquences relatives:
– nij / li: % en ligne
– nij / cj% en colonne
– nij / n %
– li / n
– cj / n
Cheveux
Yeux Blonds Bruns Autres Tot. (li)
Clairs 50 20 30 100
Foncés 60 80 60 200
Tot. (cj) 110 100 90 300
Attention
Cheveux
Yeux Blonds Bruns Autres Tot. (li)
Clairs 50 20 30 100
Foncés 60 80 60 200
Tot. (cj) 110 100 90 300
300 = Nombre total de mesures.
100 = Nombre d'individus ayant les yeux clairs.
110 = Nombre d'individus ayant les cheveux blonds.
50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs.
50 / 110 = % d'individus parmi les blonds ayant les yeux clairs.
50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds.
Représentation graphique 2
variables quantitatives
• Nuage de points
55
60
65
70
75
80
85
90
160 165 170 175 180 185
Covariance
Covariance
• Calcul
Cov (x,y) =
N
Σi = 1
N
x * y -
i i
N
T * Tx y
i = 1
Σ
N
x * yi i
= Txy = somme des produits
Table de contingence de 2
caractères binaires
• Très utilisées en santé :
–Recherche de facteur de risque : exemple
enquêtes exposés/non exposés.
–Evaluation d’un test diagnostic.
Recherche de facteurs de
risques : paramètres utilisés
Cancer + Cancer - Total
Ethylisme + 73 927
1 000
Ethylisme - 37 963
1 000
Total 110 1 890
2 000
Cancer du poumon
et éthylisme.
Fréquences relatives :
Risques :
- Cancer chez les
éthyliques :
R1 = 73/1000
- Cancer chez les
non éthyliques:
R0 = 37/1000
Risque relatif et odds ratio
• RR est le rapport du risque chez les exposés (R1) sur
le risque des non exposés (R0).
– RR = R1/R0 = 0,073/0,037 =1,97
• Cote (Odds) (cf course de chevaux).
– Chez les éthyliques R1/(1-R1) = 0,79
– Chez les non éthyliques R0/(1-R0) = 0,038
• Odds ratio (OR) ou rapport de cotes.
– OR = 0,79/0,038 = 2,05
• L’OR est souvent utilisé en épidémiologie. Si la
fréquence de la maladie est faible, les valeurs de OR
et de RR sont très proches.
Recherche de facteurs
de confusion
• On a montré que l’on avait 1,97 fois plus de chance
de faire un cancer du poumon si l’on boit que si
l’on ne boit pas… Mais ?
• Un facteur de confusion est simultanément facteur
de risque pour la maladie et est une variable
associée à l'exposition.
– Les facteurs de confusion potentiels sont le tabagisme
et le sexe.
• La première variable à considérer est le
« tabagisme ».
Table de contingence
à 3 variables
Cancer du
poumon +
Cancer du
poumon - Total
Tabagisme
+
Ethylisme + 70 630 700
Ethylisme - 30 270 300
Total 100 900 1 000
Tabagisme
-
Ethylisme + 3 297 300
Ethylisme - 7 693 700
Total 10 990 1 000
Total 110 1 890 2 000
Calcul des différents risques
Cancer + Cancer - Total
Tabagisme +
Ethylisme
+ 70 630 700
Ethylisme
- 30 270 300
Total 100 900 1 000
Tabagisme -
Ethylisme
+ 3 297 300
Ethylisme
- 7 693 700
Total 10 990 1 000
Total 110
1 890
2 000
Chez les fumeurs, la fréquence du cancer est de 100/1000 =
0,1 contre 10/1000 = 0,01; RR = 10
Le tabagisme est un facteur de risque pour le cancer du poumon,
car les fumeurs ont 10 fois plus de risque de développer un
cancer du poumon que les non-fumeurs.
Quel est le RR d'être alcoolique pour les fumeurs par rapport
aux non fumeurs ?
RR = 700/1000 / 300/1000 = 2,3
Il existe une association entre le tabagisme et l'éthylisme. Les
fumeurs ont 2,3 fois plus de chance d'être alcooliques que les
non-fumeurs.
Le tabagisme est un facteur de confusion dans cette étude,
les données doivent être analysées en tenant compte de
cette variable.
Calculer le RR (éthylisme) dans chaque strate
Tabagisme+ RR = 70/700 / 30/300 = 1
Tabagisme - RR = 3/300 / 7/700 = 1
L'association entre éthylisme et cancer du poumon dans les
données brutes (RR = 1,97) est le produit d'un biais de
confusion. Car à l'intérieur des différentes strates du
"tabagisme" il n'existe aucune association entre éthylisme et
le cancer du poumon : RR = 1.
Quelques indicateurs utilisés
en statistiques hospitalières
• Lits.
• Entrées et Sorties.
• Durée moyenne de séjour : DMS.
• Coefficient (taux d’occupation) des lits, Lits
occupés.
• Effectifs et équivalents temps pleins.
Lits
• Comment compter les lits dans un hôpital ?
– Lits Installés au 1er
janvier.
– Lits disponibles pendant un période :
• Comment comptabiliser l’indisponibilité ?
– Fermeture pour désinfection,
– Fermeture par manque d’effectifs soignants,
– Fermeture par manque de malades,
– …..
Entrées, sorties,
malades présents
• On parle d’entrées ou de sorties pendant une
période donnée.
Date de début Date de fin
2 4
3 1
10
3
30
4 4
1 4
Chaque trait représente
un malade.
- 3 entrées
- 4 sorties
- 6 présents
Et pour les journées ?
- 21 j (entrants)
- 23 J (sortants)
- 52 J (présents)
Durée moyenne de séjours :
• Durée de séjour PMSI = DS-DE + 1 si décès.
• DMS :
Présents
présentsdesJournées
DMS
Sorties
sortantsdesJournées
DSM
Entrées
entrantsdesJournées
DMS
=
=
=
Taux d’occupation des lits et
lits occupés
périodeladeDurée
réaliséesJournées
occupésLits
périodeladedurée*litsdeNombre
réaliséesJournées
occupationd'Taux
=
=
Effectifs,
Equivalents temps plein
• Les effectifs correspondent au nombre de
personnes employées par la structure.
• Les équivalents temps plein (ETP)
représentent la force de travail. Une personne
travaillant à temps partiel est comptabilisée
en fonction de son temps de travail.
• Par exemple un hospitalo-universitaire compte pour
0,5 ETP.
Statistique descriptive

Weitere ähnliche Inhalte

Was ist angesagt?

7 exercices corriges sur la loi normale
7 exercices corriges sur la loi normale7 exercices corriges sur la loi normale
7 exercices corriges sur la loi normalecours fsjes
 
Presentation stat desc
Presentation stat descPresentation stat desc
Presentation stat deschassan1488
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Adad Med Chérif
 
Gestion de production exercices
Gestion de production exercicesGestion de production exercices
Gestion de production exercicesChristian Kajeje
 
Cours de gestion de portefeuille et des risques Pr Falloul
Cours de gestion de portefeuille et des risques Pr Falloul Cours de gestion de portefeuille et des risques Pr Falloul
Cours de gestion de portefeuille et des risques Pr Falloul Professeur Falloul
 
Cours master methodologie de recherche 2018
Cours master methodologie de recherche 2018Cours master methodologie de recherche 2018
Cours master methodologie de recherche 2018fikri khalid
 
exercices corrigés échantillonnage et estimation
exercices corrigés échantillonnage et estimationexercices corrigés échantillonnage et estimation
exercices corrigés échantillonnage et estimationcours fsjes
 
Point 4. Principes généraux du controle de qualité
Point 4. Principes généraux du controle de qualité Point 4. Principes généraux du controle de qualité
Point 4. Principes généraux du controle de qualité Soils FAO-GSP
 
GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision ibtissam el hassani
 
Le modèle SCOR- Zineb Somoue
Le modèle SCOR- Zineb SomoueLe modèle SCOR- Zineb Somoue
Le modèle SCOR- Zineb Somouesmzineb
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3Jamal Yasser
 
Méthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étudeMéthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étudeConnaissance Créative
 
les étapes permettant de poser une question de recherche
les étapes permettant de poser une question de rechercheles étapes permettant de poser une question de recherche
les étapes permettant de poser une question de rechercheHubert Maisonneuve
 

Was ist angesagt? (20)

7 exercices corriges sur la loi normale
7 exercices corriges sur la loi normale7 exercices corriges sur la loi normale
7 exercices corriges sur la loi normale
 
technique d'enquete
technique d'enquetetechnique d'enquete
technique d'enquete
 
Prevision de la demande
Prevision de la demandePrevision de la demande
Prevision de la demande
 
Presentation stat desc
Presentation stat descPresentation stat desc
Presentation stat desc
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
 
Gestion de production exercices
Gestion de production exercicesGestion de production exercices
Gestion de production exercices
 
Cours de gestion de portefeuille et des risques Pr Falloul
Cours de gestion de portefeuille et des risques Pr Falloul Cours de gestion de portefeuille et des risques Pr Falloul
Cours de gestion de portefeuille et des risques Pr Falloul
 
(Econometrie) done
(Econometrie) done(Econometrie) done
(Econometrie) done
 
Cours master methodologie de recherche 2018
Cours master methodologie de recherche 2018Cours master methodologie de recherche 2018
Cours master methodologie de recherche 2018
 
exercices corrigés échantillonnage et estimation
exercices corrigés échantillonnage et estimationexercices corrigés échantillonnage et estimation
exercices corrigés échantillonnage et estimation
 
Point 4. Principes généraux du controle de qualité
Point 4. Principes généraux du controle de qualité Point 4. Principes généraux du controle de qualité
Point 4. Principes généraux du controle de qualité
 
Roue de Deming
Roue de Deming Roue de Deming
Roue de Deming
 
GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision
 
Le modèle SCOR- Zineb Somoue
Le modèle SCOR- Zineb SomoueLe modèle SCOR- Zineb Somoue
Le modèle SCOR- Zineb Somoue
 
Chapitre Introductif
Chapitre IntroductifChapitre Introductif
Chapitre Introductif
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3
 
Méthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étudeMéthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étude
 
Calcul des prévisions
Calcul des prévisionsCalcul des prévisions
Calcul des prévisions
 
les étapes permettant de poser une question de recherche
les étapes permettant de poser une question de rechercheles étapes permettant de poser une question de recherche
les étapes permettant de poser une question de recherche
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 

Andere mochten auch

S1 mq i - statistique descriptive i - résumés des chapitres
S1   mq i - statistique descriptive i - résumés des chapitresS1   mq i - statistique descriptive i - résumés des chapitres
S1 mq i - statistique descriptive i - résumés des chapitresAbdeslam ELMOUDEN
 
Statistique descriptives s1+s2
Statistique descriptives s1+s2Statistique descriptives s1+s2
Statistique descriptives s1+s2Taha Can
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptiveAlilo Mabhoour
 
cours statistique descriptive s1 www.learneconomie.blogspot.com
cours statistique descriptive s1 www.learneconomie.blogspot.comcours statistique descriptive s1 www.learneconomie.blogspot.com
cours statistique descriptive s1 www.learneconomie.blogspot.comjamal yasser
 
TCE1-Module statistiques
TCE1-Module statistiquesTCE1-Module statistiques
TCE1-Module statistiquesAbdelkhalek Kim
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptiveMouna Ettahiri
 
Cours statistiques
Cours statistiquesCours statistiques
Cours statistiquesvauzelle
 
Cours statis descriptives
Cours statis descriptivesCours statis descriptives
Cours statis descriptivesAbdel Hakim
 
Statistique descriptives s1 de bien www.learneconomie.blogspot.com]
Statistique descriptives  s1 de bien www.learneconomie.blogspot.com]Statistique descriptives  s1 de bien www.learneconomie.blogspot.com]
Statistique descriptives s1 de bien www.learneconomie.blogspot.com]jamal yasser
 
Statistiques ofppt
Statistiques ofpptStatistiques ofppt
Statistiques ofpptkhawla atir
 
Td1 stats-2008-corrige
Td1 stats-2008-corrigeTd1 stats-2008-corrige
Td1 stats-2008-corrigehassan1488
 
Statistique descriptives1ets2
Statistique descriptives1ets2Statistique descriptives1ets2
Statistique descriptives1ets2hassan1488
 
Exercices de stat. descriptive
Exercices de stat. descriptiveExercices de stat. descriptive
Exercices de stat. descriptiveSmahane Samita
 
Principe de la comptabilite générale
Principe de la comptabilite généralePrincipe de la comptabilite générale
Principe de la comptabilite généralecours fsjes
 
S1 mq i - statistique descriptive i - exercices
S1   mq i - statistique descriptive i - exercicesS1   mq i - statistique descriptive i - exercices
S1 mq i - statistique descriptive i - exercicesAbdeslam ELMOUDEN
 
Exercice corrige statistiques_1_stg
Exercice corrige statistiques_1_stgExercice corrige statistiques_1_stg
Exercice corrige statistiques_1_stgsalah16
 
Plan comptable-marocain
Plan comptable-marocainPlan comptable-marocain
Plan comptable-marocainnabil_kira
 

Andere mochten auch (20)

S1 mq i - statistique descriptive i - résumés des chapitres
S1   mq i - statistique descriptive i - résumés des chapitresS1   mq i - statistique descriptive i - résumés des chapitres
S1 mq i - statistique descriptive i - résumés des chapitres
 
Statistique Descriptive s1
Statistique Descriptive s1Statistique Descriptive s1
Statistique Descriptive s1
 
Statistique descriptives s1+s2
Statistique descriptives s1+s2Statistique descriptives s1+s2
Statistique descriptives s1+s2
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptive
 
cours statistique descriptive s1 www.learneconomie.blogspot.com
cours statistique descriptive s1 www.learneconomie.blogspot.comcours statistique descriptive s1 www.learneconomie.blogspot.com
cours statistique descriptive s1 www.learneconomie.blogspot.com
 
TCE1-Module statistiques
TCE1-Module statistiquesTCE1-Module statistiques
TCE1-Module statistiques
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptive
 
Statistiques
StatistiquesStatistiques
Statistiques
 
Cours statistiques
Cours statistiquesCours statistiques
Cours statistiques
 
Cours statis descriptives
Cours statis descriptivesCours statis descriptives
Cours statis descriptives
 
Statistique descriptives s1 de bien www.learneconomie.blogspot.com]
Statistique descriptives  s1 de bien www.learneconomie.blogspot.com]Statistique descriptives  s1 de bien www.learneconomie.blogspot.com]
Statistique descriptives s1 de bien www.learneconomie.blogspot.com]
 
Statistiques ofppt
Statistiques ofpptStatistiques ofppt
Statistiques ofppt
 
Td1 stats-2008-corrige
Td1 stats-2008-corrigeTd1 stats-2008-corrige
Td1 stats-2008-corrige
 
Statistique descriptives1ets2
Statistique descriptives1ets2Statistique descriptives1ets2
Statistique descriptives1ets2
 
Exercices de stat. descriptive
Exercices de stat. descriptiveExercices de stat. descriptive
Exercices de stat. descriptive
 
Principe de la comptabilite générale
Principe de la comptabilite généralePrincipe de la comptabilite générale
Principe de la comptabilite générale
 
Td statistique
Td statistiqueTd statistique
Td statistique
 
S1 mq i - statistique descriptive i - exercices
S1   mq i - statistique descriptive i - exercicesS1   mq i - statistique descriptive i - exercices
S1 mq i - statistique descriptive i - exercices
 
Exercice corrige statistiques_1_stg
Exercice corrige statistiques_1_stgExercice corrige statistiques_1_stg
Exercice corrige statistiques_1_stg
 
Plan comptable-marocain
Plan comptable-marocainPlan comptable-marocain
Plan comptable-marocain
 

Ähnlich wie Statistique descriptive

cupdf.com_la-statistique-descriptive.ppt
cupdf.com_la-statistique-descriptive.pptcupdf.com_la-statistique-descriptive.ppt
cupdf.com_la-statistique-descriptive.pptTarekDHAHRI3
 
Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01printif
 
étude d'une série statistiquebiostat.pdf
étude d'une série statistiquebiostat.pdfétude d'une série statistiquebiostat.pdf
étude d'une série statistiquebiostat.pdfHimaWari26
 
Cours stat descr
Cours stat descrCours stat descr
Cours stat descrhassan1488
 
Statistiques s2
Statistiques s2Statistiques s2
Statistiques s2hassan1488
 
Cours stat. achrit tsge1
Cours stat. achrit tsge1Cours stat. achrit tsge1
Cours stat. achrit tsge1Ma Ac
 
Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)TesoroHon
 
359570799-cours-statistiques-descriptives-eudiant-Copie-ppt.ppt
359570799-cours-statistiques-descriptives-eudiant-Copie-ppt.ppt359570799-cours-statistiques-descriptives-eudiant-Copie-ppt.ppt
359570799-cours-statistiques-descriptives-eudiant-Copie-ppt.pptTarekDHAHRI1
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfFootballLovers9
 
TS-TC-Statistique-presentation.pdf
TS-TC-Statistique-presentation.pdfTS-TC-Statistique-presentation.pdf
TS-TC-Statistique-presentation.pdfFootballLovers9
 

Ähnlich wie Statistique descriptive (20)

cupdf.com_la-statistique-descriptive.ppt
cupdf.com_la-statistique-descriptive.pptcupdf.com_la-statistique-descriptive.ppt
cupdf.com_la-statistique-descriptive.ppt
 
Stat1
Stat1Stat1
Stat1
 
Statistiques- S2
Statistiques- S2Statistiques- S2
Statistiques- S2
 
Cours1
Cours1Cours1
Cours1
 
Echantillonnage.pptx
Echantillonnage.pptxEchantillonnage.pptx
Echantillonnage.pptx
 
Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01
 
Statistique descriptive ch1
Statistique descriptive ch1Statistique descriptive ch1
Statistique descriptive ch1
 
STATISTIQUE-Cours
STATISTIQUE-CoursSTATISTIQUE-Cours
STATISTIQUE-Cours
 
Controle de gestion
Controle de gestionControle de gestion
Controle de gestion
 
étude d'une série statistiquebiostat.pdf
étude d'une série statistiquebiostat.pdfétude d'une série statistiquebiostat.pdf
étude d'une série statistiquebiostat.pdf
 
Cours stat descr
Cours stat descrCours stat descr
Cours stat descr
 
Statistiques s2
Statistiques s2Statistiques s2
Statistiques s2
 
Cours stat. achrit tsge1
Cours stat. achrit tsge1Cours stat. achrit tsge1
Cours stat. achrit tsge1
 
Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)
 
359570799-cours-statistiques-descriptives-eudiant-Copie-ppt.ppt
359570799-cours-statistiques-descriptives-eudiant-Copie-ppt.ppt359570799-cours-statistiques-descriptives-eudiant-Copie-ppt.ppt
359570799-cours-statistiques-descriptives-eudiant-Copie-ppt.ppt
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
2tc intro
2tc intro2tc intro
2tc intro
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
 
TS-TC-Statistique-presentation.pdf
TS-TC-Statistique-presentation.pdfTS-TC-Statistique-presentation.pdf
TS-TC-Statistique-presentation.pdf
 

Statistique descriptive

  • 1. La Statistique Descriptive Professeur François KOHLER kohler@medecine.uhp-nancy.fr
  • 2. Buts • Ensembles de méthodes dont le but est de présenter les données pour que l'on puisse en prendre connaissance facilement. • Cela peut concerner : – une variable à la fois : statistique à une dimension, – deux variables à la fois : statistique à deux dimensions, – plus de deux variables à la fois : statistique multidimensionnelle.
  • 3. Statistique descriptive • Ces méthodes comportent : –Les tableaux : distributions de fréquences. –Les diagrammes : graphiques. –Les paramètres statistiques : • Réduction des données à quelques valeurs numériques caractéristiques.
  • 4. Rappel • 3 Types de données : – Qualitatives (présence ou absence d’une caractéristique) • Binaires, • Nominales. – Quantitatives (compte ou mesure) • Discontinues, • Continues. – Ordinales (rang)
  • 5. Distributions de fréquences • Concernent les 3 types de données avec des points communs et des points spécifiques à chacun des types. • Séries statistiques (tout type de données) : – Enumération des résultats : • Exemples : – Couleurs des cheveux : blond, brun, blond, noir…. – Nombre d’enfants dans les familles : 1, 2, 1, 4, 0 …. – Séries statistiques ordonnées : • Ne concernent que les données quantitatives et ordinales • Enumération du plus petit au plus grand – Exemple : Nombre d’enfants : 0, 1, 1, 2, 4 …. • Le nombre total d’observations est l’effectif. Il est noté n (certain le note N).
  • 6. Distributions non groupées • Données – qualitatives, – ordinales, – quantitatives discontinues • Formellement, ces tableaux ne concernent pas les données quantitatives continues. xi ni fi x1 n1 f1 x2 n2 f2 … … … xp np fp
  • 7. xi ni fi x1 n1 f1 x2 n2 f2 … … … Distributions non groupées Chaque ligne correspond à une valeur observée différente. Il y a p valeurs différentes observées. ni correspond au nombre d’observations (effectif) ayant comme valeur xi fi correspond à la fréquence (pourcentage) d’observations ayant comme valeur xi : n n f i i = n n f i i =
  • 8. Distributions non groupées • Données ordinales et quantitatives discontinues. • x1 est la plus petite valeur, xp la plus grande des valeurs observées. • Effectifs cumulés. – N2 = n2+n1 • Fréquences cumulées. – F2 = f2+f1 xi ni fi Ni Fi x1 n1 f1 N1 F1 x2 n2 f2 N2 F2 … … … …. … xp np fp Np Fp
  • 9. Distributions non groupées Ni est l’effectif cumulé c’est dire le nombre d’observations ayant des valeurs inférieures ou égales à xi : Fi est la fréquence cumulée c’est à dire la fréquence des observations ayant des valeurs inférieures ou égales à xi : ∑= = i 1j ji nN ∑= = i 1j ji fF xi ni fi Ni Fi x1 n1 f1 N1 F1 x2 n2 f2 N2 F2 … … … …. … xp np fp Np Fp
  • 10. Distributions groupées • Les valeurs sont mises en classes. • Toutes les distributions relatives à des variables continues doivent être considérées comme des distributions groupées, puisque l'infinité de valeurs admissibles est condensée en un nombre fini de mesures en fonction de la précision de la méthode de mesure utilisée.
  • 11. A propos des classes • Leurs valeurs extrêmes sont appelées bornes des classes. • Les classes sont mutuellement exclusives. • L'amplitude de la classe ou intervalle ou module de classe : ∆= borne supérieure - la borne inférieure. • Le point central ou encore point médian est situé à mi chemin entre les bornes. – Ci = Binfi +∆i/2 • Dans certains cas la limite inférieure de la première classe ou supérieure de la dernière classe n'est pas précisée. On parle de classes ouvertes. A éviter !...
  • 12. A propos des classes • L'intervalle de classe est généralement constant, toutefois, on utilise parfois une amplitude variable notamment pour les classes des valeurs extrêmes. • En cas de classes d'amplitudes différentes, la densité de fréquence ni/ ∆i permet de comparer les effectifs ou les fréquences d'une classe à l'autre. • la densité de fréquence est utilisée pour tracer l’histogramme.
  • 13. Données quantitatives continues • Remarques : – Si l’on mesure le poids d’un nouveau né avec une précision de 1g, l’enfant qui pèse 3500g a en fait un poids compris entre [3499,5g et 3500,5g[. 3500g représente le centre de la classe. – Si l’on mesure l’âge en années pleines des individus, une personne de 20 ans a un âge compris entre [20 ans (inclus) et 21 ans[ (exclu). 20 ans représente la borne inférieure de la classe.
  • 14. Distribution groupée • On remplace la colonne xi par une colonne qui comprend soit les bornes de classes, soit le centre de classe ou la borne inférieure de la classe (données temporelles comme l’âge en années pleines).
  • 15. Exemple Classe Ci ni fi Ni Fi [140-160[ 150,0 10 0,05 10 0,05 [160-165[ 162,5 20 0,10 30 0,15 [165-170[ 167,5 30 0,15 60 0,30 [170-175[ 172,5 45 0,23 105 0,53 [175-180[ 177,5 40 0,20 145 0,73 [180-185[ 182,5 35 0,18 180 0,90 [185-190[ 187,5 15 0,08 195 0,98 [190-200[ 195,0 5 0,03 200 1,00 Pour les calculs, le centre de classe Ci est utilisé en remplacement de xi sauf de façon usuelle pour l’âge (données temporelles).
  • 16. Formules 2 i p 1i i n 1i 2 i p 1i ii n 1i i p 1i i p 1i i i i xnxvaleursdescarrésdesTotal xnxvaleursdesTotal 1f nn n n f ∑∑ ∑∑ ∑ ∑ == == = = == == = = = p = nombre de valeurs différentes observées
  • 17. En pratique • Pour les calculs des paramètres statistiques usuels des données quantitatives et uniquement de ce type de données. • On complète la distribution par : – Une colonne ni* xipour calculer le total, – Une colonne ni *xi 2 pour calculer le total des carrés.
  • 18. Les graphiques représentent les distributions • Distributions non cumulées – Distributions non groupées • Données qualitatives : – Diagramme sectoriel  Angle au centre proportionnel à ni (ou fi). • Données quantitatives discrètes – Diagramme en bâtons  On trace parallèlement à l'axe des ordonnées, en regard des xi qui sont portés en abscisse, un segment de longueur proportionnel à ni – Polygone des fréquences  Ligne brisée joignant les bâtons.  Fréquences absolues / fréquences relatives.
  • 19. Exemple : Données qualitatives • Diagramme sectoriel Groupes sanguins ni fi A 35 35% B 9 9% O 40 40% AB 16 16% 100 100%
  • 20. Exemple : Donnée quantitative discontinue nombre d'enfants (xi) nombre de familles (ni) 0 10 1 20 2 15 3 5 4 3 > 4 0 0 5 10 15 20 25 0 1 2 3 4 > 4 Polygone des fréquences
  • 21. Les graphiques représentent les distributions • Distributions non cumulées –Distributions groupées • Données quantitatives – Histogramme :  Composé de rectangles ayant comme base l'intervalle de classe et comme hauteur la densité de fréquence (ni/∆i).  La surface est proportionnelle à ni.
  • 22. Les graphiques représentent les distributions • Distributions cumulées –Uniquement pour des données quantitatives • Polygone des fréquences : – Distributions non groupées = escalier. – Distributions groupées = ligne brisée. • Histogrammes.
  • 23. Exemple : Histogramme Classe ni Densité (*10) [140-160[ 10 5 [160-165[ 20 40 [165-170[ 30 60 [170-175[ 45 90 [175-180[ 40 80 [180-185[ 35 70 [185-190[ 15 30 [190-200[ 5 5 140 160 170 180 190 0 10 20 30 40 50 60 70 80 90 200
  • 24. Aspects de la distribution • Distribution non cumulée : – en forme de : Cloche, J, U ; – À une seule bosse, à plusieurs bosses ; – ……. • Symétrie – Aplatissement.
  • 25. Remarques • Autres représentations : – Diagramme de Pareto et courbe ABC ; – Boite à moustache (Box-plot). • Attention : – Les tableurs comme Excel ou Calc ne permettent pas facilement de faire des histogrammes.
  • 26. Diagramme de Pareto • Dans le domaine de la qualité, on étudie les causes de dysfonctionnement d'un système. • Quand il s'agit de variables qualitatives binaires, on présente les résultats sous forme de diagramme de Pareto et de courbe ABC. • Objectif : Visualiser les causes les plus fréquentes de défaut de qualité.
  • 27. Exemple • La tenue des dossiers médicaux fait l'objet de textes règlementaires contraignants. • l'évaluation de la qualité des dossiers fait partie du processus de certification. • Un dossiers peut avoir plusieurs anomalies. • On a étudié les anomalies rencontrées sur 200 dossiers.
  • 28. Résultats On trie le tableau par ordre décroissant du nombre d'anomalies et on calcule les pourcentages par rapport au nombre total d'anomalies Nombre de dossiers analysés 200 Effectif des anomalies Pourcentage de dossiers Dossiers non retrouvés 3 1,50% Absence d'une pièce réglementaire 80 40,00% Délai de la lettre de sortie non respecté 150 75,00% Dossier comportant des pièces non "signées" 180 90,00% Dossier comportant des pièces sans identification du patient 10 5,00% Doosier ne permettant pas de retrouver la démarche clinique 30 15,00% Etude de la qualité du dossier du patient : anomalies rencontrées Effectif % d'anomalies Dossier comportant des pièces non "signées" 180 39,74% Délai de la lettre de sortie non respecté 150 33,11% Absence d'une pièce réglementaire 80 17,66% Doosier ne permettant pas de retrouver la démarche clinique 30 6,62% Dossier comportant des pièces sans identification du patient 10 2,21% Dossiers non retrouvés 3 0,66% Total 453 100,00%
  • 29. Digramme de Pareto et courbe ABC Effectif % de anomalies % Cumulé Dossier comportant des pièces non "signées" 180 39,74% 39,74% Délai de la lettre de sortie non respecté 150 33,11% 72,85% Absence d'une pièce réglementaire 80 17,66% 90,51% Doosier ne permettant pas de retrouver la démarche clinique30 6,62% 97,13% Dossier comportant des pièces sans identification du patient10 2,21% 99,34% Dossiers non retrouvés 3 0,66% 100,00% Total 453 100,00%
  • 30. Les paramètres statistiques • Paramètres de position – Valeurs centrales • Moyenne arithmétique • Les autres moyennes – géométrique – harmonique – quadratique • Médiane • Mode • Médiale – Les fractiles • Quartiles • Percentiles • Paramètres de dispersion – Amplitude ou étendue – Ecart interquartiles – Variance, Ecart type – Coefficient de variation • Paramètre d'aplatissement et de symétrie Paramètres de l’échantillon Paramètres de la population E s t i m a t i o n E s t i m a t i o n Le + souvent
  • 31. Moyenne Arithmétique • Appelée moyenne notée – Paramètre central qui concerne bien évidemment uniquement des variables quantitatives. – Dans l’unité de la variable. – Calculable quelque soit la loi qui régit la distribution. – Somme des valeurs (T) divisée par le nombre de mesures (n). – Suivant la forme de présentation des observations, différentes formules de calcul peuvent être employées. Population m (mean) Echantillon x (average) x
  • 32. Moyenne arithmétique • On note : n : Nombre total de mesures. p : Nombre de valeurs différentes observées. ni : Nombre d’occurrences de la valeur observée i. fi : Fréquence (pourcentage) de la valeur observée i. ∑ ∑∑∑ ∑∑ = === == == === === p 1i ii p 1i ii p 1i ii n 1i i p 1i i i i p 1i i xf n T x xfnxnxT 1f n n fnn
  • 33. Moyenne arithmétique • Propriétés : – Centre de gravité de la distribution. – La somme des écarts à la moyenne est nulle. – Affectée par les changements de variable. • Si y = ax + b; on a : y = ax + b – La moyenne contrairement à la médiane est très sensible aux valeurs extrêmes. – La moyenne d'un groupe résultant de la fusion d'autres groupes n'est égale à la moyenne des moyennes que si tous les groupes ont le même effectif. – Dans une distribution en cloche, unimodale et symétrique, moyenne, mode et médiane sont confondus.
  • 34. Distribution des moyennes de plusieurs échantillons • La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population. • La distribution des moyennes de petits échantillons (n<30) indépendants tirés de la même population suit une loi normale si la distribution de la variable est normale. • Au-delà de 30, la distribution des moyennes suit une loi normale sans condition sur la distribution de la variable.
  • 35. Exemple • Soit la série correspondant aux tailles en cm de 6 étudiants : 160,170,180,180, 190, 200. n = 6; T = 160+170+180+180+190+200 = 1080 cm180 6 1080 x ==
  • 36. nombre d'enfants (xi) nombre de familles (ni) ni*xi 0 10 0 1 20 20 2 15 30 3 5 15 4 3 12 Total 53 77 Le nombre de familles enquêtées est de 53. Le nombre total d’enfants est de 77. La moyenne du nombre d’enfants par famille est de 77/53 = 1,45. Attention aux arrondis ici si on arrondit à une décimale la moyenne est de 1,5 enfants par famille. Exemple
  • 37. • Les étudiants de première année de L1 santé sont répartis dans 3 amphithéâtres avec les données ci-dessous. Quelle est la moyenne de l’âge en L1 santé ? Effectifs Moyenne de l'âge en années Amphi 1 1000 18,1 Amphi 2 500 19,5 Amphi 3 1000 18,3 Les effectifs étant différents dans les 3 groupes, la moyenne recherchée n’est pas la moyenne des moyennes. •On calcule le total de l’âge des 3 groupes réunis : T = 18,1*1000+ 500*19,5+ 18,3*1000 =46 150. •L’effectif total est de 2 500. •La moyenne recherchée est 46150/2500 =18,5 ans Exemple
  • 38. Les autres moyennes • Moyenne géométrique d'une série de valeurs positives est la racine nième du produit des n valeurs. Elle est toujours inférieure ou égale à la moyenne arithmétique. • Moyenne harmonique d'une série de valeurs positives est égale à l'inverse de la moyenne des inverses. • Moyenne quadratique est la racine carré de la moyenne arithmétique des carrés.
  • 39. La médiane • La médiane notée x (tilde) est telle que la moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou égale) : xi tel que Fi = 0,5. – Sur les distributions symétriques unimodales en cloche (normales par exemple) la médiane est égale à la moyenne et au mode. – Paramètre peu sensible aux valeurs extrêmes. – Peut être utilisée pour des données ordinales. ∼
  • 40. La médiane : calcul • Sur une distribution non groupée : – Si n impair, la médiane est l'observation de rang (N+1)/2 – Si n est pair, tout nombre entre xN/2 et xN/2+1 convient. On prend la moyenne (pondérée en cas d'ex-aequo) entre ces deux valeurs. • Sur une distribution groupée, la classe médiane est celle qui contient la médiane. – Détermination graphique. – En admettant que les observations soient réparties uniformément dans cette classe, on réalise une approximation linéaire.
  • 41. Classe ni Ni Fi [140-160[ 10 10 0,05 [160-165[ 20 30 0,15 [165-170[ 30 60 0,30 [170-175[ 45 105 0,53 [175-180[ 40 145 0,73 [180-185[ 35 180 0,90 [185-190[ 15 195 0,98 [190-200[ 5 200 1,00 Total 200 • La classe qui contient la médiane est [170-[175. • On pose les 2 équations : 0,53 = a*175 +b 0,30 = a*170+b • => 0,23 = a*(175-170) a = 0,046 et b= -7,52 • => y = 0,046x – 7,52 • Cherchons x tel que y = 0,5 Médiane = 174,35 Exemple
  • 42. Mode • Mode encore appelé valeur dominante : – Correspond à la valeur la plus fréquente. xi correspondant au ni (ou fi)maximum. – Il peut y avoir un ou plusieurs modes. • Rappel : – Dans les distributions en cloche, unimodales symétriques, mode, médiane et moyenne sont confondus.
  • 43. Fractiles • Quartiles – Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont inférieures, 3/4 lui sont supérieures. – Q2 = Médiane. – Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont inférieures, 1/4 lui sont supérieures. • Détermination graphique. • Interpolation linéaire (cf médiane). • Percentiles – 10ième percentile : xi tel que Fi = 0,10
  • 44. Remarques • On a : – 50% des individus qui ont des valeurs en dehors de l’intervalle Q1-Q3 et 50% à l’intérieur. – 25% des individus qui ont des valeurs comprises entre Q1 et médiane. – 25% des individus qui ont des valeurs comprises entre médiane et Q3. – 25% des individus qui ont des valeurs inférieure à Q1 – 25% des individus qui ont des valeurs supérieures à Q3 – Ceci permet rapidement de se rendre compte si la distribution est symétrique ou non.
  • 45. Paramètres de dispersion • Amplitude ou étendue. • Ecart interquartiles. • Variance et écart type. • Coefficient de variation.
  • 46. Amplitude ou étendue • Ecart entre la valeur de l'observation maximale et celle de l'observation minimale. • Non définie pour les distributions groupées (tolérance pour les variables quantitatives continues de la précision de la mesure). • On montre que l'écart type est toujours inférieur ou égal à la moitié de l'amplitude. • Dans les distributions unimodales en cloche l'écart type est égal : – au tiers de l'amplitude pour n de l'ordre de 10, – au quart de l'amplitude pour n entre 15 et 50, – au cinquième pour des effectifs de 50 à 200, – au sixième pour des effectifs de 200 à 1000.
  • 47. Ecart interquartiles (EIQ) • EIQ = Q3 -Q1. • Englobe 50% des observations. • On utilise parfois l'écart semi-interquartile (Q3-Q1)/2.
  • 48. Variance et écart type • La variance (variance) d'une série ou d'une distribution de fréquences est la moyenne arithmétique des carrés des écarts à la moyenne • C'est par rapport à la moyenne que la somme des carrés des écarts est la plus faible. • La variance de l'échantillon est souvent notée S2 . • Ce n'est pas un bon estimateur de la variance de la population souvent notée σ2 . • L’estimation de la variance est notée σ2 . ^ n )x(x S n 1i 2 i 2 ∑= − =
  • 49. Variance et écart type • Le numérateur de la variance est appelé somme des carrés des écarts et noté SCE. • L'écart type est la racine carré de la variance. On l'appelle également déviation standard (standard deviation). Il est dans l'unité de la variable. • Variance et écart type sont indépendants des translations (changement d ’origine) mais pas des multiplications (changement d'unité). – Si y = a * x + b, on a Sy = |a| * Sx • Pour les distributions en cloche, la variance calculée à partir des classes est surestimée, certain réalise la correction de Sheppard.
  • 51. Ecart type de la moyenne • Si l’on considère plusieurs échantillons indépendants, issus d’une population, on obtient plusieurs moyennes. • La distribution des moyennes a un écart type appelé écart type de la moyenne ou erreur standard de la moyenne (ESM) (standard deviation of the mean – SDM). n σˆ MˆES =
  • 52. Représentation en Box Plot • Résume la distribution en terme de paramètres de position et de dispersion.
  • 53. Coefficient de variation • CV est le rapport écart type divisé par la moyenne. • CV est un nombre pur, sans unités. • CV est totalement indépendant des unités. • Le CV permet de comparer la variabilité de distributions de variables qui ne sont pas dans les mêmes unités.
  • 54. Moments centrés d’ordre k. Symétrie et aplatissement • Moments centrés d'ordre k – moyenne arithmétique des écarts à la moyenne élevée à la puissance k. – si k pair => paramètre de dispersion. – si k impair => paramètre de symétrie. • Coefficient de Pearson et de Fisher – b1 pour caractériser la symétrie de la courbe; b2 pour caractériser l'aplatissement. – b1 = M3 2 / M2 3 : est voisin de 0 si la distribution est symétrique. – b2 = M4 / M2 2 : est voisin de 3 si la distribution suit une loi normale (plus aplatie qu'elle si b2 < 3). – cf Loi Normale.
  • 55. Statistique descriptive à 2 dimensions • Objectif : mettre en évidence les relations qui existent entre deux séries d'observations. – Nature des variables : les deux variables peuvent être quantitatives, qualitatives ou l'une quantitative et l'autre qualitative. – Deux variables mesurées chez le même individu par exemple poids et taille; poids et couleur des yeux, présence d’un cancer et éthylisme... • Situations : – Séries appariées : même variable mesurée dans deux circonstances : • Avant - Après traitement. • Cas - Témoins on apparie un témoin dépourvu de la maladie que l'on veut étudier sur différents points que l'on sait lier au phénomène étudié (par exemple pour une étude de la mortalité on apparie sur âge, sexe, ... – Séries non appariées : • Même variable mesurée dans des groupes différents.
  • 56. Tableaux à 2 dimensions • Série, distribution de fréquences : tables de contingence. Sujet Poids Taille 1 70 170 2 80 180 3 65 165 4 75 175 5 90 182 6 73 170 7 60 162 8 68 165 9 83 180 …. … … Poids Taille 60 65 68 70 73 75 80 83 90 Tot. 162 1 1 165 1 1 2 170 1 12 13 175 10 10 180 4 15 1 2 22 182 1 1 Tot. 1 1 1 5 12 25 1 1 3 48
  • 57. Table de contingence • Nombre de mesures totale n • Total de chaque ligne = li • Total de chaque colonne = cj • Effectif d'une cas = nij • Fréquences relatives: – nij / li: % en ligne – nij / cj% en colonne – nij / n % – li / n – cj / n Cheveux Yeux Blonds Bruns Autres Tot. (li) Clairs 50 20 30 100 Foncés 60 80 60 200 Tot. (cj) 110 100 90 300
  • 58. Attention Cheveux Yeux Blonds Bruns Autres Tot. (li) Clairs 50 20 30 100 Foncés 60 80 60 200 Tot. (cj) 110 100 90 300 300 = Nombre total de mesures. 100 = Nombre d'individus ayant les yeux clairs. 110 = Nombre d'individus ayant les cheveux blonds. 50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs. 50 / 110 = % d'individus parmi les blonds ayant les yeux clairs. 50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds.
  • 59. Représentation graphique 2 variables quantitatives • Nuage de points 55 60 65 70 75 80 85 90 160 165 170 175 180 185
  • 61. Covariance • Calcul Cov (x,y) = N Σi = 1 N x * y - i i N T * Tx y i = 1 Σ N x * yi i = Txy = somme des produits
  • 62. Table de contingence de 2 caractères binaires • Très utilisées en santé : –Recherche de facteur de risque : exemple enquêtes exposés/non exposés. –Evaluation d’un test diagnostic.
  • 63. Recherche de facteurs de risques : paramètres utilisés Cancer + Cancer - Total Ethylisme + 73 927 1 000 Ethylisme - 37 963 1 000 Total 110 1 890 2 000 Cancer du poumon et éthylisme. Fréquences relatives : Risques : - Cancer chez les éthyliques : R1 = 73/1000 - Cancer chez les non éthyliques: R0 = 37/1000
  • 64. Risque relatif et odds ratio • RR est le rapport du risque chez les exposés (R1) sur le risque des non exposés (R0). – RR = R1/R0 = 0,073/0,037 =1,97 • Cote (Odds) (cf course de chevaux). – Chez les éthyliques R1/(1-R1) = 0,79 – Chez les non éthyliques R0/(1-R0) = 0,038 • Odds ratio (OR) ou rapport de cotes. – OR = 0,79/0,038 = 2,05 • L’OR est souvent utilisé en épidémiologie. Si la fréquence de la maladie est faible, les valeurs de OR et de RR sont très proches.
  • 65. Recherche de facteurs de confusion • On a montré que l’on avait 1,97 fois plus de chance de faire un cancer du poumon si l’on boit que si l’on ne boit pas… Mais ? • Un facteur de confusion est simultanément facteur de risque pour la maladie et est une variable associée à l'exposition. – Les facteurs de confusion potentiels sont le tabagisme et le sexe. • La première variable à considérer est le « tabagisme ».
  • 66. Table de contingence à 3 variables Cancer du poumon + Cancer du poumon - Total Tabagisme + Ethylisme + 70 630 700 Ethylisme - 30 270 300 Total 100 900 1 000 Tabagisme - Ethylisme + 3 297 300 Ethylisme - 7 693 700 Total 10 990 1 000 Total 110 1 890 2 000
  • 67. Calcul des différents risques Cancer + Cancer - Total Tabagisme + Ethylisme + 70 630 700 Ethylisme - 30 270 300 Total 100 900 1 000 Tabagisme - Ethylisme + 3 297 300 Ethylisme - 7 693 700 Total 10 990 1 000 Total 110 1 890 2 000 Chez les fumeurs, la fréquence du cancer est de 100/1000 = 0,1 contre 10/1000 = 0,01; RR = 10 Le tabagisme est un facteur de risque pour le cancer du poumon, car les fumeurs ont 10 fois plus de risque de développer un cancer du poumon que les non-fumeurs. Quel est le RR d'être alcoolique pour les fumeurs par rapport aux non fumeurs ? RR = 700/1000 / 300/1000 = 2,3 Il existe une association entre le tabagisme et l'éthylisme. Les fumeurs ont 2,3 fois plus de chance d'être alcooliques que les non-fumeurs. Le tabagisme est un facteur de confusion dans cette étude, les données doivent être analysées en tenant compte de cette variable. Calculer le RR (éthylisme) dans chaque strate Tabagisme+ RR = 70/700 / 30/300 = 1 Tabagisme - RR = 3/300 / 7/700 = 1 L'association entre éthylisme et cancer du poumon dans les données brutes (RR = 1,97) est le produit d'un biais de confusion. Car à l'intérieur des différentes strates du "tabagisme" il n'existe aucune association entre éthylisme et le cancer du poumon : RR = 1.
  • 68. Quelques indicateurs utilisés en statistiques hospitalières • Lits. • Entrées et Sorties. • Durée moyenne de séjour : DMS. • Coefficient (taux d’occupation) des lits, Lits occupés. • Effectifs et équivalents temps pleins.
  • 69. Lits • Comment compter les lits dans un hôpital ? – Lits Installés au 1er janvier. – Lits disponibles pendant un période : • Comment comptabiliser l’indisponibilité ? – Fermeture pour désinfection, – Fermeture par manque d’effectifs soignants, – Fermeture par manque de malades, – …..
  • 70. Entrées, sorties, malades présents • On parle d’entrées ou de sorties pendant une période donnée. Date de début Date de fin 2 4 3 1 10 3 30 4 4 1 4 Chaque trait représente un malade. - 3 entrées - 4 sorties - 6 présents Et pour les journées ? - 21 j (entrants) - 23 J (sortants) - 52 J (présents)
  • 71. Durée moyenne de séjours : • Durée de séjour PMSI = DS-DE + 1 si décès. • DMS : Présents présentsdesJournées DMS Sorties sortantsdesJournées DSM Entrées entrantsdesJournées DMS = = =
  • 72. Taux d’occupation des lits et lits occupés périodeladeDurée réaliséesJournées occupésLits périodeladedurée*litsdeNombre réaliséesJournées occupationd'Taux = =
  • 73. Effectifs, Equivalents temps plein • Les effectifs correspondent au nombre de personnes employées par la structure. • Les équivalents temps plein (ETP) représentent la force de travail. Une personne travaillant à temps partiel est comptabilisée en fonction de son temps de travail. • Par exemple un hospitalo-universitaire compte pour 0,5 ETP.