1. DAMASwww.damas.ift.ulaval.ca
Outline
Un Tutorial sur les Tests Statistiques
Abdeslam Boularias
Laboratoire DAMAS, Département d’informatique et de Génie Logiciel
Université Laval
26 Janvier 2007
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 1 / 41
2. DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hypothèse
4 Tests Statistiques Importants
5 Conclusion
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
3. DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hypothèse
4 Tests Statistiques Importants
5 Conclusion
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
4. DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hypothèse
4 Tests Statistiques Importants
5 Conclusion
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
5. DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hypothèse
4 Tests Statistiques Importants
5 Conclusion
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
6. DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hypothèse
4 Tests Statistiques Importants
5 Conclusion
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
7. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Rappel sur les Probabilités
Variables aléatoires:
La théorie des probabilités est l’ étude mathématiques des
phénomènes incertains où aléatoires.
Une variable aléatoire X est une fonction qui associe à chaque
résultat d’une expérience aléatoire un nombre réel.
L’ensemble des résultats d’une expérience est appelé l’ univers
Ω.
Exemple:
Une variable aléatoire X qui traduit le résultat ω ∈ Ω du jet d’un dé en
un nombre réel X(ω) ∈ {1, 2, 3, 4, 5, 6}
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 3 / 41
8. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Axiomes de Kolmogorov
Axiomes de Kolmogorov:
Une fonction P est dite une probabilité sur Ω ssi:
Pour tout évènement A: 0 ≤ P(A) ≤ 1.
P(Ω) = 1
Pour toute suite d’évènements deux à deux disjoints A1, A2, . . . ,
on a :
P(
∞
i=0
Ai ) =
∞
i=0
P(Ai )
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 4 / 41
9. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Règles élémentaires
Règle de l’union:
P(A∪B) = P(A)+P(B)−P(A∩B)
Règle de la conditionnelle:
P(A|B) =
P(A ∩ B)
P(B)
Règle de l’intersection:
P(A ∩ B) = P(B)P(A|B)
Règle de Bayes:
P(A|B) = P(B|A)
P(A)
P(B)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 5 / 41
10. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Loi de probabilités et fonction de répartition:
Pour une variable aléatoire discrete X:
Une loi de probabilité f associe à chaque valeur a la probabilité
PX (x = a).
Pour une variable aléatoire continue X:
Une fonction de répartition F associe à chaque valeur a la probabilité
PX (x ≤ a).
On a:
F(a) =
a
−∞
f(t)dt
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 6 / 41
11. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
L’espérance, la variance, et l’écart-type
Soit X une variable aléatoire discrete:
L’espérance mathématique de X:
E(X) =
x∈X(Ω)
xP(x)
La variance de X:
V(X) = E((X − E(X))2
) =
x∈X(Ω)
(x − E(X))2
P(x)
L’écart type de X:
δ = V(X)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 7 / 41
12. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
L’espérance, la variance, et l’écart-type
Soit X une variable aléatoire continue:
L’espérance mathématique de X:
E(X) =
∞
−∞
xf(x)dx
La variance de X:
V(X) = E((X − E(X))2
) =
∞
−∞
(x − E(X))2
f(x)dx
L’écart type de X:
δ = V(X)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 8 / 41
13. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Loi des grands nombres
La loi faible des grands nombres
lim
n→∞
P(|
X1 + X2 + · · · + Xn
n
− E(X)| ≥ ) = 0
La loi forte des grands nombres
lim
n→∞
P(
X1 + X2 + · · · + Xn
n
= E(X)) = 1
C’est à dire?
L’approche fréquentiste est une bonne estimation des paramètres
réels de la distribution.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 9 / 41
14. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme discrete
C’est quoi?
C’est la loi des phénomènes où tous les évènements ont la
même probabilité de se réaliser.
Exemple: Le jet d’un dé non biaisé.
On utilise cette distribution lorsqu’on connait rien sur la véritable
distribution.
Exemple: Dans un POMDP où on ne sait rien sur l’état de
départ, on initialise l’état de croyance avec une distribution
uniforme sur tous les états.
∀x ∈ X(Ω) : PX (x) =
1
|X(Ω)|
E(X) =
1
|X(Ω)|
x∈X(Ω)
x
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 10 / 41
15. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme discrete, un exemple
http://upload.wikimedia.org/wikipedia/commons/6/6f/DUniform_distribution_PDF.png
http://upload.wikimedia.org/wikipedia/commons/6/6f/DUniform_distribution_PDF.png2007-01-23 18:09:33
http://upload.wikimedia.org/wikipedia/commons/c/c3/DUniform_distribution_CDF.png
http://upload.wikimedia.org/wikipedia/commons/c/c3/DUniform_distribution_CDF.png2007-01-23 18:22:29
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 11 / 41
16. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme continue
Les valeurs de la variable aléatoire X sont dans un intervalle
continu [a, b].
Les sous intervalles de même longeurs ont la même probabilité.
∀x ∈ [a, b] : PX (x) =
1
b − a
∀x ∈ [a, b] : FX (x) =
x − a
b − a
E(X) =
a + b
2
, V(X) =
(b − a)2
12
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 12 / 41
17. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme continue, un exemple
http://upload.wikimedia.org/wikipedia/commons/9/9c/Uniform_distribution_PDF.png
http://upload.wikimedia.org/wikipedia/commons/9/9c/Uniform_distribution_PDF.png2007-01-24 14:13:36
http://upload.wikimedia.org/wikipedia/commons/b/b7/Uniform_distribution_CDF.png
http://upload.wikimedia.org/wikipedia/commons/b/b7/Uniform_distribution_CDF.png2007-01-24 14:15:12
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 13 / 41
18. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Bernoulli
La loi de Bernoulli:
C’est la loi des deux évènements disjoints : Succés/Échec.
Exemple: pile ou face, retirer une boule à partir d’une urne et
vérifier si cette boule est rouge ou non.
Le seul paramètre de cette loi est p, la probabilité de succés.
P(x) =
p si x = 1
1 − p si x = 0
E(X) = p, V(X) = p(1 − p)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 14 / 41
19. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi Binomiale
Une Binomiale= plusieurs Bernoulli
On renouvelle n fois d’une manière indépendante, une
expérience de Bernoulli de paramètre p, et on compte le nombre
de succés.
P(x = k) = Ck
n pk
(1 − p)n−k
L’espérence E(X) est la somme des espérences, soit np
La variance V(X) est la somme des variances, soit np(1 − p)
Exemples:
Répéter pile ou face n fois.
Retirer n boules, avec remise, d’une urne qui contient une
proportion p de boules rouges.
Sans remise?
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 15 / 41
20. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Poisson
On connait λ, le nombre de fois moyen qu’un certain évènement
apparait pendant un certain intervalle de temps.
Exemple 1: Une frigate attaquée par un MIG-29 reçoit en
moyenne 1 missile/minute.
Exemple 2: Dans une certaine route, il y’a en moyenne 2.5
voitures/seconde qui rentrent.
Exemple 3: Pendant les trois mois d’Été à Québec, on a en
moyenne 0.4 incendies/jour.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 16 / 41
21. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Poisson
On cherche: la probabilité d’avoir k évènements pendant cet
intervalle de temps.
C’est la loi de Poisson:
P(k) =
e−λ
λk
k!
E(X) = λ, V(X) = λ
On peut approximer une Binomiale B(n, p) par une loi de Poisson de
paramètre λ = np lorsque n → ∞.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 17 / 41
22. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Poisson, un exemple
http://upload.wikimedia.org/wikipedia/commons/c/c1/Poisson_distribution_PMF.png
http://upload.wikimedia.org/wikipedia/commons/c/c1/Poisson_distribution_PMF.png2007-01-24 16:39:01
http://upload.wikimedia.org/wikipedia/en/a/a2/PoissonCDF.png
http://upload.wikimedia.org/wikipedia/en/a/a2/PoissonCDF.png2007-01-24 16:39:52
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 18 / 41
23. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi Multinomiale
Multinomiale = Généralisation de la Binomiale
On lance un dé n fois, et on aimerai connaitre la probabilité
d’observer x1 fois le 0, x2 fois le 2, x3 fois le 3, x4 fois le 4, x5 fois
le 5, et x6 fois le 6.
C’est la loi Multinomiale:
P(X1 = x1, . . . , Xk = xk ) =
n!
x1!...xk ! px1
1 . . . pxk
k si k
i=1 xi = n
0 sinon
E(Xi ) = npi , V(Xi ) = npi (1 − pi )
Une petite histoire de boules ...
Une urne contient des boules rouges avec une proportion pr , des
boules vertes, avec une proportion pv , et des boules bleus avec une
proportion pb. On tire n boules avec remise, et on s’interesse à la
probabilité d’avoir xr boules rouges, xv boules vertes, et xb boules
bleus.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 19 / 41
25. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Exemple2: représentations prédictive des états
52
Dépend de ?
O1
O1 O2
O2
O2O1O1 O2
O2 O1
O1 O2
O2
O2O1O1 O2
O2
t1
t2
a1
a1
a2
a1
a2
a1
a1
a2
a1
a2
40
t1
81
t1
14
t1
12
t1
24
t2
19
t2
43
t2
6
t2
7
Une simulation….
…. et une question:
Es-ce que t1 t2
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 21 / 41
26. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Test d’hypothèse
D’une manière générale:
Un test statistique est une démarche consistant à accepter ou à
rejeter une hypothèse (une conjecture) en se basant sur un
échantillon de données.
C’est une méthode rigoureuse car elle permet de distinguer les
fluctuation stochastiques des variation réelles.
L’hypothèse à vérifier est appelée: l’hpothèse nulle H0. On
définie aussi une hypothèse alternative H1.
Le résultat de test: Accepter H0 ou Rejeter H0
On distingue deux types de tests statistiques:
Test d’homogénéité: On vérifie si deux échantillons de données ont
la même loi de prababilités.
Test de conformité: On vérifie si un échantillon de données est
conforme à une certaine loi de prababilités qu’on a défini.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 22 / 41
27. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Exemple 1
Test d’indépendance entre t1 et t2
Test/historique h1 h2 h3 h4 h5
t1 40 50 81 12 14
t2 19 24 43 6 7
Hypothèse H0: t2 dépend de t1.
Hypothèse H1: t2 ne dépend de t1.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 23 / 41
28. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Exemple 2
Test d’indépendance entre le salaire et le sexe de l’individu
1000-2000 2000-3000 3000-4000 4000-5000 Totale
Hommes 50 70 110 60 290
Femmes 60 75 100 50 285
Total 110 145 210 110 575
Hypothèse H0: le salaire dépend de sexe.
Hypothèse H1: le salaire ne dépend pas de sexe.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 24 / 41
29. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Schéma général
Les 4 étapes d’un tests statistiques:
1 Définir l’hypothèse H0 et l’hypothèse H1.
2 Calculer la variable de décision du test statistique choisi, cette
variable mesure une distance entre les deux échantillions, ou
entre l’échantillon et sa loi théorique supposée.
3 Calculer le risque de première espèce α.
4 Conclure le test en comparant α à αseuil .
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 25 / 41
30. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Risque de première et deuxième espèce
Le risque de première espèce α est indique la probabilité de
rejeter H0 dans le cas ou H0 est vrai (C’est la probabilité, lorsque
H0 est vrai, d’obtenir une distance supérieur ou égale à celle
qu’on a trouvé).
Le risque de deuxième espèce β indique la probabilité
d’accepter H0 dans le cas ou H0 est fausse.
Décision/Vérité H0 H1
H0 1 − α β
H1 α 1 − β
α est souvent appelé "Le seuil de la signification du test".
1 − β est souvent appelé "La puissance du test".
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 26 / 41
31. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
Le principe:
C’est le premier test à être proposé, et c’est toujours le plus
utilisé.
Basé sur le principe des moindres carrés.
Les individus de l’échantillon doivent être des variables
aléatoires indépendantes et identiquement distribués (iid).
Si les variables aléatoires sont qualitatives ou discretes, alors on
regroupe les individus dans des classes et on considère la
fréquence de chaque classe.
Exemple:
On veut connaitre la cote de la popularité de G. W. Bush, on fait alors
un sondage sur un certain échantillion de la population. On classifie
les individus dans deux classe Pour ou Contre et on calcule la
fréquence de chaque classe.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 27 / 41
32. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
Le principe:
La distance entre l’échantillon et la loi théoriques est donnée par:
Distance =
Individu i
[(Valeur observée de i) − (Valeur attendue de i)]2
Valeur attendue de i
C’est une somme des carrés de variables Gaussiennes centrées et
réduites,
X =
k
1
X2
i avec Xi ∼ N(0, 1), alors X ∼ χ2
(k)
On cherche α tel que P(X > Distance) ≤ α
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 28 / 41
33. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de χ2
http://upload.wikimedia.org/wikipedia/commons/2/21/Chi-square_distributionPDF.png
http://upload.wikimedia.org/wikipedia/commons/2/21/Chi-square_distributionPDF.png2007-01-25 23:42:40
http://upload.wikimedia.org/wikipedia/commons/c/cb/Chi-square_distributionCDF.png
http://upload.wikimedia.org/wikipedia/commons/c/cb/Chi-square_distributionCDF.png2007-01-25 23:42:01
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 29 / 41
34. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’adéquation
La popularité de Bush?!
Celui qui n’est pas avec nous est contre nous: C’est une loi de
Bernoulli donc (Succés/Échec).
Sur un premier échantillon, on a trouvé que 35% de la population
est Pour (ppour = 0.35, pcontre = 0.65).
Peut on conclure que la cote de popularité du Président est de
35% ?
Si c’est le cas, alors le nombre de fans de Bush sur n personnes
doit suivre une Binomiale de paramètres (n, 0.35)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 30 / 41
35. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’adéquation
Confrontons donc la théorie à la réalité:
On prend un autre échantillon de taille n, on calcul le nombre
npour de personnes Pour et ncontre de personnes contre.
On calcul la somme suivante:
distance =
(npour − npour ppour )2
npour ppour
+
(ncontre − ncontrepcontre)2
ncontrepcontre
Supposons que le résulat est Distance = 7, et que notre seuil de
risque est de 5%.
Sur la table de χ2
(1), on trouve que
P(La vrai distance > 7) ≤ 0.01 < 0.05%.
Donc on accepte l’hypothèse que: 35% des américains sont
pour bush, et 65% contre.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 31 / 41
36. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’homogénéité
Bush est-il si populaire à Boston qu’à Texas?!
Pour vérifier si les deux populations sont homogènes, on fait la
même chose, sauf que le premier échantillon sera pris à partir
d’une population, et le deuxième d’une autre population.
On peut même se passer de calculer les probabilité:
distance =
(nBoston
pour − nTexas
pour )2
nTexas
pour
+
(nBoston
contre − nTexas
contre)2
nTexas
contre
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 32 / 41
37. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’indépendance
Le salaire dépend-t-il du sexe de l’individu? (exemple pris de
Wikipedia)
1000-2000 2000-3000 3000-4000 4000-5000 Totale
Hommes 55.5 73.1 105.9 55.5 290
Femmes 54.5 71.9 104.1 54.5 285
Total 110 145 210 110 575
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 33 / 41
38. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’indépendance
On calcule la distance entre la population Homme et la population
Femme de la même manière que dans le test de l’homogénéité:
1000-2000 2000-3000 3000-4000 4000-5000 Totale
Hommes 0.54 0.13 0.16 0.37 1.20
Femmes 0.55 0.14 0.16 0.38 1.22
Total 1.09 0.27 0.32 0.74 2.42
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 34 / 41
39. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’indépendance
On a 3 variables indépendantes par colonne, et 1 variables
indépendante par ligne, donc 3 degrés de liberté.
Selon la table de χ2
(3), P(La vrai distance > 2.42) ≤ 0.05
On accepte l’hopothèse que le salaire ne dépend pas de sexe.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 35 / 41
40. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Le test de Student
Ce test sert à comparer les moyennes µ1 et µ2 de deux
populations de loi Normal, et d’écart-type δ1, δ2.
Exemple: On sait que le Q.I. suit une loi normale, on veut
comparer les moyennes du Q.I. de deux groupes de la
population.
On l’utlise aussi pour comparer la moyenne de l’erreur d’une
regression linéaire à une moyenne nulle.
Lorsque les deux échantillons ont la même taille:
Distance =
µ1 − µ2
δ2
1 + δ2
2
Lorsque les deux échantillons ont des tailles N1, N2:
Distance =
µ1 − µ2
(N1−1)δ2
1
+(N2−1)δ2
2
N1+N2−2 ( 1
N1
+ 1
N2
)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 36 / 41
41. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de Student
Ce test sert à comparer les variances δ1 et δ2 de deux
populations de loi Normal, et de moyenne µ1, µ2.
Même principe que le test de Student
Exemple: On sait que le Q.I. suit une loi normale, et on sait que
les moyennes de deux groupes de la population sont égales,
mais on veut savoir si les deux populations ont les mêmes
variations.
Distance =
N1(N2 − 1)δ2
1
N2(N1 − 1)δ2
2
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 37 / 41
42. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de Kolmogorov-Smirnov
Utilisé pour les tests d’homogénéité: Déterminer si deux
populations ont les même lois de probabilités F et G.
Exemple: Les Q-valeurs dans les noeuds de deux arbres U-tree
ont t-elles la même distribution de probabilité?
Fn(x) =
1
n
n
1
δyi ≤x
avec
δyi ≤x
1 si yi ≤ x
0 sinon
et:
Distance = sup
x∈R
|F(x) − G(x)|
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 38 / 41
43. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de corrélation
On veut savoir si deux caractéristiques de la population sont
reliées entre elle.
Contrairement à chi2
, les deux carractéristiques sont
quantitatives.
Existe-t-il une relation entre la taille de l’individu et sont
espérance de vie.
Théoriquement, il faut que le paramètre p sont nulle pour
conclure que les deux variables sont indépendantes.
p =
cov(X, Y)
v(x)v(y)
Tel que
cov(X, Y) = E(X − E(X))E(Y − E(Y))
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 39 / 41
44. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de corrélation
À partir d’un échantillon de taille n, on peut estimer p par:
R =
n
i=1(Xi − ¯X)(Yi − ¯Y)
(
n
i=1(Xi − ¯X)2)(
n
i=1(Yi − ¯Y)2)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 40 / 41
45. DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Conclucion
Les projets de recherche au Damas portent sur des modèles
stochastiques, les variables de ces modèles (Valeurs espérés,
proba de transition ..) suivent des loi de probabilité.
Tirer profit de ces lois afin de faire de meilleurs algorithmes de
planification.
Les tests statistiques est un outil puissant, très populaires dans
beaucoups de domaines, mais peu utilisé en intelligence
artificielle.
On peut utiliser cet outil dans tous les problèmes
d’apprentissage oû on veut comparer deux situations différentes:
Réduction de l’espace des états, des actions . . . etc.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 41 / 41