3. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exemple:
On consid`ere un test pour une infection. On suppose que
la sensitivit´e du test est ´egale `a 99% (la probabilit´e
qu’un infect´e soit d´etect´e positif)
la sp´ecificit´e du test est ´egale `a 97% (la probabilit´e
qu’une personne saine soit d´etect´ee n´egative).
la proportion des personnes infect´ees dans une
population est ´egale `a 1%.
Question : Comment peut-on ´evaluer l’efficacit´e du test ?
4. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exemple:
On consid`ere un test pour une infection. On suppose que
la sensitivit´e du test est ´egale `a 99% (la probabilit´e
qu’un infect´e soit d´etect´e positif)
la sp´ecificit´e du test est ´egale `a 97% (la probabilit´e
qu’une personne saine soit d´etect´ee n´egative).
la proportion des personnes infect´ees dans une
population est ´egale `a 1%.
Question : Comment peut-on ´evaluer l’efficacit´e du test ?
R´eponse : Calculer la probabilit´e qu’une personne d´etect´ee
positif au test soit infect´ee ?
5. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une simulation de l’exp´erience avec R
On simule une population avec un taux d’infection ´egal `a 1%.
> N=10000 # Taille de la population
> p=0.01 # Probabilit´e d'infection
> population=rbinom(N,1,prob = p)
> N_infected=sum((population==1))
> ## Nombre d'infect´es
> N_infected
[1] 100
> ## Le vecteurs des infect´es
> infected=which(population==1)
6. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une simulation de l’exp´erience avec R
On simule le test
> sensitivity=.99
> specificity=.97
> test=rbinom(N,1,(population==1)*sensitivity+
+ (population==0)*(1-specificity))
> N_test=sum((test==1))
> ## Nombre de positifs.
> N_test
[1] 414
7. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une simulation de l’exp´erience avec R
La matrice de confusion test x population
> confusion=xtabs(˜population+test)
> confusion
test
population 0 1
0 9585 315
1 1 99
Donc la probabilit´e qu’une personne ayant eu un r´esultat
positif au test soit d´etect´ee infect´ee se calcule de la fa¸con
suivante
> confusion[2,2]/(confusion[1,2]+confusion[2,2])
[1] 0.2391304
8. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
D’un point de vu th´eorique.
Deux ´ev`enements quand on tire au hasard un individu de la
population
P r´eagit positivement au test.
M est malade.
Ce qu’on sait:
P(M) = 0.01
P(P|M) = 0.99 (sensitivit´e)
P(P|M) = 0.99 (sensitivit´e)
10. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
D’un point de vu th´eorique.
Question : Comment peut-on compter sur ce test?
R´eponse : Calculer la probabilit´e qu’un individu d´etect´e
positif soit malade.
⇐⇒ P(M|P) ?
T. de Bayes
P(M|P) =
P(M ∩ T)
P(P)
=
P(P|M)P(M)
P(P|M)P(M) + (1 − P(P|M))P(M)
12. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une deuxi`eme question?
Question: Cette personne passe ce test une deuxi`eme fois et
il est encore d´etect´ee positif. Quelle est la la probabilit´e
qu’elle soit infect´ee?
Simulation avec R
Simulons une deuxi`eme fois le test
> test2=rbinom(N,1,(population==1)*sensitivity+
+ (population==0)*(1-specificity))
13. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une deuxi`eme question?
Croisement des variables ‘population‘, ‘test‘ et ‘test2‘
> confusion2=xtabs(˜population+test2+test)
> confusion2[,,1] ## test=0
test2
population 0 1
0 9307 278
1 0 1
> confusion2[,,2] ## test=1
test2
population 0 1
0 302 13
1 1 98
15. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Moralit´e
Tirer une personne au hasard d’une population, on a
P(M) = 0.01
Sachant qu’il a r´eagit positivement au test
P(M | T) = 0.23
Une information a priori change la probabilit´e sur un
´ev`enement,
Comment peut-on appliquer sur les probl`emes
d’estimations de param`etres?
17. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Inf´erence Bay´esienne.
Soit M un mod`ele param´etrique : Soit
X = (X1, . . . , Xn) ∼ Pθ un n−´echantillon o`u
θ ∈ Θ ⊆ Rp.
En statistique fr´equentiste on calcule un estimateur de
θ qui est une statistique du n−´echantillon X :
θ(X) ∈ E ⊇ Θ
On statistique bay´esienne on suppose que le param`etre
θ est al´eatoire et qu’une information a priori π(θ) sur ce
param`etre peut ˆetre exprim´ee par une loi de probabilit´e.
On calcule alors, sachant le n−´echantillon, une loi a
posteriori
π(θ | X1, . . . , Xn) ∝ L(X1, . . . , Xn, θ) π(θ)
19. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exemples : Θ = E = R
Perte quadratique
L(θ, θ) = (θ − θ)2 et le risque associ´ee est le risque
quadratique
R(θ, θ) = E (θ − θ)2
Perte absolue
L(θ, θ) = |θ − θ| et le risque associ´ee est le risque
quadratique
R(θ, θ) = E |θ − θ|
Intuitivement plus le risque de l’estimateur est faible
plus l’estimateur θ est consid´er´e comme performant.
20. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exercice
Soit X = (X1, . . . , Xn) telle que pour tout i = 1, . . . , n. On
consid`ere X comme estimateur de θ.
Calculer le risque quadratique de X dans les cas suivants
X ∼ N(θ, 1)
X ∼ Gamma(θ, 1)
X ∼ Bernoulli(θ, 1)
X ∼ Poisson(θ, 1)
21. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Dans le cas Bay´esien.
En statistique baye´esienne, on consid`ere le param`etre
comme ´etant al´eatoire, de loi a priori π(θ) sur Θ, ainsi le
risque fr´equentiste R(θ , θ(x)) devient al´eatoire. On
calcule le risque moyen selon la loi a priori.
Donc :
Rπ θ(x) = R(θ , θ(x)) π(θ)dθ
22. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Dans le cas Bay´esien.
L’estimateur θB(X) est appel´e estimateur de Bayes
associ´e `a la fonction de perte L et `a la loi a priori π c’est
l’estimateur qui minimise le risque bay´esien
Rπ θB
(X) = min
θ(x)∈E
Rπ θ(x)
Remarque: L’expression de l’estimateur bay´esien d´epend
du choix de la loi a priori π et de la fonction perte L.
23. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Meilleur estimateur de Bayes
Th´eor`eme
Supposons que
1 Il existe un estimateur θ0(X) tel que Rπ θ0(X) < ∞.
2 Pour presque tout x ∈ X il existe
θ(x) = argminy∈EE [L(θ, y) | X = x]
3 La fonction x −→ θ(x) est mesurable.
Alors
θ(X) = θB
(X)
24. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Meilleur estimateur de Bayes
Th´eor`eme
Supposons que
1 Il existe un estimateur θ0(X) tel que Rπ θ0(X) < ∞.
2 Pour presque tout x ∈ X il existe
θ(x) = argminy∈EE [L(θ, y) | X = x]
3 La fonction x −→ θ(x) est mesurable.
Alors
θ(X) = θB
(X)
25. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Meilleur estimateur de Bayes
Corollaire
Consid´erons le cas Θ = E = R
1 Si L(θ, θ ) = (θ − θ )2 est la fonction perte quadratique,
alors l’estimateur bay´esien est donn´e par la moyenne a
posteriori
θB
(X) = E(θ | X)
De plus Rπ θB(X) = E [V(θ | X)]
2 Si L(θ, θ ) = |θ − θ |, alors l’estimateur bay´esien est
donn´e par la m´ediane a posteriori
θB
(X) = M´ediane(θ|X)
26. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exercice
Soit X = (X1, . . . , Xn) un ´echantillon i.i.d de loi normale de
moyenne θ inconnue et de variance σ2. Consid´erons la loi a
priori π = N(0, σ2
0)
1 Calculer la loi a posteriori sur θ.
2 En d´eduire l’expression de l’estimateur bay´esien associ´e `a
la fonction perte quadratique.
3 Calculer le risque bay´esien de l’estimateur bay´esien.
4 R´epondre aux questions 1,2,3 avec la fonction perte
L(θ, θ ) = (θ − θ )2 exp(θ2). On consid´erera le cas o`u
σ2 = 1.
27. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exercice
Soient X1, X2, . . . , Xn n v.a. de loi de Poisson de param`etre
θ > 0. Soit Y = n
i=1 Xi. Consid´erons la fonction de perte
L (θ, δ(y)) = (θ − δ (y))2
et on consid`ere la loi a priori sur de
fonction densit´e
π (θ) ∝ θα
exp (−2θ) .
1 Calculer la loi a posteriori de θ.
2 Donner l’expression de l’estimateur de Bayes de θ.
29. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Le choix de la loi a priori
Pour construire une loi a priori on doit distinguer 3 cas
possibles :
1 On dispose d’une information a priori partielle, donn´ee
par l’exp´erience.
2 On dispose d’une quantit´e limit´e : lois conjugu´ees.
3 On dispose d’une quantit´e limit´e ou mˆeme aucune
information sur θ : la loi a priori de Jeffrey.
31. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exercice.
Calculer dans les cas suivants la loi a priori conjugu´ee sur θ
et calculer la loi a posteriori:
1 N(θ, σ2) o`u σ2 est connue.
2 Poisson(θ)
3 Γ(ν, θ) o`u ν est connue.
4 Binomiale(N, θ)
5 N(µ, θ−1) o`u µ est connue.
32. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Loi a priori de Jeffrey.
1 (X1, . . . , Xn) ∼ f( • | θ).
2 La loi de Jefferey se construit `a partir seulement la
connaissance de la densit´e f( • | θ).
3 Cette famille de lois est bas´ee sur le calcul de
l’information de Fischer:
I(θ) = Eθ
∂ log f(X | θ)
∂θ
2
4 Dans le cas de mod`eles r´eguliers.
I(θ) = Eθ
∂2 log f(X | θ)
∂θ2
= Eθ
∂2 log ln(θ)
∂θ2
o`u ln est le log-vraisemblance. Ces lois sont souvent des
lois a priori non-informatives.
37. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli (Exemple)
Calcul d’une loi a priori: On croit que la m´ediane et
90i`eme percentile de p sont respectivement ´egales `a 0,3
et 0,5.
> library(LearnBayes)
> quantile2=list(p=.9,x=.5)
> quantile1=list(p=.5,x=.3)
> beta.select(quantile1,quantile2)
[1] 3.26 7.19
La loi a posteriori
g(p | donn´ees ) ∝ ps+α−1
(1 − p)N−s+β−1
38. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli (Exemple)
Repr´esentation des lois a priori, a posteriori et vraisemblance.
> a = beta.select(quantile1,quantile2)[1]
> b = beta.select(quantile1,quantile2)[2]
> s = 11
> f = 16
> curve(dbeta(x,a+s,b+f), from=0, to=1,
+ xlab="p",ylab="Density",lty=1,lwd=4)
> curve(dbeta(x,s+1,f+1),add=TRUE,lty=2,lwd=4)
> curve(dbeta(x,a,b),add=TRUE,lty=3,lwd=4)
> legend(.7,4,c("Prior","Likelihood","Posterior"),
+ lty=c(3,2,1),lwd=c(3,3,3))
40. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli (Exemple)
Calcul de la probabilit´e P(p ≥ .5 | donn´ees ).
> 1 - pbeta(0.5,a+s,b+f)
[1] 0.0690226
Estimer une valeur future y (le nombre de fois de la
r´ealisations d’´ev`enement de probabilit´e p quand l’exp´erience
s’est r´ep´et´ee n fois). On calcule la densit´e pr´edictive de y :
f(y) = f(y | p)g(p)dp.
Deux type densit´es pr´edictives : a priori si g est la loi a priori
ou a posteriori si g est la loi a posteriori
41. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli (Exemple)
On lance une pi`ece de monnaie n fois, on observe y fois
piles, on consid`ere une loi a priori sur p. Supposons
qu’on veut jeter m fois la pi`ece et on veut pr´edire le
nombre y d’apparitions de la face Pile.
Solution fr´equentiste: estimer p par p = y/n, et
pr´edire y par y = mp = my/n ?
42. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli (Exemple)
On lance une pi`ece de monnaie n fois, on observe y fois
piles, on consid`ere une loi a priori sur p. Supposons
qu’on veut jeter m fois la pi`ece et on veut pr´edire le
nombre y d’apparitions de la face Pile.
Solution bay´esienne: calculer la densit´e pr´edictive a
posteriori de y.
g(y | y) = g(y, p | y)dp
= g(y | p) g(p | y)dp
43. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
La loi Beta-Binomiale
On a d´ej`a vu que si p ∼ Beta(a, b) alors
p | y ∼ Beta(y + a, n − y + b). La loi densit´e pr´edictive a
posteriori s’´ecrit
g(y | y) =
1
B(y + a, n − y + b)
1
0
Cy
mpy
(1 − p)m−y py+a(1 − p)n−y+b dp
= Cy
m
B(y + y + a, m − y + n − y + b)
B(y + a, n − y + b)
On dit que y suit une loi Beta-Binomiale de param`etres
m, y + a, n − y + b.
44. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Application
On observe pour n = 40, y = 13 et on veut pr´edire les
probabilit´es d’observer le nombre de Piles apr`es m = 13
> library(emdbook)
> y=13
> n=40
> ### a priori beta 2,4
> a=2
> b=4
> m=13
> yy=0:m
> ## Calcul de la loi predictive a posteriori.
> predy=sapply(yy,function(x)
+ dbetabinom(x,shape1 = y+a,shape2 = n-y+b,size = m))
> names(predy)=yy
> plot(yy,predy,xlab="y",ylab="loi predictive a posteriori",
+ type="h",lwd=3)
46. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exemple : combien de fois on a jet´e un d´e
Supposons qu’on a jet´e plusieurs fois une pi`ece de
monnaie ´equilibr´ee et on vous dit qu’on a obtenu “face”
13 fois.
Question : Pourrions-nous estimer le nombre de jets de
la pi`ece ?
Solution : On consid`ere un a priori non-informative sur
n : g(n) ∝ 1 et la vraisemblance est alors
L(n) ∝ C13
n
1
2
n
.
Ainsi la loi a posteriori s’exprime
g(n | x) ∝ L(n)g(n) = C13
n
1
2
n
.
47. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exemple : combien de fois on a jet´e un d´e
Code R
> n=13:100
> posteriori=function(n,p) choose(n,13)*pˆ13*(1-p)ˆ(n
> ### le cas p=.5
> postn=sapply( n,function(n) posteriori(n,.5))
> postn=postn/sum(postn)
> #### Graphique et comparer avec 2*13=26.
> plot(n,postn,type="h",lwd=.8,col="red",xlab="n",
+ ylab="a posteriori")
> abline(v=26,col="blue",lwd=1.5)
50. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Probl`eme :
Syst`eme ´electoral aux USA :
50 ´etats + District of Colombia.
dans chaque ´etat, le candidat doit gagner les votes des
grands ´electeurs.
pour gagner le vote des grands ´electeurs, il faut que le
candidat(te) gagne les ´elections dans chaque ´etat.
Formellement :
Soit θHj
(resp. θTj
) : la probabilit´e de voter pour Hillary
(resp. Trump) dans l’un l’´etat j = 1, . . . , 51.
GEj le nombre de grands ´electeurs et GEH (resp. GET )
le nombre de votes des grands ´electeurs obtenus par
Hillary (resp. Trump) :
GEH =
51
j=1
GEj 1l{θHj
>θTj
}.
pour que Hillary gagne il faut que GEH > 269 (au total
il y a 538 GE).
51. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Le mod`ele Bay´esien
Sur un ´echantillon de N ´electeurs dans un ´etat j : yHj ,
yTj personnes d´eclarent voter resp. pour Hillary et
Trump. N − yHj − yTj est le nombre d’´electeurs qui
d´eclarent ne pas voter pour les deux candidats.
La vraisemblance :
L(yHj , yTj | θHj , θTj ) ∝ θ
yHj
Hj
θ
yTj
Tj
(1−θHj −θTj )
N−yHj
−yTj
La loi a priori conjugu´ee : la loi de Dirichlet.
gj(θHj , θTj , θj) ∼ Dirichlet(α1, α2, α3)
o`u θj = 1 − θHj − θTj .
53. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
La loi a posteriori
La loi a posteriori
g(θHj , θTj , θj | yHj , yTj , N − yHj − yTj )
∝ L(yHj , yTj | θHj , θTj ) gj(θHj , θTj , θj)
∝ θ
α1+yHj
−1
Hj
θ
α2+yTj
−1
Tj
θ
α3+N−yHj
−yTj
−1
j
Donc la loi a posteriori est
Dirichlet(α1 + yHj , α2 + yTj , α3 + N − yHj − yTj ).
54. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Algorithme d’estimation
Pour estimer la probabilit´e P GEH > 269 | y on va
utiliser une m´ethode de Monte Carlo.
A partir d’un algorithme de simulation de la v.a. GEH
on g´en`ere un n−´echantillon (GEH)1, . . . , (GEH)n de
mˆeme loi que GEH | y et
P GEH > 269 | y ≈
1
n
n
i=1
1l{(GEH )i>269}.
Algorithme de Simulation
1 Simulation de la loi a posteriori des (θHj
, θTj
)
2 Simulation de GEH | y
55. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Donn´ees.
Les donn´ees sont t´el´echarg´ees du site
> library(readr)
> pres_polls <- read_csv("http://www.electoral-vote.com/evp2016/Pres/pres_polls.csv")
C’est une base de donn´ees qui donne les r´esultats de sondages
de plusieurs bureaux qui ont effectu´es de sondages dans
diff´erentes de la compagne ´electorale.
On va consid´erer dans cet exemple des donn´ees de
SurveyMonkey et on va supposer que chaque enquˆete a ´et´e sur
un ´echantillon de taille 1000.
P´eriode des sondages: Mai-Octobre 2016.
Dans notre exemple, on 535 GE, donc le gagnant devrait avoir
plus de 267 GE
56. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mise en oeuvre sur R
> i=grep("Monkey",pres_polls$Pollster)
> d1=pres_polls[i,]
> p1=as.matrix(d1[,5:6])
> p1=cbind(p1,100-rowSums(p1))/100
> voters=sapply(1:nrow(p1),
+ function(j)rmultinom(1,size = 1000,prob = p1[j,]))
> voters=t(voters)
> hil_voters=voters[,1]
> trump_voters=voters[,2]
> other_voters=voters[,3]
> hil_voters=tapply(hil_voters,d1$State,sum)
> trump_voters=tapply(trump_voters,d1$State,sum)
> other_voters=tapply(other_voters,d1$State,sum)
> d1=cbind.data.frame(names(hil_voters),hil_voters,
+ trump_voters,other_voters)
> colnames(d1)=c("States","Hillary","Trump","Others")
> ev=tapply(pres_polls$EV,pres_polls$State,unique)
> i=match(d1$States,names(ev))
> d1$EV=ev[i]
57. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Estimation de P GEH > 267 | y
Simulation de la v.a. GEH ‘a partir de la simulation de la loi
a posteriori
1 On simule pour chaque j = 1, . . . , 51, N = 5000
r´eplications `a partir de la loi a posteriori de θHj , θTj :
(θ
(1)
Hj
, θ
(1)
Tj
), . . . , (θ
(N)
Hj
, θ
(N)
Tj
)
2 On calcule ensuite
pj,N =
1
N
N
i=1
1l{θ
(i)
0j
>θ
(i)
Tj
}
pj,N s’interpr`ete comme la probabilit´e a posteriori que
dans l’´Etat j on vote en faveur de Obama.
58. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Simulation des ´elections. . . suite
3. Pour chaque j, on tire j,N ∼ Bernoulli(pj,N ), ceci sera
fait n = 1000 fois. On obtient pour chaque j,
(1)
j,N , . . . ,
(n)
j,N
4. le n−´echantillon de mˆeme loi que de GEH est alors
(GEH)i =
51
j=1
GEj
(i)
j,N , ∀ i = 1 . . . n.
59. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mise en oeuvre sous R
Calcul de pj,N
> prob.Hillary = function(j) {
+ p = rdirichlet(5000, 1 + c(d1$Trump[j], d1$Hillary[j], d1$Others[j]))
+ mean(p[, 2] > p[, 1])
+ }
> Hillary.win.probs = sapply(1:50, prob.Hillary)
Calcul de GEH.
> sim.election = function() {
+ winner = rbinom(50, 1, Hillary.win.probs)
+ sum(d1$EV * winner)
+ }
> sim.EV = replicate(10000, sim.election())
60. Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
R´esultats.
> library(ggplot2)
> dt = data.frame(sim.EV)
> gr <- ggplot(dt, aes(x = sim.EV)) + geom_bar(fill = "red")
> gr <- gr + xlab("Nombre de GE") + ylab("")
> gr <- gr + geom_vline(xintercept = round(sum(d1$EV)/2))
> gr <- gr + theme_bw()
> gr
>