IntroStatBayes_chap1

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Introduction à la Statistique Bayésienne
Dhafer Malouche
Ecole Supérieure de la Statistique et de l’Analyse de l’information
Cours 2016-2017

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Introduction

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Exemple:
On considère un test pour une infection. On suppose que
la sensitivité du test est égale à 99% (la probabilité
qu’un infecté soit détecté positif)
la spécificité du test est égale à 97% (la probabilité
qu’une personne saine soit détectée négative).
la proportion des personnes infectées dans une
population est égale à 1%.
Question : Comment peut-on évaluer l’efficacité du test ?

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Exemple:
On considère un test pour une infection. On suppose que
la sensitivité du test est égale à 99% (la probabilité
qu’un infecté soit détecté positif)
la spécificité du test est égale à 97% (la probabilité
qu’une personne saine soit détectée négative).
la proportion des personnes infectées dans une
population est égale à 1%.
Question : Comment peut-on évaluer l’efficacité du test ?
Réponse : Calculer la probabilité qu’une personne détectée
positif au test soit infectée ?

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Une simulation de l’expérience avec R
On simule une population avec un taux d’infection égal à 1%.
> N=10000 # Taille de la population
> p=0.01 # Probabilité d'infection
> population=rbinom(N,1,prob = p)
> N_infected=sum((population==1))
> ## Nombre d'infectés
> N_infected
[1] 100
> ## Le vecteurs des infectés
> infected=which(population==1)

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
On simule le test
> sensitivity=.99
> specificity=.97
> test=rbinom(N,1,(population==1)*sensitivity+
+ (population==0)*(1-specificity))
> N_test=sum((test==1))
> ## Nombre de positifs.
> N_test
[1] 414

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
La matrice de confusion test x population
> confusion=xtabs(˜population+test)
> confusion
test
population 0 1
0 9585 315
1 1 99
Donc la probabilité qu’une personne ayant eu un résultat
positif au test soit détectée infectée se calcule de la fa¸con
suivante
> confusion[2,2]/(confusion[1,2]+confusion[2,2])
[1] 0.2391304

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
D’un point de vu théorique.
Deux évènements quand on tire au hasard un individu de la
population
P réagit positivement au test.
M est malade.
Ce qu’on sait:
P(M) = 0.01
P(P|M) = 0.99 (sensitivité)
P(P|M) = 0.99 (sensitivité)

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Question : Comment peut-on compter sur ce test?
Réponse : Calculer la probabilité qu’un individu détecté
positif soit malade.
⇐⇒ P(M|P) ?

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Question : Comment peut-on compter sur ce test?
Réponse : Calculer la probabilité qu’un individu détecté
positif soit malade.
⇐⇒ P(M|P) ?
T. de Bayes
P(M|P) =
P(M ∩ T)
P(P)
=
P(P|M)P(M)
P(P|M)P(M) + (1 − P(P|M))P(M)

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Une deuxième question?
Question: Cette personne passe ce test une deuxième fois et
il est encore détectée positif. Quelle est la la probabilité
qu’elle soit infectée?

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Question: Cette personne passe ce test une deuxième fois et
il est encore détectée positif. Quelle est la la probabilité
qu’elle soit infectée?
Simulation avec R
Simulons une deuxième fois le test
> test2=rbinom(N,1,(population==1)*sensitivity+
+ (population==0)*(1-specificity))

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Croisement des variables ‘population‘, ‘test‘ et ‘test2‘
> confusion2=xtabs(˜population+test2+test)
> confusion2[,,1] ## test=0
test2
population 0 1
0 9307 278
1 0 1
> confusion2[,,2] ## test=1
test2
population 0 1
0 302 13
1 1 98

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Donc la probabilité qu’une personne infectée sachant
qu’elle a réagit positivement deux fois au test est
> b=(confusion2[2,2,2]+confusion2[2,1,2])
> a=confusion2[2,2,2]
> a/b
[1] 0.989899

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Moralité
Tirer une personne au hasard d’une population, on a
P(M) = 0.01
Sachant qu’il a réagit positivement au test
P(M | T) = 0.23
Une information a priori change la probabilité sur un
évènement,
Comment peut-on appliquer sur les problèmes
d’estimations de paramètres?

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Estimation Bayésienne

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Inférence Bayésienne.
Soit M un modèle paramétrique : Soit
X = (X1, . . . , Xn) ∼ Pθ un n−échantillon où
θ ∈ Θ ⊆ Rp.
En statistique fréquentiste on calcule un estimateur de
θ qui est une statistique du n−échantillon X :
θ(X) ∈ E ⊇ Θ
On statistique bayésienne on suppose que le paramètre
θ est aléatoire et qu’une information a priori π(θ) sur ce
paramètre peut être exprimée par une loi de probabilité.
On calcule alors, sachant le n−échantillon, une loi a
posteriori
π(θ | X1, . . . , Xn) ∝ L(X1, . . . , Xn, θ) π(θ)

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Qualité de l’estimation?
Fonction de Perte
L : Θ × E −→ R+
telle que L(θ, θ) = 0 pour tout θ ∈ Θ.
L’erreur de l’estimation de θ est mesurée par L(θ, θ).
Fonction de Risque
θ −→ R(θ, θ) = E L(θ, θ)

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Exemples : Θ = E = R
Perte quadratique
L(θ, θ) = (θ − θ)2 et le risque associée est le risque
quadratique
R(θ, θ) = E (θ − θ)2
Perte absolue
L(θ, θ) = |θ − θ| et le risque associée est le risque
quadratique
R(θ, θ) = E |θ − θ|
Intuitivement plus le risque de l’estimateur est faible
plus l’estimateur θ est considéré comme performant.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Exercice
Soit X = (X1, . . . , Xn) telle que pour tout i = 1, . . . , n. On
considère X comme estimateur de θ.
Calculer le risque quadratique de X dans les cas suivants
X ∼ N(θ, 1)
X ∼ Gamma(θ, 1)
X ∼ Bernoulli(θ, 1)
X ∼ Poisson(θ, 1)

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Dans le cas Bayésien.
En statistique bayeésienne, on considère le paramètre
comme étant aléatoire, de loi a priori π(θ) sur Θ, ainsi le
risque fréquentiste R(θ , θ(x)) devient aléatoire. On
calcule le risque moyen selon la loi a priori.
Donc :
Rπ θ(x) = R(θ , θ(x)) π(θ)dθ

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Dans le cas Bayésien.
L’estimateur θB(X) est appelé estimateur de Bayes
associé à la fonction de perte L et à la loi a priori π c’est
l’estimateur qui minimise le risque bayésien
Rπ θB
(X) = min
θ(x)∈E
Rπ θ(x)
Remarque: L’expression de l’estimateur bayésien dépend
du choix de la loi a priori π et de la fonction perte L.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Meilleur estimateur de Bayes
Théorème
Supposons que
1 Il existe un estimateur θ0(X) tel que Rπ θ0(X) < ∞.
2 Pour presque tout x ∈ X il existe
θ(x) = argminy∈EE [L(θ, y) | X = x]
3 La fonction x −→ θ(x) est mesurable.
Alors
θ(X) = θB
(X)

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Meilleur estimateur de Bayes
Corollaire
Considérons le cas Θ = E = R
1 Si L(θ, θ ) = (θ − θ )2 est la fonction perte quadratique,
alors l’estimateur bayésien est donné par la moyenne a
posteriori
θB
(X) = E(θ | X)
De plus Rπ θB(X) = E [V(θ | X)]
2 Si L(θ, θ ) = |θ − θ |, alors l’estimateur bayésien est
donné par la médiane a posteriori
θB
(X) = Médiane(θ|X)

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Exercice
Soit X = (X1, . . . , Xn) un échantillon i.i.d de loi normale de
moyenne θ inconnue et de variance σ2. Considérons la loi a
priori π = N(0, σ2
0)
1 Calculer la loi a posteriori sur θ.
2 En déduire l’expression de l’estimateur bayésien associé à
la fonction perte quadratique.
3 Calculer le risque bayésien de l’estimateur bayésien.
4 Répondre aux questions 1,2,3 avec la fonction perte
L(θ, θ ) = (θ − θ )2 exp(θ2). On considérera le cas où
σ2 = 1.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Exercice
Soient X1, X2, . . . , Xn n v.a. de loi de Poisson de paramètre
θ > 0. Soit Y = n
i=1 Xi. Considérons la fonction de perte
L (θ, δ(y)) = (θ − δ (y))2
et on considère la loi a priori sur de
fonction densité
π (θ) ∝ θα
exp (−2θ) .
1 Calculer la loi a posteriori de θ.
2 Donner l’expression de l’estimateur de Bayes de θ.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Loi a priori

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Le choix de la loi a priori
Pour construire une loi a priori on doit distinguer 3 cas
possibles :
1 On dispose d’une information a priori partielle, donnée
par l’expérience.
2 On dispose d’une quantité limité : lois conjuguées.
3 On dispose d’une quantité limité ou même aucune
information sur θ : la loi a priori de Jeffrey.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Lois a priori conjuguées.
Une loi a priori conjuguée sur θ pour un modèle statistique
donné est une loi a priori qui donne une la loi a posteriori sur
θ appartenant à la même famille de probabilité la loi a priori.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Exercice.
Calculer dans les cas suivants la loi a priori conjuguée sur θ
et calculer la loi a posteriori:
1 N(θ, σ2) où σ2 est connue.
2 Poisson(θ)
3 Γ(ν, θ) où ν est connue.
4 Binomiale(N, θ)
5 N(µ, θ−1) où µ est connue.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Loi a priori de Jeffrey.
1 (X1, . . . , Xn) ∼ f( • | θ).
2 La loi de Jefferey se construit à partir seulement la
connaissance de la densité f( • | θ).
3 Cette famille de lois est basée sur le calcul de
l’information de Fischer:
I(θ) = Eθ
∂ log f(X | θ)
∂θ
2
4 Dans le cas de modèles réguliers.
I(θ) = Eθ
∂2 log f(X | θ)
∂θ2
= Eθ
∂2 log ln(θ)
∂θ2
où ln est le log-vraisemblance. Ces lois sont souvent des
lois a priori non-informatives.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Loi a priori de Jeffrey.
Définition la loi a priori de Jeffrey qu’on note π∗ c’est la loi
qui admet la densité suivante
1 Si Θ ⊆ R
q(θ) ∝ I−1/2
(θ)
2 Si Θ ⊆ Rd
q(θ) ∝ |I(θ)|−1/2

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Exercice
Calculer les lois a priori de Jeffrey correspondantes dans les
modèles suivants.
1 N(θ, σ2) où σ2 est connue.
2 Poisson(θ)
3 Γ(ν, θ) où ν est connue.
4 Binomiale(N, θ)
5 N(µ, θ−1) où µ est connue.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Modèle Bernoulli

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Modèle Bernoulli
y1, . . . , yn un n−échantillon de loi Bernoulli B(p).
La loi a priori conjuguée
g(p) =
Γ(α + β)
Γ(α)Γ(β)
pα−1
(1 − p)β−1
De moyenne
E(p) =
α
α + β
De Variance
Var(p) =
αβ
(α + β)2(α + β + 1)

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Modèle Bernoulli (Exemple)
Calcul d’une loi a priori: On croit que la médiane et
90ième percentile de p sont respectivement égales à 0,3
et 0,5.
> library(LearnBayes)
> quantile2=list(p=.9,x=.5)
> quantile1=list(p=.5,x=.3)
> beta.select(quantile1,quantile2)
[1] 3.26 7.19
La loi a posteriori
g(p | données ) ∝ ps+α−1
(1 − p)N−s+β−1

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Représentation des lois a priori, a posteriori et vraisemblance.
> a = beta.select(quantile1,quantile2)[1]
> b = beta.select(quantile1,quantile2)[2]
> s = 11
> f = 16
> curve(dbeta(x,a+s,b+f), from=0, to=1,
+ xlab="p",ylab="Density",lty=1,lwd=4)
> curve(dbeta(x,s+1,f+1),add=TRUE,lty=2,lwd=4)
> curve(dbeta(x,a,b),add=TRUE,lty=3,lwd=4)
> legend(.7,4,c("Prior","Likelihood","Posterior"),
+ lty=c(3,2,1),lwd=c(3,3,3))

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Représentation des lois a priori, a posteriori et vraisemblance.
0.0 0.2 0.4 0.6 0.8 1.0
012345
p
Density
Prior
Likelihood
Posterior

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Calcul de la probabilité P(p ≥ .5 | données ).
> 1 - pbeta(0.5,a+s,b+f)
[1] 0.0690226
Estimer une valeur future y (le nombre de fois de la
réalisations d’évènement de probabilité p quand l’expérience
s’est répétée n fois). On calcule la densité prédictive de y :
f(y) = f(y | p)g(p)dp.
Deux type densités prédictives : a priori si g est la loi a priori
ou a posteriori si g est la loi a posteriori

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
On lance une pièce de monnaie n fois, on observe y fois
piles, on considère une loi a priori sur p. Supposons
qu’on veut jeter m fois la pièce et on veut prédire le
nombre y d’apparitions de la face Pile.
Solution fréquentiste: estimer p par p = y/n, et
prédire y par y = mp = my/n ?

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
On lance une pièce de monnaie n fois, on observe y fois
piles, on considère une loi a priori sur p. Supposons
qu’on veut jeter m fois la pièce et on veut prédire le
nombre y d’apparitions de la face Pile.
Solution bayésienne: calculer la densité prédictive a
posteriori de y.
g(y | y) = g(y, p | y)dp
= g(y | p) g(p | y)dp

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
La loi Beta-Binomiale
On a déjà vu que si p ∼ Beta(a, b) alors
p | y ∼ Beta(y + a, n − y + b). La loi densité prédictive a
posteriori s’écrit
g(y | y) =
1
B(y + a, n − y + b)
1
0
Cy
mpy
(1 − p)m−y py+a(1 − p)n−y+b dp
= Cy
m
B(y + y + a, m − y + n − y + b)
B(y + a, n − y + b)
On dit que y suit une loi Beta-Binomiale de paramètres
m, y + a, n − y + b.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Application
On observe pour n = 40, y = 13 et on veut prédire les
probabilités d’observer le nombre de Piles après m = 13
> library(emdbook)
> y=13
> n=40
> ### a priori beta 2,4
> a=2
> b=4
> m=13
> yy=0:m
> ## Calcul de la loi predictive a posteriori.
> predy=sapply(yy,function(x)
+ dbetabinom(x,shape1 = y+a,shape2 = n-y+b,size = m))
> names(predy)=yy
> plot(yy,predy,xlab="y",ylab="loi predictive a posteriori",
+ type="h",lwd=3)

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Application
On observe pour n = 40, y = 13 et on veut prédire les
probabilités d’observer le nombre de Piles après m = 13
0 2 4 6 8 10 12
0.000.050.100.150.20
y
loipredictiveaposteriori

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Exemple : combien de fois on a jeté un dé
Supposons qu’on a jeté plusieurs fois une pièce de
monnaie équilibrée et on vous dit qu’on a obtenu “face”
13 fois.
Question : Pourrions-nous estimer le nombre de jets de
la pièce ?
Solution : On considère un a priori non-informative sur
n : g(n) ∝ 1 et la vraisemblance est alors
L(n) ∝ C13
n
1
2
n
.
Ainsi la loi a posteriori s’exprime
g(n | x) ∝ L(n)g(n) = C13
n
1
2
n
.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Code R
> n=13:100
> posteriori=function(n,p) choose(n,13)*pˆ13*(1-p)ˆ(n
> ### le cas p=.5
> postn=sapply( n,function(n) posteriori(n,.5))
> postn=postn/sum(postn)
> #### Graphique et comparer avec 2*13=26.
> plot(n,postn,type="h",lwd=.8,col="red",xlab="n",
+ ylab="a posteriori")
> abline(v=26,col="blue",lwd=1.5)

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
20 40 60 80 100
0.000.020.040.060.08
n
aposteriori

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Prédiction des Elections présidentielles
US-2016

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Problème :
Système électoral aux USA :
50 états + District of Colombia.
dans chaque état, le candidat doit gagner les votes des
grands électeurs.
pour gagner le vote des grands électeurs, il faut que le
candidat(te) gagne les élections dans chaque état.
Formellement :
Soit θHj
(resp. θTj
) : la probabilité de voter pour Hillary
(resp. Trump) dans l’un l’état j = 1, . . . , 51.
GEj le nombre de grands électeurs et GEH (resp. GET )
le nombre de votes des grands électeurs obtenus par
Hillary (resp. Trump) :
GEH =
51
j=1
GEj 1l{θHj
>θTj
}.
pour que Hillary gagne il faut que GEH > 269 (au total
il y a 538 GE).

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Le modèle Bayésien
Sur un échantillon de N électeurs dans un état j : yHj ,
yTj personnes déclarent voter resp. pour Hillary et
Trump. N − yHj − yTj est le nombre d’électeurs qui
déclarent ne pas voter pour les deux candidats.
La vraisemblance :
L(yHj , yTj | θHj , θTj ) ∝ θ
yHj
Hj
θ
yTj
Tj
(1−θHj −θTj )
N−yHj
−yTj
La loi a priori conjuguée : la loi de Dirichlet.
gj(θHj , θTj , θj) ∼ Dirichlet(α1, α2, α3)
où θj = 1 − θHj − θTj .

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
La loi a posteriori
X = (X1, . . . , Xk) ∼ Dirichlet(α1, . . . , αk),
f(x1, . . . , xk) =
1
Γ(α0)
k
i=1
Γ(αi) xαi−1
i
où ∀ i = 1 . . . k − 1, xi ∈ [0, 1], xk = 1 − x1 − . . . − xk−1
et α0 = k
i=1 αi.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
La loi a posteriori
La loi a posteriori
g(θHj , θTj , θj | yHj , yTj , N − yHj − yTj )
∝ L(yHj , yTj | θHj , θTj ) gj(θHj , θTj , θj)
∝ θ
α1+yHj
−1
Hj
θ
α2+yTj
−1
Tj
θ
α3+N−yHj
−yTj
−1
j
Donc la loi a posteriori est
Dirichlet(α1 + yHj , α2 + yTj , α3 + N − yHj − yTj ).

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Algorithme d’estimation
Pour estimer la probabilité P GEH > 269 | y on va
utiliser une méthode de Monte Carlo.
A partir d’un algorithme de simulation de la v.a. GEH
on génère un n−échantillon (GEH)1, . . . , (GEH)n de
même loi que GEH | y et
P GEH > 269 | y ≈
1
n
n
i=1
1l{(GEH )i>269}.
Algorithme de Simulation
1 Simulation de la loi a posteriori des (θHj
, θTj
)
2 Simulation de GEH | y

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Données.
Les données sont téléchargées du site
> library(readr)
> pres_polls <- read_csv("http://www.electoral-vote.com/evp2016/Pres/pres_polls.csv")
C’est une base de données qui donne les résultats de sondages
de plusieurs bureaux qui ont effectués de sondages dans
différentes de la compagne électorale.
On va considérer dans cet exemple des données de
SurveyMonkey et on va supposer que chaque enquête a été sur
un échantillon de taille 1000.
Période des sondages: Mai-Octobre 2016.
Dans notre exemple, on 535 GE, donc le gagnant devrait avoir
plus de 267 GE

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Mise en oeuvre sur R
> i=grep("Monkey",pres_polls$Pollster)
> d1=pres_polls[i,]
> p1=as.matrix(d1[,5:6])
> p1=cbind(p1,100-rowSums(p1))/100
> voters=sapply(1:nrow(p1),
+ function(j)rmultinom(1,size = 1000,prob = p1[j,]))
> voters=t(voters)
> hil_voters=voters[,1]
> trump_voters=voters[,2]
> other_voters=voters[,3]
> hil_voters=tapply(hil_voters,d1$State,sum)
> trump_voters=tapply(trump_voters,d1$State,sum)
> other_voters=tapply(other_voters,d1$State,sum)
> d1=cbind.data.frame(names(hil_voters),hil_voters,
+ trump_voters,other_voters)
> colnames(d1)=c("States","Hillary","Trump","Others")
> ev=tapply(pres_polls$EV,pres_polls$State,unique)
> i=match(d1$States,names(ev))
> d1$EV=ev[i]

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Estimation de P GEH > 267 | y
Simulation de la v.a. GEH ‘a partir de la simulation de la loi
a posteriori
1 On simule pour chaque j = 1, . . . , 51, N = 5000
réplications à partir de la loi a posteriori de θHj , θTj :
(θ
(1)
Hj
, θ
(1)
Tj
), . . . , (θ
(N)
Hj
, θ
(N)
Tj
)
2 On calcule ensuite
pj,N =
1
N
N
i=1
1l{θ
(i)
0j
>θ
(i)
Tj
}
pj,N s’interprète comme la probabilité a posteriori que
dans l’État j on vote en faveur de Obama.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Simulation des élections. . . suite
3. Pour chaque j, on tire j,N ∼ Bernoulli(pj,N ), ceci sera
fait n = 1000 fois. On obtient pour chaque j,
(1)
j,N , . . . ,
(n)
j,N
4. le n−échantillon de même loi que de GEH est alors
(GEH)i =
51
j=1
GEj
(i)
j,N , ∀ i = 1 . . . n.

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Mise en oeuvre sous R
Calcul de pj,N
> prob.Hillary = function(j) {
+ p = rdirichlet(5000, 1 + c(d1$Trump[j], d1$Hillary[j], d1$Others[j]))
+ mean(p[, 2] > p[, 1])
+ }
> Hillary.win.probs = sapply(1:50, prob.Hillary)
Calcul de GEH.
> sim.election = function() {
+ winner = rbinom(50, 1, Hillary.win.probs)
+ sum(d1$EV * winner)
+ }
> sim.EV = replicate(10000, sim.election())

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Résultats.
> library(ggplot2)
> dt = data.frame(sim.EV)
> gr <- ggplot(dt, aes(x = sim.EV)) + geom_bar(fill = "red")
> gr <- gr + xlab("Nombre de GE") + ylab("")
> gr <- gr + geom_vline(xintercept = round(sum(d1$EV)/2))
> gr <- gr + theme_bw()
> gr
>

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Résultats.
0
300
600
900
250 300 350 400
Nombre de GE

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
En considérant tous les sondages.
> p1 = as.matrix(pres_polls[, 5:6])
> p1 = cbind(p1, 100 - rowSums(p1))/100
> voters = sapply(1:nrow(p1), function(j) rmultinom(1, size = 1000, prob = p1[j,
+ ]))
> voters = t(voters)
> hil_voters = voters[, 1]
> trump_voters = voters[, 2]
> other_voters = voters[, 3]
> hil_voters = tapply(hil_voters, pres_polls$State, sum)
> trump_voters = tapply(trump_voters, pres_polls$State, sum)
> other_voters = tapply(other_voters, pres_polls$State, sum)
> d1 = cbind.data.frame(names(hil_voters), hil_voters, trump_voters, other_voters)
> colnames(d1) = c("States", "Hillary", "Trump", "Others")
> ev = tapply(pres_polls$EV, pres_polls$State, unique)
> i = match(d1$States, names(ev))
> d1$EV = ev[i]

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
En considérant tous les sondages.
Calcul de pj,N
> Hillary.win.probs = sapply(1:51, prob.Hillary)
Calcul de GEH.
> sim.election = function() {
+ winner = rbinom(51, 1, Hillary.win.probs)
+ sum(d1$EV * winner)
+ }
> sim.EV = replicate(10000, sim.election())

Introduction
à la
Statistique
Bayésienne
Dhafer
Malouche
Introduction
Estimation
Bayésienne
Loi a priori
Modèle
Bernoulli
Prédiction
des
Elections
présidentielles
US-2016
Résultats.
0
1000
2000
3000
280 300 320 340 360
Nombre de GE

IntroStatBayes_chap1

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

IntroStatBayes_chap1