SlideShare ist ein Scribd-Unternehmen logo
1 von 64
Downloaden Sie, um offline zu lesen
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Introduction `a la Statistique Bay´esienne
Dhafer Malouche
Ecole Sup´erieure de la Statistique et de l’Analyse de l’information
Cours 2016-2017
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Introduction
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exemple:
On consid`ere un test pour une infection. On suppose que
la sensitivit´e du test est ´egale `a 99% (la probabilit´e
qu’un infect´e soit d´etect´e positif)
la sp´ecificit´e du test est ´egale `a 97% (la probabilit´e
qu’une personne saine soit d´etect´ee n´egative).
la proportion des personnes infect´ees dans une
population est ´egale `a 1%.
Question : Comment peut-on ´evaluer l’efficacit´e du test ?
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exemple:
On consid`ere un test pour une infection. On suppose que
la sensitivit´e du test est ´egale `a 99% (la probabilit´e
qu’un infect´e soit d´etect´e positif)
la sp´ecificit´e du test est ´egale `a 97% (la probabilit´e
qu’une personne saine soit d´etect´ee n´egative).
la proportion des personnes infect´ees dans une
population est ´egale `a 1%.
Question : Comment peut-on ´evaluer l’efficacit´e du test ?
R´eponse : Calculer la probabilit´e qu’une personne d´etect´ee
positif au test soit infect´ee ?
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une simulation de l’exp´erience avec R
On simule une population avec un taux d’infection ´egal `a 1%.
> N=10000 # Taille de la population
> p=0.01 # Probabilit´e d'infection
> population=rbinom(N,1,prob = p)
> N_infected=sum((population==1))
> ## Nombre d'infect´es
> N_infected
[1] 100
> ## Le vecteurs des infect´es
> infected=which(population==1)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une simulation de l’exp´erience avec R
On simule le test
> sensitivity=.99
> specificity=.97
> test=rbinom(N,1,(population==1)*sensitivity+
+ (population==0)*(1-specificity))
> N_test=sum((test==1))
> ## Nombre de positifs.
> N_test
[1] 414
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une simulation de l’exp´erience avec R
La matrice de confusion test x population
> confusion=xtabs(˜population+test)
> confusion
test
population 0 1
0 9585 315
1 1 99
Donc la probabilit´e qu’une personne ayant eu un r´esultat
positif au test soit d´etect´ee infect´ee se calcule de la fa¸con
suivante
> confusion[2,2]/(confusion[1,2]+confusion[2,2])
[1] 0.2391304
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
D’un point de vu th´eorique.
Deux ´ev`enements quand on tire au hasard un individu de la
population
P r´eagit positivement au test.
M est malade.
Ce qu’on sait:
P(M) = 0.01
P(P|M) = 0.99 (sensitivit´e)
P(P|M) = 0.99 (sensitivit´e)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
D’un point de vu th´eorique.
Question : Comment peut-on compter sur ce test?
R´eponse : Calculer la probabilit´e qu’un individu d´etect´e
positif soit malade.
⇐⇒ P(M|P) ?
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
D’un point de vu th´eorique.
Question : Comment peut-on compter sur ce test?
R´eponse : Calculer la probabilit´e qu’un individu d´etect´e
positif soit malade.
⇐⇒ P(M|P) ?
T. de Bayes
P(M|P) =
P(M ∩ T)
P(P)
=
P(P|M)P(M)
P(P|M)P(M) + (1 − P(P|M))P(M)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une deuxi`eme question?
Question: Cette personne passe ce test une deuxi`eme fois et
il est encore d´etect´ee positif. Quelle est la la probabilit´e
qu’elle soit infect´ee?
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une deuxi`eme question?
Question: Cette personne passe ce test une deuxi`eme fois et
il est encore d´etect´ee positif. Quelle est la la probabilit´e
qu’elle soit infect´ee?
Simulation avec R
Simulons une deuxi`eme fois le test
> test2=rbinom(N,1,(population==1)*sensitivity+
+ (population==0)*(1-specificity))
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une deuxi`eme question?
Croisement des variables ‘population‘, ‘test‘ et ‘test2‘
> confusion2=xtabs(˜population+test2+test)
> confusion2[,,1] ## test=0
test2
population 0 1
0 9307 278
1 0 1
> confusion2[,,2] ## test=1
test2
population 0 1
0 302 13
1 1 98
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Une deuxi`eme question?
Donc la probabilit´e qu’une personne infect´ee sachant
qu’elle a r´eagit positivement deux fois au test est
> b=(confusion2[2,2,2]+confusion2[2,1,2])
> a=confusion2[2,2,2]
> a/b
[1] 0.989899
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Moralit´e
Tirer une personne au hasard d’une population, on a
P(M) = 0.01
Sachant qu’il a r´eagit positivement au test
P(M | T) = 0.23
Une information a priori change la probabilit´e sur un
´ev`enement,
Comment peut-on appliquer sur les probl`emes
d’estimations de param`etres?
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Estimation Bay´esienne
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Inf´erence Bay´esienne.
Soit M un mod`ele param´etrique : Soit
X = (X1, . . . , Xn) ∼ Pθ un n−´echantillon o`u
θ ∈ Θ ⊆ Rp.
En statistique fr´equentiste on calcule un estimateur de
θ qui est une statistique du n−´echantillon X :
θ(X) ∈ E ⊇ Θ
On statistique bay´esienne on suppose que le param`etre
θ est al´eatoire et qu’une information a priori π(θ) sur ce
param`etre peut ˆetre exprim´ee par une loi de probabilit´e.
On calcule alors, sachant le n−´echantillon, une loi a
posteriori
π(θ | X1, . . . , Xn) ∝ L(X1, . . . , Xn, θ) π(θ)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Qualit´e de l’estimation?
Fonction de Perte
L : Θ × E −→ R+
telle que L(θ, θ) = 0 pour tout θ ∈ Θ.
L’erreur de l’estimation de θ est mesur´ee par L(θ, θ).
Fonction de Risque
θ −→ R(θ, θ) = E L(θ, θ)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exemples : Θ = E = R
Perte quadratique
L(θ, θ) = (θ − θ)2 et le risque associ´ee est le risque
quadratique
R(θ, θ) = E (θ − θ)2
Perte absolue
L(θ, θ) = |θ − θ| et le risque associ´ee est le risque
quadratique
R(θ, θ) = E |θ − θ|
Intuitivement plus le risque de l’estimateur est faible
plus l’estimateur θ est consid´er´e comme performant.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exercice
Soit X = (X1, . . . , Xn) telle que pour tout i = 1, . . . , n. On
consid`ere X comme estimateur de θ.
Calculer le risque quadratique de X dans les cas suivants
X ∼ N(θ, 1)
X ∼ Gamma(θ, 1)
X ∼ Bernoulli(θ, 1)
X ∼ Poisson(θ, 1)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Dans le cas Bay´esien.
En statistique baye´esienne, on consid`ere le param`etre
comme ´etant al´eatoire, de loi a priori π(θ) sur Θ, ainsi le
risque fr´equentiste R(θ , θ(x)) devient al´eatoire. On
calcule le risque moyen selon la loi a priori.
Donc :
Rπ θ(x) = R(θ , θ(x)) π(θ)dθ
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Dans le cas Bay´esien.
L’estimateur θB(X) est appel´e estimateur de Bayes
associ´e `a la fonction de perte L et `a la loi a priori π c’est
l’estimateur qui minimise le risque bay´esien
Rπ θB
(X) = min
θ(x)∈E
Rπ θ(x)
Remarque: L’expression de l’estimateur bay´esien d´epend
du choix de la loi a priori π et de la fonction perte L.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Meilleur estimateur de Bayes
Th´eor`eme
Supposons que
1 Il existe un estimateur θ0(X) tel que Rπ θ0(X) < ∞.
2 Pour presque tout x ∈ X il existe
θ(x) = argminy∈EE [L(θ, y) | X = x]
3 La fonction x −→ θ(x) est mesurable.
Alors
θ(X) = θB
(X)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Meilleur estimateur de Bayes
Th´eor`eme
Supposons que
1 Il existe un estimateur θ0(X) tel que Rπ θ0(X) < ∞.
2 Pour presque tout x ∈ X il existe
θ(x) = argminy∈EE [L(θ, y) | X = x]
3 La fonction x −→ θ(x) est mesurable.
Alors
θ(X) = θB
(X)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Meilleur estimateur de Bayes
Corollaire
Consid´erons le cas Θ = E = R
1 Si L(θ, θ ) = (θ − θ )2 est la fonction perte quadratique,
alors l’estimateur bay´esien est donn´e par la moyenne a
posteriori
θB
(X) = E(θ | X)
De plus Rπ θB(X) = E [V(θ | X)]
2 Si L(θ, θ ) = |θ − θ |, alors l’estimateur bay´esien est
donn´e par la m´ediane a posteriori
θB
(X) = M´ediane(θ|X)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exercice
Soit X = (X1, . . . , Xn) un ´echantillon i.i.d de loi normale de
moyenne θ inconnue et de variance σ2. Consid´erons la loi a
priori π = N(0, σ2
0)
1 Calculer la loi a posteriori sur θ.
2 En d´eduire l’expression de l’estimateur bay´esien associ´e `a
la fonction perte quadratique.
3 Calculer le risque bay´esien de l’estimateur bay´esien.
4 R´epondre aux questions 1,2,3 avec la fonction perte
L(θ, θ ) = (θ − θ )2 exp(θ2). On consid´erera le cas o`u
σ2 = 1.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exercice
Soient X1, X2, . . . , Xn n v.a. de loi de Poisson de param`etre
θ > 0. Soit Y = n
i=1 Xi. Consid´erons la fonction de perte
L (θ, δ(y)) = (θ − δ (y))2
et on consid`ere la loi a priori sur de
fonction densit´e
π (θ) ∝ θα
exp (−2θ) .
1 Calculer la loi a posteriori de θ.
2 Donner l’expression de l’estimateur de Bayes de θ.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Loi a priori
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Le choix de la loi a priori
Pour construire une loi a priori on doit distinguer 3 cas
possibles :
1 On dispose d’une information a priori partielle, donn´ee
par l’exp´erience.
2 On dispose d’une quantit´e limit´e : lois conjugu´ees.
3 On dispose d’une quantit´e limit´e ou mˆeme aucune
information sur θ : la loi a priori de Jeffrey.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Lois a priori conjugu´ees.
Une loi a priori conjugu´ee sur θ pour un mod`ele statistique
donn´e est une loi a priori qui donne une la loi a posteriori sur
θ appartenant `a la mˆeme famille de probabilit´e la loi a priori.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exercice.
Calculer dans les cas suivants la loi a priori conjugu´ee sur θ
et calculer la loi a posteriori:
1 N(θ, σ2) o`u σ2 est connue.
2 Poisson(θ)
3 Γ(ν, θ) o`u ν est connue.
4 Binomiale(N, θ)
5 N(µ, θ−1) o`u µ est connue.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Loi a priori de Jeffrey.
1 (X1, . . . , Xn) ∼ f( • | θ).
2 La loi de Jefferey se construit `a partir seulement la
connaissance de la densit´e f( • | θ).
3 Cette famille de lois est bas´ee sur le calcul de
l’information de Fischer:
I(θ) = Eθ
∂ log f(X | θ)
∂θ
2
4 Dans le cas de mod`eles r´eguliers.
I(θ) = Eθ
∂2 log f(X | θ)
∂θ2
= Eθ
∂2 log ln(θ)
∂θ2
o`u ln est le log-vraisemblance. Ces lois sont souvent des
lois a priori non-informatives.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Loi a priori de Jeffrey.
D´efinition la loi a priori de Jeffrey qu’on note π∗ c’est la loi
qui admet la densit´e suivante
1 Si Θ ⊆ R
q(θ) ∝ I−1/2
(θ)
2 Si Θ ⊆ Rd
q(θ) ∝ |I(θ)|−1/2
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exercice
Calculer les lois a priori de Jeffrey correspondantes dans les
mod`eles suivants.
1 N(θ, σ2) o`u σ2 est connue.
2 Poisson(θ)
3 Γ(ν, θ) o`u ν est connue.
4 Binomiale(N, θ)
5 N(µ, θ−1) o`u µ est connue.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli
y1, . . . , yn un n−´echantillon de loi Bernoulli B(p).
La loi a priori conjugu´ee
g(p) =
Γ(α + β)
Γ(α)Γ(β)
pα−1
(1 − p)β−1
De moyenne
E(p) =
α
α + β
De Variance
Var(p) =
αβ
(α + β)2(α + β + 1)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli (Exemple)
Calcul d’une loi a priori: On croit que la m´ediane et
90i`eme percentile de p sont respectivement ´egales `a 0,3
et 0,5.
> library(LearnBayes)
> quantile2=list(p=.9,x=.5)
> quantile1=list(p=.5,x=.3)
> beta.select(quantile1,quantile2)
[1] 3.26 7.19
La loi a posteriori
g(p | donn´ees ) ∝ ps+α−1
(1 − p)N−s+β−1
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli (Exemple)
Repr´esentation des lois a priori, a posteriori et vraisemblance.
> a = beta.select(quantile1,quantile2)[1]
> b = beta.select(quantile1,quantile2)[2]
> s = 11
> f = 16
> curve(dbeta(x,a+s,b+f), from=0, to=1,
+ xlab="p",ylab="Density",lty=1,lwd=4)
> curve(dbeta(x,s+1,f+1),add=TRUE,lty=2,lwd=4)
> curve(dbeta(x,a,b),add=TRUE,lty=3,lwd=4)
> legend(.7,4,c("Prior","Likelihood","Posterior"),
+ lty=c(3,2,1),lwd=c(3,3,3))
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli (Exemple)
Repr´esentation des lois a priori, a posteriori et vraisemblance.
0.0 0.2 0.4 0.6 0.8 1.0
012345
p
Density
Prior
Likelihood
Posterior
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli (Exemple)
Calcul de la probabilit´e P(p ≥ .5 | donn´ees ).
> 1 - pbeta(0.5,a+s,b+f)
[1] 0.0690226
Estimer une valeur future y (le nombre de fois de la
r´ealisations d’´ev`enement de probabilit´e p quand l’exp´erience
s’est r´ep´et´ee n fois). On calcule la densit´e pr´edictive de y :
f(y) = f(y | p)g(p)dp.
Deux type densit´es pr´edictives : a priori si g est la loi a priori
ou a posteriori si g est la loi a posteriori
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli (Exemple)
On lance une pi`ece de monnaie n fois, on observe y fois
piles, on consid`ere une loi a priori sur p. Supposons
qu’on veut jeter m fois la pi`ece et on veut pr´edire le
nombre y d’apparitions de la face Pile.
Solution fr´equentiste: estimer p par p = y/n, et
pr´edire y par y = mp = my/n ?
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mod`ele Bernoulli (Exemple)
On lance une pi`ece de monnaie n fois, on observe y fois
piles, on consid`ere une loi a priori sur p. Supposons
qu’on veut jeter m fois la pi`ece et on veut pr´edire le
nombre y d’apparitions de la face Pile.
Solution bay´esienne: calculer la densit´e pr´edictive a
posteriori de y.
g(y | y) = g(y, p | y)dp
= g(y | p) g(p | y)dp
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
La loi Beta-Binomiale
On a d´ej`a vu que si p ∼ Beta(a, b) alors
p | y ∼ Beta(y + a, n − y + b). La loi densit´e pr´edictive a
posteriori s’´ecrit
g(y | y) =
1
B(y + a, n − y + b)
1
0
Cy
mpy
(1 − p)m−y py+a(1 − p)n−y+b dp
= Cy
m
B(y + y + a, m − y + n − y + b)
B(y + a, n − y + b)
On dit que y suit une loi Beta-Binomiale de param`etres
m, y + a, n − y + b.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Application
On observe pour n = 40, y = 13 et on veut pr´edire les
probabilit´es d’observer le nombre de Piles apr`es m = 13
> library(emdbook)
> y=13
> n=40
> ### a priori beta 2,4
> a=2
> b=4
> m=13
> yy=0:m
> ## Calcul de la loi predictive a posteriori.
> predy=sapply(yy,function(x)
+ dbetabinom(x,shape1 = y+a,shape2 = n-y+b,size = m))
> names(predy)=yy
> plot(yy,predy,xlab="y",ylab="loi predictive a posteriori",
+ type="h",lwd=3)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Application
On observe pour n = 40, y = 13 et on veut pr´edire les
probabilit´es d’observer le nombre de Piles apr`es m = 13
0 2 4 6 8 10 12
0.000.050.100.150.20
y
loipredictiveaposteriori
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exemple : combien de fois on a jet´e un d´e
Supposons qu’on a jet´e plusieurs fois une pi`ece de
monnaie ´equilibr´ee et on vous dit qu’on a obtenu “face”
13 fois.
Question : Pourrions-nous estimer le nombre de jets de
la pi`ece ?
Solution : On consid`ere un a priori non-informative sur
n : g(n) ∝ 1 et la vraisemblance est alors
L(n) ∝ C13
n
1
2
n
.
Ainsi la loi a posteriori s’exprime
g(n | x) ∝ L(n)g(n) = C13
n
1
2
n
.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exemple : combien de fois on a jet´e un d´e
Code R
> n=13:100
> posteriori=function(n,p) choose(n,13)*pˆ13*(1-p)ˆ(n
> ### le cas p=.5
> postn=sapply( n,function(n) posteriori(n,.5))
> postn=postn/sum(postn)
> #### Graphique et comparer avec 2*13=26.
> plot(n,postn,type="h",lwd=.8,col="red",xlab="n",
+ ylab="a posteriori")
> abline(v=26,col="blue",lwd=1.5)
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Exemple : combien de fois on a jet´e un d´e
20 40 60 80 100
0.000.020.040.060.08
n
aposteriori
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Pr´ediction des Elections pr´esidentielles
US-2016
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Probl`eme :
Syst`eme ´electoral aux USA :
50 ´etats + District of Colombia.
dans chaque ´etat, le candidat doit gagner les votes des
grands ´electeurs.
pour gagner le vote des grands ´electeurs, il faut que le
candidat(te) gagne les ´elections dans chaque ´etat.
Formellement :
Soit θHj
(resp. θTj
) : la probabilit´e de voter pour Hillary
(resp. Trump) dans l’un l’´etat j = 1, . . . , 51.
GEj le nombre de grands ´electeurs et GEH (resp. GET )
le nombre de votes des grands ´electeurs obtenus par
Hillary (resp. Trump) :
GEH =
51
j=1
GEj 1l{θHj
>θTj
}.
pour que Hillary gagne il faut que GEH > 269 (au total
il y a 538 GE).
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Le mod`ele Bay´esien
Sur un ´echantillon de N ´electeurs dans un ´etat j : yHj ,
yTj personnes d´eclarent voter resp. pour Hillary et
Trump. N − yHj − yTj est le nombre d’´electeurs qui
d´eclarent ne pas voter pour les deux candidats.
La vraisemblance :
L(yHj , yTj | θHj , θTj ) ∝ θ
yHj
Hj
θ
yTj
Tj
(1−θHj −θTj )
N−yHj
−yTj
La loi a priori conjugu´ee : la loi de Dirichlet.
gj(θHj , θTj , θj) ∼ Dirichlet(α1, α2, α3)
o`u θj = 1 − θHj − θTj .
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
La loi a posteriori
X = (X1, . . . , Xk) ∼ Dirichlet(α1, . . . , αk),
f(x1, . . . , xk) =
1
Γ(α0)
k
i=1
Γ(αi) xαi−1
i
o`u ∀ i = 1 . . . k − 1, xi ∈ [0, 1], xk = 1 − x1 − . . . − xk−1
et α0 = k
i=1 αi.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
La loi a posteriori
La loi a posteriori
g(θHj , θTj , θj | yHj , yTj , N − yHj − yTj )
∝ L(yHj , yTj | θHj , θTj ) gj(θHj , θTj , θj)
∝ θ
α1+yHj
−1
Hj
θ
α2+yTj
−1
Tj
θ
α3+N−yHj
−yTj
−1
j
Donc la loi a posteriori est
Dirichlet(α1 + yHj , α2 + yTj , α3 + N − yHj − yTj ).
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Algorithme d’estimation
Pour estimer la probabilit´e P GEH > 269 | y on va
utiliser une m´ethode de Monte Carlo.
A partir d’un algorithme de simulation de la v.a. GEH
on g´en`ere un n−´echantillon (GEH)1, . . . , (GEH)n de
mˆeme loi que GEH | y et
P GEH > 269 | y ≈
1
n
n
i=1
1l{(GEH )i>269}.
Algorithme de Simulation
1 Simulation de la loi a posteriori des (θHj
, θTj
)
2 Simulation de GEH | y
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Donn´ees.
Les donn´ees sont t´el´echarg´ees du site
> library(readr)
> pres_polls <- read_csv("http://www.electoral-vote.com/evp2016/Pres/pres_polls.csv")
C’est une base de donn´ees qui donne les r´esultats de sondages
de plusieurs bureaux qui ont effectu´es de sondages dans
diff´erentes de la compagne ´electorale.
On va consid´erer dans cet exemple des donn´ees de
SurveyMonkey et on va supposer que chaque enquˆete a ´et´e sur
un ´echantillon de taille 1000.
P´eriode des sondages: Mai-Octobre 2016.
Dans notre exemple, on 535 GE, donc le gagnant devrait avoir
plus de 267 GE
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mise en oeuvre sur R
> i=grep("Monkey",pres_polls$Pollster)
> d1=pres_polls[i,]
> p1=as.matrix(d1[,5:6])
> p1=cbind(p1,100-rowSums(p1))/100
> voters=sapply(1:nrow(p1),
+ function(j)rmultinom(1,size = 1000,prob = p1[j,]))
> voters=t(voters)
> hil_voters=voters[,1]
> trump_voters=voters[,2]
> other_voters=voters[,3]
> hil_voters=tapply(hil_voters,d1$State,sum)
> trump_voters=tapply(trump_voters,d1$State,sum)
> other_voters=tapply(other_voters,d1$State,sum)
> d1=cbind.data.frame(names(hil_voters),hil_voters,
+ trump_voters,other_voters)
> colnames(d1)=c("States","Hillary","Trump","Others")
> ev=tapply(pres_polls$EV,pres_polls$State,unique)
> i=match(d1$States,names(ev))
> d1$EV=ev[i]
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Estimation de P GEH > 267 | y
Simulation de la v.a. GEH ‘a partir de la simulation de la loi
a posteriori
1 On simule pour chaque j = 1, . . . , 51, N = 5000
r´eplications `a partir de la loi a posteriori de θHj , θTj :
(θ
(1)
Hj
, θ
(1)
Tj
), . . . , (θ
(N)
Hj
, θ
(N)
Tj
)
2 On calcule ensuite
pj,N =
1
N
N
i=1
1l{θ
(i)
0j
>θ
(i)
Tj
}
pj,N s’interpr`ete comme la probabilit´e a posteriori que
dans l’´Etat j on vote en faveur de Obama.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Simulation des ´elections. . . suite
3. Pour chaque j, on tire j,N ∼ Bernoulli(pj,N ), ceci sera
fait n = 1000 fois. On obtient pour chaque j,
(1)
j,N , . . . ,
(n)
j,N
4. le n−´echantillon de mˆeme loi que de GEH est alors
(GEH)i =
51
j=1
GEj
(i)
j,N , ∀ i = 1 . . . n.
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
Mise en oeuvre sous R
Calcul de pj,N
> prob.Hillary = function(j) {
+ p = rdirichlet(5000, 1 + c(d1$Trump[j], d1$Hillary[j], d1$Others[j]))
+ mean(p[, 2] > p[, 1])
+ }
> Hillary.win.probs = sapply(1:50, prob.Hillary)
Calcul de GEH.
> sim.election = function() {
+ winner = rbinom(50, 1, Hillary.win.probs)
+ sum(d1$EV * winner)
+ }
> sim.EV = replicate(10000, sim.election())
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
R´esultats.
> library(ggplot2)
> dt = data.frame(sim.EV)
> gr <- ggplot(dt, aes(x = sim.EV)) + geom_bar(fill = "red")
> gr <- gr + xlab("Nombre de GE") + ylab("")
> gr <- gr + geom_vline(xintercept = round(sum(d1$EV)/2))
> gr <- gr + theme_bw()
> gr
>
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
R´esultats.
0
300
600
900
250 300 350 400
Nombre de GE
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
En consid´erant tous les sondages.
> p1 = as.matrix(pres_polls[, 5:6])
> p1 = cbind(p1, 100 - rowSums(p1))/100
> voters = sapply(1:nrow(p1), function(j) rmultinom(1, size = 1000, prob = p1[j,
+ ]))
> voters = t(voters)
> hil_voters = voters[, 1]
> trump_voters = voters[, 2]
> other_voters = voters[, 3]
> hil_voters = tapply(hil_voters, pres_polls$State, sum)
> trump_voters = tapply(trump_voters, pres_polls$State, sum)
> other_voters = tapply(other_voters, pres_polls$State, sum)
> d1 = cbind.data.frame(names(hil_voters), hil_voters, trump_voters, other_voters)
> colnames(d1) = c("States", "Hillary", "Trump", "Others")
> ev = tapply(pres_polls$EV, pres_polls$State, unique)
> i = match(d1$States, names(ev))
> d1$EV = ev[i]
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
En consid´erant tous les sondages.
Calcul de pj,N
> Hillary.win.probs = sapply(1:51, prob.Hillary)
Calcul de GEH.
> sim.election = function() {
+ winner = rbinom(51, 1, Hillary.win.probs)
+ sum(d1$EV * winner)
+ }
> sim.EV = replicate(10000, sim.election())
Introduction
`a la
Statistique
Bay´esienne
Dhafer
Malouche
Introduction
Estimation
Bay´esienne
Loi a priori
Mod`ele
Bernoulli
Pr´ediction
des
Elections
pr´esidentielles
US-2016
R´esultats.
0
1000
2000
3000
280 300 320 340 360
Nombre de GE

Weitere ähnliche Inhalte

Andere mochten auch

Quizz île de la réunion
Quizz île de la réunionQuizz île de la réunion
Quizz île de la réunionHANNA974
 
Archive institutionnelle de l'Université d'Angers (une présentation en dessins)
Archive institutionnelle de l'Université d'Angers (une présentation en dessins)Archive institutionnelle de l'Université d'Angers (une présentation en dessins)
Archive institutionnelle de l'Université d'Angers (une présentation en dessins)Stéphanie Bouvier
 
Du-terrain-au-dossier-d'Environnement
Du-terrain-au-dossier-d'EnvironnementDu-terrain-au-dossier-d'Environnement
Du-terrain-au-dossier-d'EnvironnementSarah Voirin
 
D E M E N C I A Conf Rossi9
D E M E N C I A Conf Rossi9D E M E N C I A Conf Rossi9
D E M E N C I A Conf Rossi9soporteasembli
 
Fotos de um satelite
Fotos de um sateliteFotos de um satelite
Fotos de um sateliteJNR
 
A la découverte du champagne
A la découverte du champagneA la découverte du champagne
A la découverte du champagneLudovicMessiers
 
El Taller De Los Corazones Rotos
El Taller De Los Corazones RotosEl Taller De Los Corazones Rotos
El Taller De Los Corazones Rotosdoubotzu
 
Trabajo Final Comercio
Trabajo Final ComercioTrabajo Final Comercio
Trabajo Final Comerciorouse8a
 
La Veille De Né Kid Du 11 02 2010 : la médiologie
La Veille De Né Kid Du 11 02 2010 : la médiologieLa Veille De Né Kid Du 11 02 2010 : la médiologie
La Veille De Né Kid Du 11 02 2010 : la médiologieNé Kid
 
La veille de Né Kid spéciale site de la communication intégrée
La veille de Né Kid spéciale site de la communication intégréeLa veille de Né Kid spéciale site de la communication intégrée
La veille de Né Kid spéciale site de la communication intégréeNé Kid
 
La veille de Né Kid du 09.09.10 : 10 ans de Naked
La veille de Né Kid du 09.09.10 : 10 ans de NakedLa veille de Né Kid du 09.09.10 : 10 ans de Naked
La veille de Né Kid du 09.09.10 : 10 ans de NakedNé Kid
 
Medicaments generiques
Medicaments generiquesMedicaments generiques
Medicaments generiquesguestaa3cd2
 

Andere mochten auch (20)

Quizz île de la réunion
Quizz île de la réunionQuizz île de la réunion
Quizz île de la réunion
 
Elconectivismo
ElconectivismoElconectivismo
Elconectivismo
 
Harsh1
Harsh1Harsh1
Harsh1
 
Archive institutionnelle de l'Université d'Angers (une présentation en dessins)
Archive institutionnelle de l'Université d'Angers (une présentation en dessins)Archive institutionnelle de l'Université d'Angers (une présentation en dessins)
Archive institutionnelle de l'Université d'Angers (une présentation en dessins)
 
Du-terrain-au-dossier-d'Environnement
Du-terrain-au-dossier-d'EnvironnementDu-terrain-au-dossier-d'Environnement
Du-terrain-au-dossier-d'Environnement
 
D E M E N C I A Conf Rossi9
D E M E N C I A Conf Rossi9D E M E N C I A Conf Rossi9
D E M E N C I A Conf Rossi9
 
Fotos de um satelite
Fotos de um sateliteFotos de um satelite
Fotos de um satelite
 
A la découverte du champagne
A la découverte du champagneA la découverte du champagne
A la découverte du champagne
 
El Taller De Los Corazones Rotos
El Taller De Los Corazones RotosEl Taller De Los Corazones Rotos
El Taller De Los Corazones Rotos
 
Trabajo Final Comercio
Trabajo Final ComercioTrabajo Final Comercio
Trabajo Final Comercio
 
Jsf post test
Jsf post testJsf post test
Jsf post test
 
Inforware
InforwareInforware
Inforware
 
La Veille De Né Kid Du 11 02 2010 : la médiologie
La Veille De Né Kid Du 11 02 2010 : la médiologieLa Veille De Né Kid Du 11 02 2010 : la médiologie
La Veille De Né Kid Du 11 02 2010 : la médiologie
 
La veille de Né Kid spéciale site de la communication intégrée
La veille de Né Kid spéciale site de la communication intégréeLa veille de Né Kid spéciale site de la communication intégrée
La veille de Né Kid spéciale site de la communication intégrée
 
TecnologíA
TecnologíATecnologíA
TecnologíA
 
Plugins
PluginsPlugins
Plugins
 
La veille de Né Kid du 09.09.10 : 10 ans de Naked
La veille de Né Kid du 09.09.10 : 10 ans de NakedLa veille de Né Kid du 09.09.10 : 10 ans de Naked
La veille de Né Kid du 09.09.10 : 10 ans de Naked
 
Medicaments generiques
Medicaments generiquesMedicaments generiques
Medicaments generiques
 
Amanecer
AmanecerAmanecer
Amanecer
 
Nodo Caribe_Funcicar
Nodo Caribe_FuncicarNodo Caribe_Funcicar
Nodo Caribe_Funcicar
 

IntroStatBayes_chap1