Olivier Féron's talk at BigMC March 2011

Échantillonnage de champs gaussiens de grande
dimension

Olivier Féron1 & François Orieux2 & Jean-François Giovannelli3

1 EDF R&D et Laboratoire de Finance des Marchés de l’Énergie, Université
Paris-Dauphine, Place du Maréchal de Lattre de Tassigny, 75775 Paris,
olivier-2.feron@edf.fr.
2 Laboratoire des Signaux et Systèmes (CNRS – SUPELEC – Univ. Paris-Sud 11) SUPELEC,
Plateau de Moulon, 91192 Gif-sur-Yvette Cedex,
orieux@lss.supelec.fr.
3 Laboratoire d’Intégration du Matériau au Système, Équipe Signal-Image,
Université de Bordeaux 1, 33405 Talence, France,
Giova@IMS-Bordeaux.fr.

Séminaire BigMC, mars 2011 1 / 26

Sommaire

Introduction : contexte applicatif

Algorithme de Perturbation-Optimisation

Illustration en super-résolution d’image

Travaux en cours
Conclusions et perspectives


Résolution de problèmes inverses dans un cadre
bayésien

Contexte :
Modèle direct linéaire y = Hx + b
H dépend de θ éventuellement inconnu

Lois a priori sur b et x gaussiennes conditionnellement θ

Inversion :
Estimer conjointement x et θ à partir de p(x, θ|y)

p(x, θ|y) difﬁcile à manipuler

Approche possible : échantillonneur de Gibbs
=⇒ problème d’échantillonnage de p(x|θ, y)


Échantillonnage de champ gaussien

p(x|θ, y) est gaussienne de matrice de covariance
dépendant de θ et H
non creuse en général
de très grande dimension (le nombre de pixel de x)

Méthodes d’échantillonnage existantes :
Échantillonnage pixel par pixel
Algorithme de Hastings-Metropolis
Échantillonnage par FFT (si H est circulant)

Contribution
Méthode d’échantillonnage par un algorithme de type
Perturbation-Optimisation, valable quel que soit H.


Loi a posteriori conditionnelle
Modèle direct : y = Hx + b

Hypothèses :
H linéaire (dépendant de θ)
b|θ ∼ N (0, Rb )
x|θ ∼ N (mx , Rx )

Loi a posteriori p(x|θ, y) ∼ N (mpost , Rx )
x
post

−1
post −1 −1
Rx = H t Rb H + Rx
−1 −1
mpost
x
post
= Rx H t Rb y + Rx mx

mpost est le minimum d’un critère quadratique :
x

mpost
x = arg min {J(x|y, mx , θ)}
x
2 2
J(x|y, mx , θ) = y − Hx Rb−1 + x − mx Rx−1


Perturbation de critère

Tirage aléatoire indépendant suivant les lois a priori

y ∼ N (y, Rb )
mx ∼ N (mx , Rx )

Minimiseur :

x
ˆ = arg min {J(x|y, mx , θ)}
x
2 2
J(x|y, mx , θ) = y − Hx Rb−1 + x − mx Rx−1

post −1 −1
x = Rx
ˆ H t Rb y + Rx mx

Proposition

x ∼ N mpost , Rx
ˆ x
post


Preuve
post −1 −1
x = Rx
ˆ H t Rb y + Rx mx

Moyenne de x :
ˆ
E [x] = Rx
ˆ post
H t Rb E[y] + Rx E[mx ] = mpost
−1 −1
x

Covariance de x :
ˆ
E[xxt ] = Rx E
t
post −1 −1 −1 −1 post
ˆˆ H t Rb y + Rx mx H t Rb y + Rx mx Rx

= Rx H t Rb E y y t Rb H + Rx E mx mtx Rx Rx
post −1 −1 −1 −1 post

post −1 −1 −1 −1 post
= Rx H t Rb (yy t + Rb )Rb H + Rx (mx mx t + Rx )Rx Rx

= E [x] E [x] + Rx
tpost −1 −1 post
ˆ ˆ H t Rb H + Rx Rx
= E [x] E [x] + Rx
tpost
ˆ ˆ

V[x] = Rx
ˆ post


Algorithme de Perturbation - Optimisation

Objectif : tirer un échantillon x ∼ N mpost , Rx
ˆ x
post

Algorithme proposé

Étape P (perturbation) : tirage de y et mx indépendamment suivant

y ∼ N (y, Rb )
mx ∼ N (mx , Rx )

Étape O (optimisation) : minimisation du critère

x = arg min {J(x|y, mx , θ)}
ˆ
x

Conditions d’utilisation
lois a priori facilement échantillonnables
lois a priori gaussiennes conditionnellement à θ (lois
gaussiennes, modèles à variable cachée,...)


Applications

Algorithme simple à mettre en œuvre
Échantillonnage de bruits gaussiens
Optimisation d’un critère quadratique

Double intérêt : un seul algorithme pour atteindre la moyenne et
la variance cibles

Possibilité de relier
les problèmes inverses de reconstruction d’images
les méthodes MCMC

Possibilité d’accéder
à des méthodes d’estimation non-supervisées
à la distribution entière des inconnues (pour des écart types, des
intervalles de conﬁance,...)


Applications : Tomographie micro-onde

Reconstruction d’image en tomographie micro-onde

y = GS w + ε
w = XE inc + XGD w + η

Modèle non linéaire reliant l’image d’intérêt x aux données
observées y
Modèle bilinéaire par rapport aux inconnues x et w (courants
induits)
Loi a priori de mélange de gaussiennes pour x

p(x|z) = N (mz , Σz )

Loi a posteriori conditionnellement gaussiennes pour
l’image x
les courants induits w


Illustration en super-résolution d’image

Vraie image Une image basse résolution

Modèle direct : y = P Hx + b
y ∈ RM : images de basse résolution −→ données
H : matrice de convolution
P : matrice de sous-échantillonnage
x ∈ RN : image originale
Hypothèses
−1
b ∼ N (0, γb I)
−1
x ∼ N (0, γx D t D), avec D opérateur laplacien.
a priori de Jeffreys pour γb et γx


Illustration en super-résolution

Loi a posteriori jointe :
M/2−1 (N−1)/2−1 γb 2 γx 2
p(x, γb , γx |y) ∝ γb γx exp − y − P Hx exp − Dx .
2 2

Échantillonneur de Gibbs pour l’inversion non supervisée
1 Initialisation avec k = 1 et x(0) = x0
(k ) 2
2 Tirage de γb ∼ G 1 + M/2, 2/ y − P Hx(k −1)
(k ) 2
3 Tirage de γx ∼ G 1 + (N − 1)/2, 2/ Dx(k −1)

4 Tirage x(k ) ∼ N (mpost , Rx ) par perturbation-optimisation
x
post

5 k =k +1
6 Retour en 2 ou arrêt si respect d’un critère d’arrêt



Réconstruction d’image

Vraie image Une image basse résolution Image estimée



Comportement de la chaîne des hyperparamètres

γb γx


Généralisation
Objectif : générer un échantillon x ∼ N Q−1 B, Q−1 , avec
K
t −1
Q = Mk Rk Mk
k =1
K
t −1
B = Mk Rk µk
k =1

Perturbation-Optimization algorithm
1 Step P (Perturbation) : Générer les variables gaussiennes indépendantes
ζ k , k = 1, . . . , K suivant

ζ k ∼ N (µk , Rk ), ∀k = 1, . . . K

2 Step O (Optimisation) : Calculer le minimiseur x du critère
˜
K
−1
J(x|ζ 1 , . . . , ζ K ) = (ζ k − Mk x)t Rk (ζ k − Mk x)
k =1


Travaux en cours

Rapprochement avec l’algorithme de Langevin

Idée sous-jacente : alléger l’algorithme d’optimisation par une
simple descente de gradient.
Algorithme de Hastings-Metropolis
Processus discret de diffusion ayant pour loi invariante la loi cible

Étude de convergence en prenant en compte le critère d’arrêt de
l’algorithme d’optimisation.


Algorithme de Langevin

Processus de Langevin

1
dXt = − J(Xt )dt + dBt
2
Loi stationnaire du processus : π(x) = C exp {−J(x)}
En pratique : discrétisation du processus de diffusion

τ2
x(t+1) = x(t) − J x(t) + τ εt
2
Problème : la loi invariante n’est plus π.



Solution : considérer x(t+1) comme candidat dans un
algorithme de Hastings-Metropolis.
τ
x(t+1) ∼ N x(t) − J x(t) ; τ 2I
2
probabilité d’acceptation

exp −J(x(t+1) )
ρ(x(t+1) , x(t) ) = ...
exp −J(x(t) )
exp − τ12 x(t) − x(t+1) − τ
2 J(x(t+1) ) 2
...
exp − τ12 x(t+1) − x(t) − τ
2 J(x(t) ) 2



Cas particulier : générer un échantillon x ∼ N Q−1 B, Q−1 ,
avec
K K
t −1 t −1
Q= Mk Rk Mk , B= Mk Rk µk
k =1 k =1

π(x) ∝ exp {−J(x)}, avec
K
1 t t−1 t
J(x) = µk − Mk x Rk µk − Mk x
2
k =1
J(x) = Qx − B

Échantillon candidat
τ
xp = xc − (Qxc − B) + ε, ε ∼ N (0, τ 2 I)
2


Algorithme PO (1 étape de descente)

Critère perturbé

ζ k ∼ N (µk , Rk ), ∀k = 1, . . . K

K
˜ 1 −1
J(x) = (ζ k − Mk x)t Rk (ζ k − Mk x)
2
k =1
˜
J(x) = Qx − B + ε
= J(x) + ε

avec
ε ∼ N (0, Q)
Échantillon candidat

xp = xc − τ (Qxc − B) + ε, ε ∼ N (0, τ 2 Q)


Algorithme PO (1 étape de descente)

Probabilité d’acceptation

ρ(xp , xc ) = exp − xt Qxp − xt Qxc − 2B t (xp − xc ) ...
p c

1
− (xp − xc )t (xp + xc − 2Q−1 B)
τ
Nécessite le calcul de Q−1 B, i.e. la moyenne de la loi cible.
Dans le cas particulier où la loi cible est N (0, Q−1 ), alors
l’algorithme de Hastings Metropolis est utilsable.


Convergence de la marche aléatoire
Loi cible
x ∼ N (Q−1 B, Q−1 )
Processus de marche aléatoire

x(t+1) = x(t) − τ (Qx(t) − B) + εt , εt ∼ N (0, τ 2 Q)

Proposition
La loi invariante du processus précédent est N (µ, R), avec

µ = Q−1 B
R = τ (2I − τ Q)−1

Un exemple qui montre que la loi invariante du processus de
Langevin discrétisé est différente de celle du processus continu.
Ce processus peut donner un estimateur de la moyenne cible.

Convergence de la marche aléatoire

moyenne
µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B
variance
R telle que R = (I − τ Q)R(I − τ Q) + τ 2 Q
Prenons R = τ (2I − τ Q)−1

(I − τ Q)R = (2I − τ Q)R − R = τ I − R
⇒ (I − τ Q)R(I − τ Q) = (τ I − R)(I − τ Q)
= τ (I − τ Q) − R(I − τ Q)
= τ I − τ 2 Q − R(2I − τ Q) + R
= R − τ 2Q


Marche aléatoire adaptée

Loi cible
x ∼ N (Q−1 B, Q−1 )
Processus de marche aléatoire

x(t+1) = x(t) − τ (Qx(t) − B) + ε(t) ,

objectif : trouver la variance de ε(t) telle que la loi invariante de
la marche aléatoire soit la loi cible.

Proposition
Si ε(t) ∼ N (0, τ (2I − τ Q)), Alors la marche aléatoire déﬁnie par

x(t+1) = x(t) − τ (Qx(t) − B) + ε(t)

admet pour loi invariante la loi N (Q−1 B, Q−1 )


Marche aléatoire adaptée

moyenne
µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B
variance
R telle que

R = (I − τ Q)R(I − τ Q) + 2τ I − τ 2 Q

⇒ τ 2 QRQ − τ QR − τ RQ + 2τ I − τ 2 Q = 0

R = Q−1 est solution.


Conclusion et perspectives

Communication :
Journées de statistiques (Marseilles 2010)
Article court pour IEEE Signal Processing Letter

Perspectives
Étude de convergence du maximum numérique
Poursuite vers un algorithme « allégé » et étude de convergence
Communication vers la communauté statistique


Olivier Féron's talk at BigMC March 2011

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (6)

Ähnlich wie Olivier Féron's talk at BigMC March 2011

Ähnlich wie Olivier Féron's talk at BigMC March 2011 (7)

Mehr von BigMC

Mehr von BigMC (12)

Olivier Féron's talk at BigMC March 2011