1. Échantillonnage de champs gaussiens de grande
dimension
Olivier Féron1 & François Orieux2 & Jean-François Giovannelli3
1 EDF R&D et Laboratoire de Finance des Marchés de l’Énergie, Université
Paris-Dauphine, Place du Maréchal de Lattre de Tassigny, 75775 Paris,
olivier-2.feron@edf.fr.
2 Laboratoire des Signaux et Systèmes (CNRS – SUPELEC – Univ. Paris-Sud 11) SUPELEC,
Plateau de Moulon, 91192 Gif-sur-Yvette Cedex,
orieux@lss.supelec.fr.
3 Laboratoire d’Intégration du Matériau au Système, Équipe Signal-Image,
Université de Bordeaux 1, 33405 Talence, France,
Giova@IMS-Bordeaux.fr.
Séminaire BigMC, mars 2011 1 / 26
2. Sommaire
Introduction : contexte applicatif
Algorithme de Perturbation-Optimisation
Illustration en super-résolution d’image
Travaux en cours
Conclusions et perspectives
Séminaire BigMC, mars 2011 2 / 26
3. Résolution de problèmes inverses dans un cadre
bayésien
Contexte :
Modèle direct linéaire y = Hx + b
H dépend de θ éventuellement inconnu
Lois a priori sur b et x gaussiennes conditionnellement θ
Inversion :
Estimer conjointement x et θ à partir de p(x, θ|y)
p(x, θ|y) difficile à manipuler
Approche possible : échantillonneur de Gibbs
=⇒ problème d’échantillonnage de p(x|θ, y)
Séminaire BigMC, mars 2011 3 / 26
4. Échantillonnage de champ gaussien
p(x|θ, y) est gaussienne de matrice de covariance
dépendant de θ et H
non creuse en général
de très grande dimension (le nombre de pixel de x)
Méthodes d’échantillonnage existantes :
Échantillonnage pixel par pixel
Algorithme de Hastings-Metropolis
Échantillonnage par FFT (si H est circulant)
Contribution
Méthode d’échantillonnage par un algorithme de type
Perturbation-Optimisation, valable quel que soit H.
Séminaire BigMC, mars 2011 4 / 26
5. Loi a posteriori conditionnelle
Modèle direct : y = Hx + b
Hypothèses :
H linéaire (dépendant de θ)
b|θ ∼ N (0, Rb )
x|θ ∼ N (mx , Rx )
Loi a posteriori p(x|θ, y) ∼ N (mpost , Rx )
x
post
−1
post −1 −1
Rx = H t Rb H + Rx
−1 −1
mpost
x
post
= Rx H t Rb y + Rx mx
mpost est le minimum d’un critère quadratique :
x
mpost
x = arg min {J(x|y, mx , θ)}
x
2 2
J(x|y, mx , θ) = y − Hx Rb−1 + x − mx Rx−1
Séminaire BigMC, mars 2011 5 / 26
6. Perturbation de critère
Tirage aléatoire indépendant suivant les lois a priori
y ∼ N (y, Rb )
mx ∼ N (mx , Rx )
Minimiseur :
x
ˆ = arg min {J(x|y, mx , θ)}
x
2 2
J(x|y, mx , θ) = y − Hx Rb−1 + x − mx Rx−1
post −1 −1
x = Rx
ˆ H t Rb y + Rx mx
Proposition
x ∼ N mpost , Rx
ˆ x
post
Séminaire BigMC, mars 2011 6 / 26
7. Preuve
post −1 −1
x = Rx
ˆ H t Rb y + Rx mx
Moyenne de x :
ˆ
E [x] = Rx
ˆ post
H t Rb E[y] + Rx E[mx ] = mpost
−1 −1
x
Covariance de x :
ˆ
E[xxt ] = Rx E
t
post −1 −1 −1 −1 post
ˆˆ H t Rb y + Rx mx H t Rb y + Rx mx Rx
= Rx H t Rb E y y t Rb H + Rx E mx mtx Rx Rx
post −1 −1 −1 −1 post
post −1 −1 −1 −1 post
= Rx H t Rb (yy t + Rb )Rb H + Rx (mx mx t + Rx )Rx Rx
= E [x] E [x] + Rx
tpost −1 −1 post
ˆ ˆ H t Rb H + Rx Rx
= E [x] E [x] + Rx
tpost
ˆ ˆ
V[x] = Rx
ˆ post
Séminaire BigMC, mars 2011 7 / 26
8. Algorithme de Perturbation - Optimisation
Objectif : tirer un échantillon x ∼ N mpost , Rx
ˆ x
post
Algorithme proposé
Étape P (perturbation) : tirage de y et mx indépendamment suivant
y ∼ N (y, Rb )
mx ∼ N (mx , Rx )
Étape O (optimisation) : minimisation du critère
x = arg min {J(x|y, mx , θ)}
ˆ
x
Conditions d’utilisation
lois a priori facilement échantillonnables
lois a priori gaussiennes conditionnellement à θ (lois
gaussiennes, modèles à variable cachée,...)
Séminaire BigMC, mars 2011 8 / 26
9. Applications
Algorithme simple à mettre en œuvre
Échantillonnage de bruits gaussiens
Optimisation d’un critère quadratique
Double intérêt : un seul algorithme pour atteindre la moyenne et
la variance cibles
Possibilité de relier
les problèmes inverses de reconstruction d’images
les méthodes MCMC
Possibilité d’accéder
à des méthodes d’estimation non-supervisées
à la distribution entière des inconnues (pour des écart types, des
intervalles de confiance,...)
Séminaire BigMC, mars 2011 9 / 26
10. Applications : Tomographie micro-onde
Reconstruction d’image en tomographie micro-onde
y = GS w + ε
w = XE inc + XGD w + η
Modèle non linéaire reliant l’image d’intérêt x aux données
observées y
Modèle bilinéaire par rapport aux inconnues x et w (courants
induits)
Loi a priori de mélange de gaussiennes pour x
p(x|z) = N (mz , Σz )
Loi a posteriori conditionnellement gaussiennes pour
l’image x
les courants induits w
Séminaire BigMC, mars 2011 10 / 26
11. Illustration en super-résolution d’image
Vraie image Une image basse résolution
Modèle direct : y = P Hx + b
y ∈ RM : images de basse résolution −→ données
H : matrice de convolution
P : matrice de sous-échantillonnage
x ∈ RN : image originale
Hypothèses
−1
b ∼ N (0, γb I)
−1
x ∼ N (0, γx D t D), avec D opérateur laplacien.
a priori de Jeffreys pour γb et γx
Séminaire BigMC, mars 2011 11 / 26
12. Illustration en super-résolution
Loi a posteriori jointe :
M/2−1 (N−1)/2−1 γb 2 γx 2
p(x, γb , γx |y) ∝ γb γx exp − y − P Hx exp − Dx .
2 2
Échantillonneur de Gibbs pour l’inversion non supervisée
1 Initialisation avec k = 1 et x(0) = x0
(k ) 2
2 Tirage de γb ∼ G 1 + M/2, 2/ y − P Hx(k −1)
(k ) 2
3 Tirage de γx ∼ G 1 + (N − 1)/2, 2/ Dx(k −1)
4 Tirage x(k ) ∼ N (mpost , Rx ) par perturbation-optimisation
x
post
5 k =k +1
6 Retour en 2 ou arrêt si respect d’un critère d’arrêt
Séminaire BigMC, mars 2011 12 / 26
13. Illustration en super-résolution
Réconstruction d’image
Vraie image Une image basse résolution Image estimée
Séminaire BigMC, mars 2011 13 / 26
15. Généralisation
Objectif : générer un échantillon x ∼ N Q−1 B, Q−1 , avec
K
t −1
Q = Mk Rk Mk
k =1
K
t −1
B = Mk Rk µk
k =1
Perturbation-Optimization algorithm
1 Step P (Perturbation) : Générer les variables gaussiennes indépendantes
ζ k , k = 1, . . . , K suivant
ζ k ∼ N (µk , Rk ), ∀k = 1, . . . K
2 Step O (Optimisation) : Calculer le minimiseur x du critère
˜
K
−1
J(x|ζ 1 , . . . , ζ K ) = (ζ k − Mk x)t Rk (ζ k − Mk x)
k =1
Séminaire BigMC, mars 2011 15 / 26
16. Travaux en cours
Rapprochement avec l’algorithme de Langevin
Idée sous-jacente : alléger l’algorithme d’optimisation par une
simple descente de gradient.
Algorithme de Hastings-Metropolis
Processus discret de diffusion ayant pour loi invariante la loi cible
Étude de convergence en prenant en compte le critère d’arrêt de
l’algorithme d’optimisation.
Séminaire BigMC, mars 2011 16 / 26
17. Algorithme de Langevin
Processus de Langevin
1
dXt = − J(Xt )dt + dBt
2
Loi stationnaire du processus : π(x) = C exp {−J(x)}
En pratique : discrétisation du processus de diffusion
τ2
x(t+1) = x(t) − J x(t) + τ εt
2
Problème : la loi invariante n’est plus π.
Séminaire BigMC, mars 2011 17 / 26
19. Algorithme de Langevin
Cas particulier : générer un échantillon x ∼ N Q−1 B, Q−1 ,
avec
K K
t −1 t −1
Q= Mk Rk Mk , B= Mk Rk µk
k =1 k =1
π(x) ∝ exp {−J(x)}, avec
K
1 t t−1 t
J(x) = µk − Mk x Rk µk − Mk x
2
k =1
J(x) = Qx − B
Échantillon candidat
τ
xp = xc − (Qxc − B) + ε, ε ∼ N (0, τ 2 I)
2
Séminaire BigMC, mars 2011 19 / 26
20. Algorithme PO (1 étape de descente)
Critère perturbé
ζ k ∼ N (µk , Rk ), ∀k = 1, . . . K
K
˜ 1 −1
J(x) = (ζ k − Mk x)t Rk (ζ k − Mk x)
2
k =1
˜
J(x) = Qx − B + ε
= J(x) + ε
avec
ε ∼ N (0, Q)
Échantillon candidat
xp = xc − τ (Qxc − B) + ε, ε ∼ N (0, τ 2 Q)
Séminaire BigMC, mars 2011 20 / 26
21. Algorithme PO (1 étape de descente)
Probabilité d’acceptation
ρ(xp , xc ) = exp − xt Qxp − xt Qxc − 2B t (xp − xc ) ...
p c
1
− (xp − xc )t (xp + xc − 2Q−1 B)
τ
Nécessite le calcul de Q−1 B, i.e. la moyenne de la loi cible.
Dans le cas particulier où la loi cible est N (0, Q−1 ), alors
l’algorithme de Hastings Metropolis est utilsable.
Séminaire BigMC, mars 2011 21 / 26
22. Convergence de la marche aléatoire
Loi cible
x ∼ N (Q−1 B, Q−1 )
Processus de marche aléatoire
x(t+1) = x(t) − τ (Qx(t) − B) + εt , εt ∼ N (0, τ 2 Q)
Proposition
La loi invariante du processus précédent est N (µ, R), avec
µ = Q−1 B
R = τ (2I − τ Q)−1
Un exemple qui montre que la loi invariante du processus de
Langevin discrétisé est différente de celle du processus continu.
Ce processus peut donner un estimateur de la moyenne cible.
Séminaire BigMC, mars 2011 22 / 26
23. Convergence de la marche aléatoire
moyenne
µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B
variance
R telle que R = (I − τ Q)R(I − τ Q) + τ 2 Q
Prenons R = τ (2I − τ Q)−1
(I − τ Q)R = (2I − τ Q)R − R = τ I − R
⇒ (I − τ Q)R(I − τ Q) = (τ I − R)(I − τ Q)
= τ (I − τ Q) − R(I − τ Q)
= τ I − τ 2 Q − R(2I − τ Q) + R
= R − τ 2Q
Séminaire BigMC, mars 2011 23 / 26
24. Marche aléatoire adaptée
Loi cible
x ∼ N (Q−1 B, Q−1 )
Processus de marche aléatoire
x(t+1) = x(t) − τ (Qx(t) − B) + ε(t) ,
objectif : trouver la variance de ε(t) telle que la loi invariante de
la marche aléatoire soit la loi cible.
Proposition
Si ε(t) ∼ N (0, τ (2I − τ Q)), Alors la marche aléatoire définie par
x(t+1) = x(t) − τ (Qx(t) − B) + ε(t)
admet pour loi invariante la loi N (Q−1 B, Q−1 )
Séminaire BigMC, mars 2011 24 / 26
25. Marche aléatoire adaptée
moyenne
µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B
variance
R telle que
R = (I − τ Q)R(I − τ Q) + 2τ I − τ 2 Q
⇒ τ 2 QRQ − τ QR − τ RQ + 2τ I − τ 2 Q = 0
R = Q−1 est solution.
Séminaire BigMC, mars 2011 25 / 26
26. Conclusion et perspectives
Communication :
Journées de statistiques (Marseilles 2010)
Article court pour IEEE Signal Processing Letter
Perspectives
Étude de convergence du maximum numérique
Poursuite vers un algorithme « allégé » et étude de convergence
Communication vers la communauté statistique
Séminaire BigMC, mars 2011 26 / 26