SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
Échantillonnage de champs gaussiens de grande

         Olivier Féron1 & François Orieux2 & Jean-François Giovannelli3

              1   EDF R&D et Laboratoire de Finance des Marchés de l’Énergie, Université
                  Paris-Dauphine, Place du Maréchal de Lattre de Tassigny, 75775 Paris,
     2   Laboratoire des Signaux et Systèmes (CNRS – SUPELEC – Univ. Paris-Sud 11) SUPELEC,
                            Plateau de Moulon, 91192 Gif-sur-Yvette Cedex,
              3   Laboratoire d’Intégration du Matériau au Système, Équipe Signal-Image,
                            Université de Bordeaux 1, 33405 Talence, France,

Séminaire BigMC, mars 2011                                                                    1 / 26

          Introduction : contexte applicatif

          Algorithme de Perturbation-Optimisation

          Illustration en super-résolution d’image

          Travaux en cours
          Conclusions et perspectives

Séminaire BigMC, mars 2011                           2 / 26
Résolution de problèmes inverses dans un cadre

          Contexte :
                Modèle direct linéaire y = Hx + b
                H dépend de θ éventuellement inconnu

                Lois a priori sur b et x gaussiennes conditionnellement θ

          Inversion :
                Estimer conjointement x et θ à partir de p(x, θ|y)

                p(x, θ|y) difficile à manipuler

                Approche possible : échantillonneur de Gibbs
                =⇒ problème d’échantillonnage de p(x|θ, y)

Séminaire BigMC, mars 2011                                                  3 / 26
Échantillonnage de champ gaussien

          p(x|θ, y) est gaussienne de matrice de covariance
                dépendant de θ et H
                non creuse en général
                de très grande dimension (le nombre de pixel de x)

          Méthodes d’échantillonnage existantes :
                Échantillonnage pixel par pixel
                Algorithme de Hastings-Metropolis
                Échantillonnage par FFT (si H est circulant)

   Méthode d’échantillonnage par un algorithme de type
   Perturbation-Optimisation, valable quel que soit H.

Séminaire BigMC, mars 2011                                           4 / 26
Loi a posteriori conditionnelle
          Modèle direct : y = Hx + b

          Hypothèses :
             H linéaire (dépendant de θ)
             b|θ ∼ N (0, Rb )
             x|θ ∼ N (mx , Rx )

          Loi a posteriori p(x|θ, y) ∼ N (mpost , Rx )

                          post            −1     −1
                         Rx      =   H t Rb H + Rx
                                              −1     −1
                                 = Rx    H t Rb y + Rx mx

          mpost est le minimum d’un critère quadratique :

                              x      = arg min {J(x|y, mx , θ)}
                                                  2                 2
                    J(x|y, mx , θ)   =   y − Hx   Rb−1   + x − mx   Rx−1

Séminaire BigMC, mars 2011                                                 5 / 26
Perturbation de critère

          Tirage aléatoire indépendant suivant les lois a priori

                                           y ∼ N (y, Rb )
                                         mx ∼ N (mx , Rx )

          Minimiseur :

                                ˆ    = arg min {J(x|y, mx , θ)}
                                                   2                 2
                    J(x|y, mx , θ)   =    y − Hx   Rb−1   + x − mx   Rx−1

                                     post      −1     −1
                                x = Rx
                                ˆ         H t Rb y + Rx mx


                                     x ∼ N mpost , Rx
                                     ˆ      x

Séminaire BigMC, mars 2011                                                  6 / 26
                                      post      −1     −1
                                 x = Rx
                                 ˆ         H t Rb y + Rx mx

          Moyenne de x :
                        E [x] = Rx
                           ˆ     post
                                        H t Rb E[y] + Rx E[mx ] = mpost
                                             −1        −1

          Covariance de x :
   E[xxt ] = Rx E
              post                −1     −1            −1     −1          post
     ˆˆ                      H t Rb y + Rx mx     H t Rb y + Rx mx       Rx

             = Rx H t Rb E y y t Rb H + Rx E mx mtx Rx Rx
                post   −1         −1     −1          −1 post

                post   −1             −1     −1                −1 post
             = Rx H t Rb (yy t + Rb )Rb H + Rx (mx mx t + Rx )Rx Rx

             = E [x] E [x] + Rx
                             tpost      −1     −1 post
                  ˆ     ˆ          H t Rb H + Rx Rx
             = E [x] E [x] + Rx
                  ˆ     ˆ

                                           V[x] = Rx
                                             ˆ     post

Séminaire BigMC, mars 2011                                                       7 / 26
Algorithme de Perturbation - Optimisation

          Objectif : tirer un échantillon x ∼ N mpost , Rx
                                          ˆ      x

   Algorithme proposé

          Étape P (perturbation) : tirage de y et mx indépendamment suivant

                                        y ∼ N (y, Rb )
                                     mx ∼ N (mx , Rx )

          Étape O (optimisation) : minimisation du critère

                                x = arg min {J(x|y, mx , θ)}

          Conditions d’utilisation
                lois a priori facilement échantillonnables
                lois a priori gaussiennes conditionnellement à θ (lois
                gaussiennes, modèles à variable cachée,...)

Séminaire BigMC, mars 2011                                                    8 / 26

          Algorithme simple à mettre en œuvre
                Échantillonnage de bruits gaussiens
                Optimisation d’un critère quadratique

          Double intérêt : un seul algorithme pour atteindre la moyenne et
          la variance cibles

          Possibilité de relier
                les problèmes inverses de reconstruction d’images
                les méthodes MCMC

          Possibilité d’accéder
                à des méthodes d’estimation non-supervisées
                à la distribution entière des inconnues (pour des écart types, des
                intervalles de confiance,...)

Séminaire BigMC, mars 2011                                                           9 / 26
Applications : Tomographie micro-onde

          Reconstruction d’image en tomographie micro-onde

                               y = GS w + ε
                              w = XE inc + XGD w + η

                Modèle non linéaire reliant l’image d’intérêt x aux données
                observées y
                Modèle bilinéaire par rapport aux inconnues x et w (courants
          Loi a priori de mélange de gaussiennes pour x

                                 p(x|z) = N (mz , Σz )

          Loi a posteriori conditionnellement gaussiennes pour
                l’image x
                les courants induits w

Séminaire BigMC, mars 2011                                                     10 / 26
Illustration en super-résolution d’image

                             Vraie image   Une image basse résolution

          Modèle direct : y = P Hx + b
             y ∈ RM : images de basse résolution −→ données
             H : matrice de convolution
             P : matrice de sous-échantillonnage
             x ∈ RN : image originale
             b ∼ N (0, γb I)
             x ∼ N (0, γx D t D), avec D opérateur laplacien.
             a priori de Jeffreys pour γb et γx

Séminaire BigMC, mars 2011                                              11 / 26
Illustration en super-résolution

          Loi a posteriori jointe :
                         M/2−1 (N−1)/2−1           γb                2           γx      2
 p(x, γb , γx |y) ∝ γb        γx           exp −      y − P Hx           exp −      Dx        .
                                                   2                              2

   Échantillonneur de Gibbs pour l’inversion non supervisée
      1   Initialisation avec k = 1 et x(0) = x0
                             (k )                                2
      2   Tirage de γb ∼ G 1 + M/2, 2/ y − P Hx(k −1)
                             (k )                                2
      3   Tirage de γx ∼ G 1 + (N − 1)/2, 2/ Dx(k −1)

      4   Tirage x(k ) ∼ N (mpost , Rx ) par perturbation-optimisation

      5   k =k +1
      6   Retour en 2 ou arrêt si respect d’un critère d’arrêt

Séminaire BigMC, mars 2011                                                                   12 / 26
Illustration en super-résolution

          Réconstruction d’image

          Vraie image        Une image basse résolution   Image estimée

Séminaire BigMC, mars 2011                                                13 / 26
Illustration en super-résolution

          Comportement de la chaîne des hyperparamètres

                             γb                  γx

Séminaire BigMC, mars 2011                                14 / 26
          Objectif : générer un échantillon x ∼ N Q−1 B, Q−1 , avec
                                                                   t −1
                                           Q =                    Mk Rk Mk
                                                          k =1
                                                                        t −1
                                           B =                         Mk Rk µk
                                                                k =1

   Perturbation-Optimization algorithm
      1   Step P (Perturbation) : Générer les variables gaussiennes indépendantes
          ζ k , k = 1, . . . , K suivant

                                          ζ k ∼ N (µk , Rk ),           ∀k = 1, . . . K

      2   Step O (Optimisation) : Calculer le minimiseur x du critère
                             J(x|ζ 1 , . . . , ζ K ) =          (ζ k − Mk x)t Rk (ζ k − Mk x)
                                                         k =1

Séminaire BigMC, mars 2011                                                                      15 / 26
Travaux en cours

          Rapprochement avec l’algorithme de Langevin

          Idée sous-jacente : alléger l’algorithme d’optimisation par une
          simple descente de gradient.
                Algorithme de Hastings-Metropolis
                Processus discret de diffusion ayant pour loi invariante la loi cible

          Étude de convergence en prenant en compte le critère d’arrêt de
          l’algorithme d’optimisation.

Séminaire BigMC, mars 2011                                                          16 / 26
Algorithme de Langevin

          Processus de Langevin

                                 dXt = −     J(Xt )dt + dBt
          Loi stationnaire du processus : π(x) = C exp {−J(x)}
          En pratique : discrétisation du processus de diffusion

                             x(t+1) = x(t) −      J x(t) + τ εt
          Problème : la loi invariante n’est plus π.

Séminaire BigMC, mars 2011                                         17 / 26
Algorithme de Langevin

          Solution : considérer x(t+1) comme candidat dans un
          algorithme de Hastings-Metropolis.
                             x(t+1) ∼ N x(t) −     J x(t)    ; τ 2I
          probabilité d’acceptation

                                      exp −J(x(t+1) )
            ρ(x(t+1) , x(t) ) =                       ...
                                       exp −J(x(t) )
                                      exp − τ12 x(t) − x(t+1) −   τ
                                                                  2       J(x(t+1) )      2
                                       exp − τ12 x(t+1) − x(t) −      τ
                                                                      2    J(x(t) )   2

Séminaire BigMC, mars 2011                                                                    18 / 26
Algorithme de Langevin

          Cas particulier : générer un échantillon x ∼ N Q−1 B, Q−1 ,
                              K                                 K
                                     t −1                              t −1
                      Q=            Mk Rk Mk ,        B=              Mk Rk µk
                             k =1                              k =1

          π(x) ∝ exp {−J(x)}, avec
                                      1                t   t−1      t
                        J(x) =                   µk − Mk x Rk µk − Mk x
                                          k =1
                        J(x) = Qx − B

          Échantillon candidat
                       xp = xc − (Qxc − B) + ε,                 ε ∼ N (0, τ 2 I)

Séminaire BigMC, mars 2011                                                         19 / 26
Algorithme PO (1 étape de descente)

          Critère perturbé

                              ζ k ∼ N (µk , Rk ),      ∀k = 1, . . . K

                         ˜         1                         −1
                         J(x) =               (ζ k − Mk x)t Rk (ζ k − Mk x)
                                       k =1
                         J(x) = Qx − B + ε
                              =        J(x) + ε

                                              ε ∼ N (0, Q)
          Échantillon candidat

                       xp = xc − τ (Qxc − B) + ε,            ε ∼ N (0, τ 2 Q)

Séminaire BigMC, mars 2011                                                      20 / 26
Algorithme PO (1 étape de descente)

          Probabilité d’acceptation

             ρ(xp , xc ) = exp     − xt Qxp − xt Qxc − 2B t (xp − xc ) ...
                                      p        c

                                   − (xp − xc )t (xp + xc − 2Q−1 B)
          Nécessite le calcul de Q−1 B, i.e. la moyenne de la loi cible.
          Dans le cas particulier où la loi cible est N (0, Q−1 ), alors
          l’algorithme de Hastings Metropolis est utilsable.

Séminaire BigMC, mars 2011                                                   21 / 26
Convergence de la marche aléatoire
          Loi cible
                                   x ∼ N (Q−1 B, Q−1 )
          Processus de marche aléatoire

                  x(t+1) = x(t) − τ (Qx(t) − B) + εt ,   εt ∼ N (0, τ 2 Q)

   La loi invariante du processus précédent est N (µ, R), avec

                                 µ = Q−1 B
                                R = τ (2I − τ Q)−1

          Un exemple qui montre que la loi invariante du processus de
          Langevin discrétisé est différente de celle du processus continu.
          Ce processus peut donner un estimateur de la moyenne cible.
Séminaire BigMC, mars 2011                                                   22 / 26
Convergence de la marche aléatoire

                             µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B
          R telle que R = (I − τ Q)R(I − τ Q) + τ 2 Q
          Prenons R = τ (2I − τ Q)−1

                             (I − τ Q)R = (2I − τ Q)R − R = τ I − R
               ⇒ (I − τ Q)R(I − τ Q) = (τ I − R)(I − τ Q)
                                         = τ (I − τ Q) − R(I − τ Q)
                                         = τ I − τ 2 Q − R(2I − τ Q) + R
                                         = R − τ 2Q

Séminaire BigMC, mars 2011                                                 23 / 26
Marche aléatoire adaptée

          Loi cible
                                       x ∼ N (Q−1 B, Q−1 )
          Processus de marche aléatoire

                               x(t+1) = x(t) − τ (Qx(t) − B) + ε(t) ,

          objectif : trouver la variance de ε(t) telle que la loi invariante de
          la marche aléatoire soit la loi cible.

   Si ε(t) ∼ N (0, τ (2I − τ Q)), Alors la marche aléatoire définie par

                             x(t+1) = x(t) − τ (Qx(t) − B) + ε(t)

   admet pour loi invariante la loi N (Q−1 B, Q−1 )

Séminaire BigMC, mars 2011                                                    24 / 26
Marche aléatoire adaptée

                             µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B
          R telle que

                             R = (I − τ Q)R(I − τ Q) + 2τ I − τ 2 Q

                      ⇒      τ 2 QRQ − τ QR − τ RQ + 2τ I − τ 2 Q = 0

          R = Q−1 est solution.

Séminaire BigMC, mars 2011                                              25 / 26
Conclusion et perspectives

          Communication :
                Journées de statistiques (Marseilles 2010)
                Article court pour IEEE Signal Processing Letter

                Étude de convergence du maximum numérique
                Poursuite vers un algorithme « allégé » et étude de convergence
                Communication vers la communauté statistique

Séminaire BigMC, mars 2011                                                    26 / 26

Weitere ähnliche Inhalte

Was ist angesagt?

Cours series fourier
Cours series fourierCours series fourier
Cours series fourierMehdi Maroun
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanMedalith Estrada
Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Florent Renucci
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non superviseeminiloka
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...tuxette
L'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiquesL'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiquesCharvetXavier
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM) Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM) tuxette
JIM-2022 3 Puissances et racines
JIM-2022 3 Puissances et racinesJIM-2022 3 Puissances et racines
JIM-2022 3 Puissances et racinesClément Boulonne
Une formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentiellesUne formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentiellesClément Boulonne
Introduction à ABC
Introduction à ABCIntroduction à ABC
Introduction à ABCRobin Ryder
Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Arthur Charpentier
Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1Christophe Palermo

Was ist angesagt? (20)

CM4 - Transformée en z
CM4 - Transformée en zCM4 - Transformée en z
CM4 - Transformée en z
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non supervisee
D slides 11
D slides 11D slides 11
D slides 11
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
L'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiquesL'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiques
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM) Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
JIM-2022 3 Puissances et racines
JIM-2022 3 Puissances et racinesJIM-2022 3 Puissances et racines
JIM-2022 3 Puissances et racines
Une formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentiellesUne formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentielles
Introduction à ABC
Introduction à ABCIntroduction à ABC
Introduction à ABC
Ben Arous2
Ben Arous2Ben Arous2
Ben Arous2
Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2
Cr de physique cinematique
Cr de physique cinematiqueCr de physique cinematique
Cr de physique cinematique
Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1

Andere mochten auch

schéma regional de l'offre de soins
schéma regional de l'offre de soins schéma regional de l'offre de soins
schéma regional de l'offre de soins mohamed elmarnissi
SCoT_Lorient_projections démographiques
SCoT_Lorient_projections démographiquesSCoT_Lorient_projections démographiques
SCoT_Lorient_projections démographiquesAudéLor
20141128 demogr bxl_06_mv
20141128 demogr bxl_06_mv20141128 demogr bxl_06_mv
20141128 demogr bxl_06_mvSocDemoFB

Andere mochten auch (6)

1s prob
1s prob1s prob
1s prob
schéma regional de l'offre de soins
schéma regional de l'offre de soins schéma regional de l'offre de soins
schéma regional de l'offre de soins
SCoT_Lorient_projections démographiques
SCoT_Lorient_projections démographiquesSCoT_Lorient_projections démographiques
SCoT_Lorient_projections démographiques
20141128 demogr bxl_06_mv
20141128 demogr bxl_06_mv20141128 demogr bxl_06_mv
20141128 demogr bxl_06_mv

Ähnlich wie Olivier Féron's talk at BigMC March 2011

M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0guest8b8369
Mathématiques - Fonction génératrice
Mathématiques - Fonction génératriceMathématiques - Fonction génératrice
Mathématiques - Fonction génératriceLoïc Dilly
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesEL-Hachemi Guerrout

Ähnlich wie Olivier Féron's talk at BigMC March 2011 (7)

M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0
Mathématiques - Fonction génératrice
Mathématiques - Fonction génératriceMathématiques - Fonction génératrice
Mathématiques - Fonction génératrice
Tadti crs3-n
Tadti crs3-nTadti crs3-n
Tadti crs3-n
Projet Bac3
Projet Bac3Projet Bac3
Projet Bac3
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicales

Mehr von BigMC

Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...
Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...
Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...BigMC
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...BigMC
Stability of adaptive random-walk Metropolis algorithms
Stability of adaptive random-walk Metropolis algorithmsStability of adaptive random-walk Metropolis algorithms
Stability of adaptive random-walk Metropolis algorithmsBigMC
"Monte-Carlo Tree Search for the game of Go"
"Monte-Carlo Tree Search for the game of Go""Monte-Carlo Tree Search for the game of Go"
"Monte-Carlo Tree Search for the game of Go"BigMC
Hedibert Lopes' talk at BigMC
Hedibert Lopes' talk at  BigMCHedibert Lopes' talk at  BigMC
Hedibert Lopes' talk at BigMCBigMC
Andreas Eberle
Andreas EberleAndreas Eberle
Andreas EberleBigMC
Olivier Cappé's talk at BigMC March 2011
Olivier Cappé's talk at BigMC March 2011Olivier Cappé's talk at BigMC March 2011
Olivier Cappé's talk at BigMC March 2011BigMC
Estimation de copules, une approche bayésienne
Estimation de copules, une approche bayésienneEstimation de copules, une approche bayésienne
Estimation de copules, une approche bayésienneBigMC
Comparing estimation algorithms for block clustering models
Comparing estimation algorithms for block clustering modelsComparing estimation algorithms for block clustering models
Comparing estimation algorithms for block clustering modelsBigMC
Computation of the marginal likelihood
Computation of the marginal likelihoodComputation of the marginal likelihood
Computation of the marginal likelihoodBigMC
Learning spline-based curve models (Laure Amate)
Learning spline-based curve models (Laure Amate)Learning spline-based curve models (Laure Amate)
Learning spline-based curve models (Laure Amate)BigMC
Omiros' talk on the Bernoulli factory problem
Omiros' talk on the  Bernoulli factory problemOmiros' talk on the  Bernoulli factory problem
Omiros' talk on the Bernoulli factory problemBigMC

Mehr von BigMC (12)

Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...
Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...
Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...
Stability of adaptive random-walk Metropolis algorithms
Stability of adaptive random-walk Metropolis algorithmsStability of adaptive random-walk Metropolis algorithms
Stability of adaptive random-walk Metropolis algorithms
"Monte-Carlo Tree Search for the game of Go"
"Monte-Carlo Tree Search for the game of Go""Monte-Carlo Tree Search for the game of Go"
"Monte-Carlo Tree Search for the game of Go"
Hedibert Lopes' talk at BigMC
Hedibert Lopes' talk at  BigMCHedibert Lopes' talk at  BigMC
Hedibert Lopes' talk at BigMC
Andreas Eberle
Andreas EberleAndreas Eberle
Andreas Eberle
Olivier Cappé's talk at BigMC March 2011
Olivier Cappé's talk at BigMC March 2011Olivier Cappé's talk at BigMC March 2011
Olivier Cappé's talk at BigMC March 2011
Estimation de copules, une approche bayésienne
Estimation de copules, une approche bayésienneEstimation de copules, une approche bayésienne
Estimation de copules, une approche bayésienne
Comparing estimation algorithms for block clustering models
Comparing estimation algorithms for block clustering modelsComparing estimation algorithms for block clustering models
Comparing estimation algorithms for block clustering models
Computation of the marginal likelihood
Computation of the marginal likelihoodComputation of the marginal likelihood
Computation of the marginal likelihood
Learning spline-based curve models (Laure Amate)
Learning spline-based curve models (Laure Amate)Learning spline-based curve models (Laure Amate)
Learning spline-based curve models (Laure Amate)
Omiros' talk on the Bernoulli factory problem
Omiros' talk on the  Bernoulli factory problemOmiros' talk on the  Bernoulli factory problem
Omiros' talk on the Bernoulli factory problem

Olivier Féron's talk at BigMC March 2011

  • 1. Échantillonnage de champs gaussiens de grande dimension Olivier Féron1 & François Orieux2 & Jean-François Giovannelli3 1 EDF R&D et Laboratoire de Finance des Marchés de l’Énergie, Université Paris-Dauphine, Place du Maréchal de Lattre de Tassigny, 75775 Paris, 2 Laboratoire des Signaux et Systèmes (CNRS – SUPELEC – Univ. Paris-Sud 11) SUPELEC, Plateau de Moulon, 91192 Gif-sur-Yvette Cedex, 3 Laboratoire d’Intégration du Matériau au Système, Équipe Signal-Image, Université de Bordeaux 1, 33405 Talence, France, Séminaire BigMC, mars 2011 1 / 26
  • 2. Sommaire Introduction : contexte applicatif Algorithme de Perturbation-Optimisation Illustration en super-résolution d’image Travaux en cours Conclusions et perspectives Séminaire BigMC, mars 2011 2 / 26
  • 3. Résolution de problèmes inverses dans un cadre bayésien Contexte : Modèle direct linéaire y = Hx + b H dépend de θ éventuellement inconnu Lois a priori sur b et x gaussiennes conditionnellement θ Inversion : Estimer conjointement x et θ à partir de p(x, θ|y) p(x, θ|y) difficile à manipuler Approche possible : échantillonneur de Gibbs =⇒ problème d’échantillonnage de p(x|θ, y) Séminaire BigMC, mars 2011 3 / 26
  • 4. Échantillonnage de champ gaussien p(x|θ, y) est gaussienne de matrice de covariance dépendant de θ et H non creuse en général de très grande dimension (le nombre de pixel de x) Méthodes d’échantillonnage existantes : Échantillonnage pixel par pixel Algorithme de Hastings-Metropolis Échantillonnage par FFT (si H est circulant) Contribution Méthode d’échantillonnage par un algorithme de type Perturbation-Optimisation, valable quel que soit H. Séminaire BigMC, mars 2011 4 / 26
  • 5. Loi a posteriori conditionnelle Modèle direct : y = Hx + b Hypothèses : H linéaire (dépendant de θ) b|θ ∼ N (0, Rb ) x|θ ∼ N (mx , Rx ) Loi a posteriori p(x|θ, y) ∼ N (mpost , Rx ) x post −1 post −1 −1 Rx = H t Rb H + Rx −1 −1 mpost x post = Rx H t Rb y + Rx mx mpost est le minimum d’un critère quadratique : x mpost x = arg min {J(x|y, mx , θ)} x 2 2 J(x|y, mx , θ) = y − Hx Rb−1 + x − mx Rx−1 Séminaire BigMC, mars 2011 5 / 26
  • 6. Perturbation de critère Tirage aléatoire indépendant suivant les lois a priori y ∼ N (y, Rb ) mx ∼ N (mx , Rx ) Minimiseur : x ˆ = arg min {J(x|y, mx , θ)} x 2 2 J(x|y, mx , θ) = y − Hx Rb−1 + x − mx Rx−1 post −1 −1 x = Rx ˆ H t Rb y + Rx mx Proposition x ∼ N mpost , Rx ˆ x post Séminaire BigMC, mars 2011 6 / 26
  • 7. Preuve post −1 −1 x = Rx ˆ H t Rb y + Rx mx Moyenne de x : ˆ E [x] = Rx ˆ post H t Rb E[y] + Rx E[mx ] = mpost −1 −1 x Covariance de x : ˆ E[xxt ] = Rx E t post −1 −1 −1 −1 post ˆˆ H t Rb y + Rx mx H t Rb y + Rx mx Rx = Rx H t Rb E y y t Rb H + Rx E mx mtx Rx Rx post −1 −1 −1 −1 post post −1 −1 −1 −1 post = Rx H t Rb (yy t + Rb )Rb H + Rx (mx mx t + Rx )Rx Rx = E [x] E [x] + Rx tpost −1 −1 post ˆ ˆ H t Rb H + Rx Rx = E [x] E [x] + Rx tpost ˆ ˆ V[x] = Rx ˆ post Séminaire BigMC, mars 2011 7 / 26
  • 8. Algorithme de Perturbation - Optimisation Objectif : tirer un échantillon x ∼ N mpost , Rx ˆ x post Algorithme proposé Étape P (perturbation) : tirage de y et mx indépendamment suivant y ∼ N (y, Rb ) mx ∼ N (mx , Rx ) Étape O (optimisation) : minimisation du critère x = arg min {J(x|y, mx , θ)} ˆ x Conditions d’utilisation lois a priori facilement échantillonnables lois a priori gaussiennes conditionnellement à θ (lois gaussiennes, modèles à variable cachée,...) Séminaire BigMC, mars 2011 8 / 26
  • 9. Applications Algorithme simple à mettre en œuvre Échantillonnage de bruits gaussiens Optimisation d’un critère quadratique Double intérêt : un seul algorithme pour atteindre la moyenne et la variance cibles Possibilité de relier les problèmes inverses de reconstruction d’images les méthodes MCMC Possibilité d’accéder à des méthodes d’estimation non-supervisées à la distribution entière des inconnues (pour des écart types, des intervalles de confiance,...) Séminaire BigMC, mars 2011 9 / 26
  • 10. Applications : Tomographie micro-onde Reconstruction d’image en tomographie micro-onde y = GS w + ε w = XE inc + XGD w + η Modèle non linéaire reliant l’image d’intérêt x aux données observées y Modèle bilinéaire par rapport aux inconnues x et w (courants induits) Loi a priori de mélange de gaussiennes pour x p(x|z) = N (mz , Σz ) Loi a posteriori conditionnellement gaussiennes pour l’image x les courants induits w Séminaire BigMC, mars 2011 10 / 26
  • 11. Illustration en super-résolution d’image Vraie image Une image basse résolution Modèle direct : y = P Hx + b y ∈ RM : images de basse résolution −→ données H : matrice de convolution P : matrice de sous-échantillonnage x ∈ RN : image originale Hypothèses −1 b ∼ N (0, γb I) −1 x ∼ N (0, γx D t D), avec D opérateur laplacien. a priori de Jeffreys pour γb et γx Séminaire BigMC, mars 2011 11 / 26
  • 12. Illustration en super-résolution Loi a posteriori jointe : M/2−1 (N−1)/2−1 γb 2 γx 2 p(x, γb , γx |y) ∝ γb γx exp − y − P Hx exp − Dx . 2 2 Échantillonneur de Gibbs pour l’inversion non supervisée 1 Initialisation avec k = 1 et x(0) = x0 (k ) 2 2 Tirage de γb ∼ G 1 + M/2, 2/ y − P Hx(k −1) (k ) 2 3 Tirage de γx ∼ G 1 + (N − 1)/2, 2/ Dx(k −1) 4 Tirage x(k ) ∼ N (mpost , Rx ) par perturbation-optimisation x post 5 k =k +1 6 Retour en 2 ou arrêt si respect d’un critère d’arrêt Séminaire BigMC, mars 2011 12 / 26
  • 13. Illustration en super-résolution Réconstruction d’image Vraie image Une image basse résolution Image estimée Séminaire BigMC, mars 2011 13 / 26
  • 14. Illustration en super-résolution Comportement de la chaîne des hyperparamètres γb γx Séminaire BigMC, mars 2011 14 / 26
  • 15. Généralisation Objectif : générer un échantillon x ∼ N Q−1 B, Q−1 , avec K t −1 Q = Mk Rk Mk k =1 K t −1 B = Mk Rk µk k =1 Perturbation-Optimization algorithm 1 Step P (Perturbation) : Générer les variables gaussiennes indépendantes ζ k , k = 1, . . . , K suivant ζ k ∼ N (µk , Rk ), ∀k = 1, . . . K 2 Step O (Optimisation) : Calculer le minimiseur x du critère ˜ K −1 J(x|ζ 1 , . . . , ζ K ) = (ζ k − Mk x)t Rk (ζ k − Mk x) k =1 Séminaire BigMC, mars 2011 15 / 26
  • 16. Travaux en cours Rapprochement avec l’algorithme de Langevin Idée sous-jacente : alléger l’algorithme d’optimisation par une simple descente de gradient. Algorithme de Hastings-Metropolis Processus discret de diffusion ayant pour loi invariante la loi cible Étude de convergence en prenant en compte le critère d’arrêt de l’algorithme d’optimisation. Séminaire BigMC, mars 2011 16 / 26
  • 17. Algorithme de Langevin Processus de Langevin 1 dXt = − J(Xt )dt + dBt 2 Loi stationnaire du processus : π(x) = C exp {−J(x)} En pratique : discrétisation du processus de diffusion τ2 x(t+1) = x(t) − J x(t) + τ εt 2 Problème : la loi invariante n’est plus π. Séminaire BigMC, mars 2011 17 / 26
  • 18. Algorithme de Langevin Solution : considérer x(t+1) comme candidat dans un algorithme de Hastings-Metropolis. τ x(t+1) ∼ N x(t) − J x(t) ; τ 2I 2 probabilité d’acceptation exp −J(x(t+1) ) ρ(x(t+1) , x(t) ) = ... exp −J(x(t) ) exp − τ12 x(t) − x(t+1) − τ 2 J(x(t+1) ) 2 ... exp − τ12 x(t+1) − x(t) − τ 2 J(x(t) ) 2 Séminaire BigMC, mars 2011 18 / 26
  • 19. Algorithme de Langevin Cas particulier : générer un échantillon x ∼ N Q−1 B, Q−1 , avec K K t −1 t −1 Q= Mk Rk Mk , B= Mk Rk µk k =1 k =1 π(x) ∝ exp {−J(x)}, avec K 1 t t−1 t J(x) = µk − Mk x Rk µk − Mk x 2 k =1 J(x) = Qx − B Échantillon candidat τ xp = xc − (Qxc − B) + ε, ε ∼ N (0, τ 2 I) 2 Séminaire BigMC, mars 2011 19 / 26
  • 20. Algorithme PO (1 étape de descente) Critère perturbé ζ k ∼ N (µk , Rk ), ∀k = 1, . . . K K ˜ 1 −1 J(x) = (ζ k − Mk x)t Rk (ζ k − Mk x) 2 k =1 ˜ J(x) = Qx − B + ε = J(x) + ε avec ε ∼ N (0, Q) Échantillon candidat xp = xc − τ (Qxc − B) + ε, ε ∼ N (0, τ 2 Q) Séminaire BigMC, mars 2011 20 / 26
  • 21. Algorithme PO (1 étape de descente) Probabilité d’acceptation ρ(xp , xc ) = exp − xt Qxp − xt Qxc − 2B t (xp − xc ) ... p c 1 − (xp − xc )t (xp + xc − 2Q−1 B) τ Nécessite le calcul de Q−1 B, i.e. la moyenne de la loi cible. Dans le cas particulier où la loi cible est N (0, Q−1 ), alors l’algorithme de Hastings Metropolis est utilsable. Séminaire BigMC, mars 2011 21 / 26
  • 22. Convergence de la marche aléatoire Loi cible x ∼ N (Q−1 B, Q−1 ) Processus de marche aléatoire x(t+1) = x(t) − τ (Qx(t) − B) + εt , εt ∼ N (0, τ 2 Q) Proposition La loi invariante du processus précédent est N (µ, R), avec µ = Q−1 B R = τ (2I − τ Q)−1 Un exemple qui montre que la loi invariante du processus de Langevin discrétisé est différente de celle du processus continu. Ce processus peut donner un estimateur de la moyenne cible. Séminaire BigMC, mars 2011 22 / 26
  • 23. Convergence de la marche aléatoire moyenne µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B variance R telle que R = (I − τ Q)R(I − τ Q) + τ 2 Q Prenons R = τ (2I − τ Q)−1 (I − τ Q)R = (2I − τ Q)R − R = τ I − R ⇒ (I − τ Q)R(I − τ Q) = (τ I − R)(I − τ Q) = τ (I − τ Q) − R(I − τ Q) = τ I − τ 2 Q − R(2I − τ Q) + R = R − τ 2Q Séminaire BigMC, mars 2011 23 / 26
  • 24. Marche aléatoire adaptée Loi cible x ∼ N (Q−1 B, Q−1 ) Processus de marche aléatoire x(t+1) = x(t) − τ (Qx(t) − B) + ε(t) , objectif : trouver la variance de ε(t) telle que la loi invariante de la marche aléatoire soit la loi cible. Proposition Si ε(t) ∼ N (0, τ (2I − τ Q)), Alors la marche aléatoire définie par x(t+1) = x(t) − τ (Qx(t) − B) + ε(t) admet pour loi invariante la loi N (Q−1 B, Q−1 ) Séminaire BigMC, mars 2011 24 / 26
  • 25. Marche aléatoire adaptée moyenne µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B variance R telle que R = (I − τ Q)R(I − τ Q) + 2τ I − τ 2 Q ⇒ τ 2 QRQ − τ QR − τ RQ + 2τ I − τ 2 Q = 0 R = Q−1 est solution. Séminaire BigMC, mars 2011 25 / 26
  • 26. Conclusion et perspectives Communication : Journées de statistiques (Marseilles 2010) Article court pour IEEE Signal Processing Letter Perspectives Étude de convergence du maximum numérique Poursuite vers un algorithme « allégé » et étude de convergence Communication vers la communauté statistique Séminaire BigMC, mars 2011 26 / 26