SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
Échantillonnage de champs gaussiens de grande
                        dimension

         Olivier Féron1 & François Orieux2 & Jean-François Giovannelli3

              1   EDF R&D et Laboratoire de Finance des Marchés de l’Énergie, Université
                  Paris-Dauphine, Place du Maréchal de Lattre de Tassigny, 75775 Paris,
                                     olivier-2.feron@edf.fr.
     2   Laboratoire des Signaux et Systèmes (CNRS – SUPELEC – Univ. Paris-Sud 11) SUPELEC,
                            Plateau de Moulon, 91192 Gif-sur-Yvette Cedex,
                                     orieux@lss.supelec.fr.
              3   Laboratoire d’Intégration du Matériau au Système, Équipe Signal-Image,
                            Université de Bordeaux 1, 33405 Talence, France,
                                       Giova@IMS-Bordeaux.fr.




Séminaire BigMC, mars 2011                                                                    1 / 26
Sommaire



          Introduction : contexte applicatif


          Algorithme de Perturbation-Optimisation


          Illustration en super-résolution d’image


          Travaux en cours
          Conclusions et perspectives




Séminaire BigMC, mars 2011                           2 / 26
Résolution de problèmes inverses dans un cadre
  bayésien

          Contexte :
                Modèle direct linéaire y = Hx + b
                H dépend de θ éventuellement inconnu

                Lois a priori sur b et x gaussiennes conditionnellement θ

          Inversion :
                Estimer conjointement x et θ à partir de p(x, θ|y)

                p(x, θ|y) difficile à manipuler

                Approche possible : échantillonneur de Gibbs
                =⇒ problème d’échantillonnage de p(x|θ, y)




Séminaire BigMC, mars 2011                                                  3 / 26
Échantillonnage de champ gaussien


          p(x|θ, y) est gaussienne de matrice de covariance
                dépendant de θ et H
                non creuse en général
                de très grande dimension (le nombre de pixel de x)

          Méthodes d’échantillonnage existantes :
                Échantillonnage pixel par pixel
                Algorithme de Hastings-Metropolis
                Échantillonnage par FFT (si H est circulant)


   Contribution
   Méthode d’échantillonnage par un algorithme de type
   Perturbation-Optimisation, valable quel que soit H.



Séminaire BigMC, mars 2011                                           4 / 26
Loi a posteriori conditionnelle
          Modèle direct : y = Hx + b

          Hypothèses :
             H linéaire (dépendant de θ)
             b|θ ∼ N (0, Rb )
             x|θ ∼ N (mx , Rx )

          Loi a posteriori p(x|θ, y) ∼ N (mpost , Rx )
                                           x
                                                   post

                                                         −1
                          post            −1     −1
                         Rx      =   H t Rb H + Rx
                                              −1     −1
                         mpost
                          x
                                    post
                                 = Rx    H t Rb y + Rx mx


          mpost est le minimum d’un critère quadratique :
           x

                             mpost
                              x      = arg min {J(x|y, mx , θ)}
                                             x
                                                  2                 2
                    J(x|y, mx , θ)   =   y − Hx   Rb−1   + x − mx   Rx−1



Séminaire BigMC, mars 2011                                                 5 / 26
Perturbation de critère

          Tirage aléatoire indépendant suivant les lois a priori

                                           y ∼ N (y, Rb )
                                         mx ∼ N (mx , Rx )

          Minimiseur :

                                x
                                ˆ    = arg min {J(x|y, mx , θ)}
                                              x
                                                   2                 2
                    J(x|y, mx , θ)   =    y − Hx   Rb−1   + x − mx   Rx−1




                                     post      −1     −1
                                x = Rx
                                ˆ         H t Rb y + Rx mx


   Proposition

                                     x ∼ N mpost , Rx
                                     ˆ      x
                                                    post



Séminaire BigMC, mars 2011                                                  6 / 26
Preuve
                                      post      −1     −1
                                 x = Rx
                                 ˆ         H t Rb y + Rx mx

          Moyenne de x :
                     ˆ
                        E [x] = Rx
                           ˆ     post
                                        H t Rb E[y] + Rx E[mx ] = mpost
                                             −1        −1
                                                                   x



          Covariance de x :
                        ˆ
   E[xxt ] = Rx E
                                                                     t
              post                −1     −1            −1     −1          post
     ˆˆ                      H t Rb y + Rx mx     H t Rb y + Rx mx       Rx

             = Rx H t Rb E y y t Rb H + Rx E mx mtx Rx Rx
                post   −1         −1     −1          −1 post


                post   −1             −1     −1                −1 post
             = Rx H t Rb (yy t + Rb )Rb H + Rx (mx mx t + Rx )Rx Rx

             = E [x] E [x] + Rx
                             tpost      −1     −1 post
                  ˆ     ˆ          H t Rb H + Rx Rx
             = E [x] E [x] + Rx
                             tpost
                  ˆ     ˆ

                                           V[x] = Rx
                                             ˆ     post



Séminaire BigMC, mars 2011                                                       7 / 26
Algorithme de Perturbation - Optimisation

          Objectif : tirer un échantillon x ∼ N mpost , Rx
                                          ˆ      x
                                                         post



   Algorithme proposé

          Étape P (perturbation) : tirage de y et mx indépendamment suivant

                                        y ∼ N (y, Rb )
                                     mx ∼ N (mx , Rx )

          Étape O (optimisation) : minimisation du critère

                                x = arg min {J(x|y, mx , θ)}
                                ˆ
                                          x


          Conditions d’utilisation
                lois a priori facilement échantillonnables
                lois a priori gaussiennes conditionnellement à θ (lois
                gaussiennes, modèles à variable cachée,...)

Séminaire BigMC, mars 2011                                                    8 / 26
Applications

          Algorithme simple à mettre en œuvre
                Échantillonnage de bruits gaussiens
                Optimisation d’un critère quadratique


          Double intérêt : un seul algorithme pour atteindre la moyenne et
          la variance cibles

          Possibilité de relier
                les problèmes inverses de reconstruction d’images
                les méthodes MCMC


          Possibilité d’accéder
                à des méthodes d’estimation non-supervisées
                à la distribution entière des inconnues (pour des écart types, des
                intervalles de confiance,...)

Séminaire BigMC, mars 2011                                                           9 / 26
Applications : Tomographie micro-onde

          Reconstruction d’image en tomographie micro-onde

                               y = GS w + ε
                              w = XE inc + XGD w + η


                Modèle non linéaire reliant l’image d’intérêt x aux données
                observées y
                Modèle bilinéaire par rapport aux inconnues x et w (courants
                induits)
          Loi a priori de mélange de gaussiennes pour x

                                 p(x|z) = N (mz , Σz )

          Loi a posteriori conditionnellement gaussiennes pour
                l’image x
                les courants induits w

Séminaire BigMC, mars 2011                                                     10 / 26
Illustration en super-résolution d’image




                             Vraie image   Une image basse résolution

          Modèle direct : y = P Hx + b
             y ∈ RM : images de basse résolution −→ données
             H : matrice de convolution
             P : matrice de sous-échantillonnage
             x ∈ RN : image originale
          Hypothèses
                         −1
             b ∼ N (0, γb I)
                         −1
             x ∼ N (0, γx D t D), avec D opérateur laplacien.
             a priori de Jeffreys pour γb et γx

Séminaire BigMC, mars 2011                                              11 / 26
Illustration en super-résolution

          Loi a posteriori jointe :
                         M/2−1 (N−1)/2−1           γb                2           γx      2
 p(x, γb , γx |y) ∝ γb        γx           exp −      y − P Hx           exp −      Dx        .
                                                   2                              2

   Échantillonneur de Gibbs pour l’inversion non supervisée
      1   Initialisation avec k = 1 et x(0) = x0
                             (k )                                2
      2   Tirage de γb ∼ G 1 + M/2, 2/ y − P Hx(k −1)
                             (k )                                2
      3   Tirage de γx ∼ G 1 + (N − 1)/2, 2/ Dx(k −1)

      4   Tirage x(k ) ∼ N (mpost , Rx ) par perturbation-optimisation
                             x
                                     post


      5   k =k +1
      6   Retour en 2 ou arrêt si respect d’un critère d’arrêt


Séminaire BigMC, mars 2011                                                                   12 / 26
Illustration en super-résolution



          Réconstruction d’image




          Vraie image        Une image basse résolution   Image estimée




Séminaire BigMC, mars 2011                                                13 / 26
Illustration en super-résolution

          Comportement de la chaîne des hyperparamètres




                             γb                  γx


Séminaire BigMC, mars 2011                                14 / 26
Généralisation
          Objectif : générer un échantillon x ∼ N Q−1 B, Q−1 , avec
                                                              K
                                                                   t −1
                                           Q =                    Mk Rk Mk
                                                          k =1
                                                             K
                                                                        t −1
                                           B =                         Mk Rk µk
                                                                k =1

   Perturbation-Optimization algorithm
      1   Step P (Perturbation) : Générer les variables gaussiennes indépendantes
          ζ k , k = 1, . . . , K suivant

                                          ζ k ∼ N (µk , Rk ),           ∀k = 1, . . . K

      2   Step O (Optimisation) : Calculer le minimiseur x du critère
                                                         ˜
                                                          K
                                                                               −1
                             J(x|ζ 1 , . . . , ζ K ) =          (ζ k − Mk x)t Rk (ζ k − Mk x)
                                                         k =1

Séminaire BigMC, mars 2011                                                                      15 / 26
Travaux en cours



          Rapprochement avec l’algorithme de Langevin

          Idée sous-jacente : alléger l’algorithme d’optimisation par une
          simple descente de gradient.
                Algorithme de Hastings-Metropolis
                Processus discret de diffusion ayant pour loi invariante la loi cible


          Étude de convergence en prenant en compte le critère d’arrêt de
          l’algorithme d’optimisation.




Séminaire BigMC, mars 2011                                                          16 / 26
Algorithme de Langevin



          Processus de Langevin

                                           1
                                 dXt = −     J(Xt )dt + dBt
                                           2
          Loi stationnaire du processus : π(x) = C exp {−J(x)}
          En pratique : discrétisation du processus de diffusion

                                               τ2
                             x(t+1) = x(t) −      J x(t) + τ εt
                                               2
          Problème : la loi invariante n’est plus π.




Séminaire BigMC, mars 2011                                         17 / 26
Algorithme de Langevin


          Solution : considérer x(t+1) comme candidat dans un
          algorithme de Hastings-Metropolis.
                                                 τ
                             x(t+1) ∼ N x(t) −     J x(t)    ; τ 2I
                                                 2
          probabilité d’acceptation

                                      exp −J(x(t+1) )
            ρ(x(t+1) , x(t) ) =                       ...
                                       exp −J(x(t) )
                                      exp − τ12 x(t) − x(t+1) −   τ
                                                                  2       J(x(t+1) )      2
                                ...
                                       exp − τ12 x(t+1) − x(t) −      τ
                                                                      2    J(x(t) )   2




Séminaire BigMC, mars 2011                                                                    18 / 26
Algorithme de Langevin

          Cas particulier : générer un échantillon x ∼ N Q−1 B, Q−1 ,
          avec
                              K                                 K
                                     t −1                              t −1
                      Q=            Mk Rk Mk ,        B=              Mk Rk µk
                             k =1                              k =1

          π(x) ∝ exp {−J(x)}, avec
                                           K
                                      1                t   t−1      t
                        J(x) =                   µk − Mk x Rk µk − Mk x
                                      2
                                          k =1
                        J(x) = Qx − B

          Échantillon candidat
                                τ
                       xp = xc − (Qxc − B) + ε,                 ε ∼ N (0, τ 2 I)
                                2

Séminaire BigMC, mars 2011                                                         19 / 26
Algorithme PO (1 étape de descente)

          Critère perturbé

                              ζ k ∼ N (µk , Rk ),      ∀k = 1, . . . K

                                        K
                         ˜         1                         −1
                         J(x) =               (ζ k − Mk x)t Rk (ζ k − Mk x)
                                   2
                                       k =1
                         ˜
                         J(x) = Qx − B + ε
                              =        J(x) + ε

          avec
                                              ε ∼ N (0, Q)
          Échantillon candidat

                       xp = xc − τ (Qxc − B) + ε,            ε ∼ N (0, τ 2 Q)

Séminaire BigMC, mars 2011                                                      20 / 26
Algorithme PO (1 étape de descente)



          Probabilité d’acceptation

             ρ(xp , xc ) = exp     − xt Qxp − xt Qxc − 2B t (xp − xc ) ...
                                      p        c

                                    1
                                   − (xp − xc )t (xp + xc − 2Q−1 B)
                                    τ
          Nécessite le calcul de Q−1 B, i.e. la moyenne de la loi cible.
          Dans le cas particulier où la loi cible est N (0, Q−1 ), alors
          l’algorithme de Hastings Metropolis est utilsable.




Séminaire BigMC, mars 2011                                                   21 / 26
Convergence de la marche aléatoire
          Loi cible
                                   x ∼ N (Q−1 B, Q−1 )
          Processus de marche aléatoire

                  x(t+1) = x(t) − τ (Qx(t) − B) + εt ,   εt ∼ N (0, τ 2 Q)


   Proposition
   La loi invariante du processus précédent est N (µ, R), avec

                                 µ = Q−1 B
                                R = τ (2I − τ Q)−1

          Un exemple qui montre que la loi invariante du processus de
          Langevin discrétisé est différente de celle du processus continu.
          Ce processus peut donner un estimateur de la moyenne cible.
Séminaire BigMC, mars 2011                                                   22 / 26
Convergence de la marche aléatoire


          moyenne
                             µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B
          variance
          R telle que R = (I − τ Q)R(I − τ Q) + τ 2 Q
          Prenons R = τ (2I − τ Q)−1

                             (I − τ Q)R = (2I − τ Q)R − R = τ I − R
               ⇒ (I − τ Q)R(I − τ Q) = (τ I − R)(I − τ Q)
                                         = τ (I − τ Q) − R(I − τ Q)
                                         = τ I − τ 2 Q − R(2I − τ Q) + R
                                         = R − τ 2Q



Séminaire BigMC, mars 2011                                                 23 / 26
Marche aléatoire adaptée

          Loi cible
                                       x ∼ N (Q−1 B, Q−1 )
          Processus de marche aléatoire

                               x(t+1) = x(t) − τ (Qx(t) − B) + ε(t) ,

          objectif : trouver la variance de ε(t) telle que la loi invariante de
          la marche aléatoire soit la loi cible.

   Proposition
   Si ε(t) ∼ N (0, τ (2I − τ Q)), Alors la marche aléatoire définie par

                             x(t+1) = x(t) − τ (Qx(t) − B) + ε(t)

   admet pour loi invariante la loi N (Q−1 B, Q−1 )

Séminaire BigMC, mars 2011                                                    24 / 26
Marche aléatoire adaptée



          moyenne
                             µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B
          variance
          R telle que

                             R = (I − τ Q)R(I − τ Q) + 2τ I − τ 2 Q


                      ⇒      τ 2 QRQ − τ QR − τ RQ + 2τ I − τ 2 Q = 0

          R = Q−1 est solution.




Séminaire BigMC, mars 2011                                              25 / 26
Conclusion et perspectives


          Communication :
                Journées de statistiques (Marseilles 2010)
                Article court pour IEEE Signal Processing Letter



          Perspectives
                Étude de convergence du maximum numérique
                Poursuite vers un algorithme « allégé » et étude de convergence
                Communication vers la communauté statistique




Séminaire BigMC, mars 2011                                                    26 / 26

Weitere ähnliche Inhalte

Was ist angesagt?

Cours series fourier
Cours series fourierCours series fourier
Cours series fourierMehdi Maroun
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanMedalith Estrada
 
Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Florent Renucci
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non superviseeminiloka
 
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...tuxette
 
L'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiquesL'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiquesCharvetXavier
 
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM) Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM) tuxette
 
JIM-2022 3 Puissances et racines
JIM-2022 3 Puissances et racinesJIM-2022 3 Puissances et racines
JIM-2022 3 Puissances et racinesClément Boulonne
 
Une formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentiellesUne formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentiellesClément Boulonne
 
Introduction à ABC
Introduction à ABCIntroduction à ABC
Introduction à ABCRobin Ryder
 
Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Arthur Charpentier
 
Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1Christophe Palermo
 

Was ist angesagt? (20)

CM4 - Transformée en z
CM4 - Transformée en zCM4 - Transformée en z
CM4 - Transformée en z
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
Arma
ArmaArma
Arma
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non supervisee
 
D slides 11
D slides 11D slides 11
D slides 11
 
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
 
L'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiquesL'essentiel du programme de l'agrégation de mathématiques
L'essentiel du programme de l'agrégation de mathématiques
 
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM) Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
 
JIM-2022 3 Puissances et racines
JIM-2022 3 Puissances et racinesJIM-2022 3 Puissances et racines
JIM-2022 3 Puissances et racines
 
03-exemples.pdf
03-exemples.pdf03-exemples.pdf
03-exemples.pdf
 
Une formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentiellesUne formule de dérivation pour les fonctions exponentielles
Une formule de dérivation pour les fonctions exponentielles
 
Transformationdelaplace
TransformationdelaplaceTransformationdelaplace
Transformationdelaplace
 
Introduction à ABC
Introduction à ABCIntroduction à ABC
Introduction à ABC
 
Ben Arous2
Ben Arous2Ben Arous2
Ben Arous2
 
Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2
 
IA
IAIA
IA
 
Cr de physique cinematique
Cr de physique cinematiqueCr de physique cinematique
Cr de physique cinematique
 
Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1
 

Andere mochten auch

schéma regional de l'offre de soins
schéma regional de l'offre de soins schéma regional de l'offre de soins
schéma regional de l'offre de soins mohamed elmarnissi
 
SCoT_Lorient_projections démographiques
SCoT_Lorient_projections démographiquesSCoT_Lorient_projections démographiques
SCoT_Lorient_projections démographiquesAudéLor
 
20141128 demogr bxl_06_mv
20141128 demogr bxl_06_mv20141128 demogr bxl_06_mv
20141128 demogr bxl_06_mvSocDemoFB
 
Echantillon
EchantillonEchantillon
EchantillonKaiogan
 

Andere mochten auch (6)

1s prob
1s prob1s prob
1s prob
 
schéma regional de l'offre de soins
schéma regional de l'offre de soins schéma regional de l'offre de soins
schéma regional de l'offre de soins
 
SCoT_Lorient_projections démographiques
SCoT_Lorient_projections démographiquesSCoT_Lorient_projections démographiques
SCoT_Lorient_projections démographiques
 
20141128 demogr bxl_06_mv
20141128 demogr bxl_06_mv20141128 demogr bxl_06_mv
20141128 demogr bxl_06_mv
 
Echantillon
EchantillonEchantillon
Echantillon
 
échantillonnage
échantillonnageéchantillonnage
échantillonnage
 

Ähnlich wie Olivier Féron's talk at BigMC March 2011

M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0guest8b8369
 
Mathématiques - Fonction génératrice
Mathématiques - Fonction génératriceMathématiques - Fonction génératrice
Mathématiques - Fonction génératriceLoïc Dilly
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdfSidiAbdallah1
 
analyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfanalyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfSidiAbdallah1
 
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesEL-Hachemi Guerrout
 

Ähnlich wie Olivier Féron's talk at BigMC March 2011 (7)

M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0
 
Mathématiques - Fonction génératrice
Mathématiques - Fonction génératriceMathématiques - Fonction génératrice
Mathématiques - Fonction génératrice
 
Tadti crs3-n
Tadti crs3-nTadti crs3-n
Tadti crs3-n
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdf
 
Projet Bac3
Projet Bac3Projet Bac3
Projet Bac3
 
analyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfanalyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdf
 
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicales
 

Mehr von BigMC

Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...
Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...
Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...BigMC
 
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...BigMC
 
Stability of adaptive random-walk Metropolis algorithms
Stability of adaptive random-walk Metropolis algorithmsStability of adaptive random-walk Metropolis algorithms
Stability of adaptive random-walk Metropolis algorithmsBigMC
 
"Monte-Carlo Tree Search for the game of Go"
"Monte-Carlo Tree Search for the game of Go""Monte-Carlo Tree Search for the game of Go"
"Monte-Carlo Tree Search for the game of Go"BigMC
 
Hedibert Lopes' talk at BigMC
Hedibert Lopes' talk at  BigMCHedibert Lopes' talk at  BigMC
Hedibert Lopes' talk at BigMCBigMC
 
Andreas Eberle
Andreas EberleAndreas Eberle
Andreas EberleBigMC
 
Olivier Cappé's talk at BigMC March 2011
Olivier Cappé's talk at BigMC March 2011Olivier Cappé's talk at BigMC March 2011
Olivier Cappé's talk at BigMC March 2011BigMC
 
Estimation de copules, une approche bayésienne
Estimation de copules, une approche bayésienneEstimation de copules, une approche bayésienne
Estimation de copules, une approche bayésienneBigMC
 
Comparing estimation algorithms for block clustering models
Comparing estimation algorithms for block clustering modelsComparing estimation algorithms for block clustering models
Comparing estimation algorithms for block clustering modelsBigMC
 
Computation of the marginal likelihood
Computation of the marginal likelihoodComputation of the marginal likelihood
Computation of the marginal likelihoodBigMC
 
Learning spline-based curve models (Laure Amate)
Learning spline-based curve models (Laure Amate)Learning spline-based curve models (Laure Amate)
Learning spline-based curve models (Laure Amate)BigMC
 
Omiros' talk on the Bernoulli factory problem
Omiros' talk on the  Bernoulli factory problemOmiros' talk on the  Bernoulli factory problem
Omiros' talk on the Bernoulli factory problemBigMC
 

Mehr von BigMC (12)

Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...
Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...
Anisotropic Metropolis Adjusted Langevin Algorithm: convergence and utility i...
 
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...
Dealing with intractability: Recent Bayesian Monte Carlo methods for dealing ...
 
Stability of adaptive random-walk Metropolis algorithms
Stability of adaptive random-walk Metropolis algorithmsStability of adaptive random-walk Metropolis algorithms
Stability of adaptive random-walk Metropolis algorithms
 
"Monte-Carlo Tree Search for the game of Go"
"Monte-Carlo Tree Search for the game of Go""Monte-Carlo Tree Search for the game of Go"
"Monte-Carlo Tree Search for the game of Go"
 
Hedibert Lopes' talk at BigMC
Hedibert Lopes' talk at  BigMCHedibert Lopes' talk at  BigMC
Hedibert Lopes' talk at BigMC
 
Andreas Eberle
Andreas EberleAndreas Eberle
Andreas Eberle
 
Olivier Cappé's talk at BigMC March 2011
Olivier Cappé's talk at BigMC March 2011Olivier Cappé's talk at BigMC March 2011
Olivier Cappé's talk at BigMC March 2011
 
Estimation de copules, une approche bayésienne
Estimation de copules, une approche bayésienneEstimation de copules, une approche bayésienne
Estimation de copules, une approche bayésienne
 
Comparing estimation algorithms for block clustering models
Comparing estimation algorithms for block clustering modelsComparing estimation algorithms for block clustering models
Comparing estimation algorithms for block clustering models
 
Computation of the marginal likelihood
Computation of the marginal likelihoodComputation of the marginal likelihood
Computation of the marginal likelihood
 
Learning spline-based curve models (Laure Amate)
Learning spline-based curve models (Laure Amate)Learning spline-based curve models (Laure Amate)
Learning spline-based curve models (Laure Amate)
 
Omiros' talk on the Bernoulli factory problem
Omiros' talk on the  Bernoulli factory problemOmiros' talk on the  Bernoulli factory problem
Omiros' talk on the Bernoulli factory problem
 

Olivier Féron's talk at BigMC March 2011

  • 1. Échantillonnage de champs gaussiens de grande dimension Olivier Féron1 & François Orieux2 & Jean-François Giovannelli3 1 EDF R&D et Laboratoire de Finance des Marchés de l’Énergie, Université Paris-Dauphine, Place du Maréchal de Lattre de Tassigny, 75775 Paris, olivier-2.feron@edf.fr. 2 Laboratoire des Signaux et Systèmes (CNRS – SUPELEC – Univ. Paris-Sud 11) SUPELEC, Plateau de Moulon, 91192 Gif-sur-Yvette Cedex, orieux@lss.supelec.fr. 3 Laboratoire d’Intégration du Matériau au Système, Équipe Signal-Image, Université de Bordeaux 1, 33405 Talence, France, Giova@IMS-Bordeaux.fr. Séminaire BigMC, mars 2011 1 / 26
  • 2. Sommaire Introduction : contexte applicatif Algorithme de Perturbation-Optimisation Illustration en super-résolution d’image Travaux en cours Conclusions et perspectives Séminaire BigMC, mars 2011 2 / 26
  • 3. Résolution de problèmes inverses dans un cadre bayésien Contexte : Modèle direct linéaire y = Hx + b H dépend de θ éventuellement inconnu Lois a priori sur b et x gaussiennes conditionnellement θ Inversion : Estimer conjointement x et θ à partir de p(x, θ|y) p(x, θ|y) difficile à manipuler Approche possible : échantillonneur de Gibbs =⇒ problème d’échantillonnage de p(x|θ, y) Séminaire BigMC, mars 2011 3 / 26
  • 4. Échantillonnage de champ gaussien p(x|θ, y) est gaussienne de matrice de covariance dépendant de θ et H non creuse en général de très grande dimension (le nombre de pixel de x) Méthodes d’échantillonnage existantes : Échantillonnage pixel par pixel Algorithme de Hastings-Metropolis Échantillonnage par FFT (si H est circulant) Contribution Méthode d’échantillonnage par un algorithme de type Perturbation-Optimisation, valable quel que soit H. Séminaire BigMC, mars 2011 4 / 26
  • 5. Loi a posteriori conditionnelle Modèle direct : y = Hx + b Hypothèses : H linéaire (dépendant de θ) b|θ ∼ N (0, Rb ) x|θ ∼ N (mx , Rx ) Loi a posteriori p(x|θ, y) ∼ N (mpost , Rx ) x post −1 post −1 −1 Rx = H t Rb H + Rx −1 −1 mpost x post = Rx H t Rb y + Rx mx mpost est le minimum d’un critère quadratique : x mpost x = arg min {J(x|y, mx , θ)} x 2 2 J(x|y, mx , θ) = y − Hx Rb−1 + x − mx Rx−1 Séminaire BigMC, mars 2011 5 / 26
  • 6. Perturbation de critère Tirage aléatoire indépendant suivant les lois a priori y ∼ N (y, Rb ) mx ∼ N (mx , Rx ) Minimiseur : x ˆ = arg min {J(x|y, mx , θ)} x 2 2 J(x|y, mx , θ) = y − Hx Rb−1 + x − mx Rx−1 post −1 −1 x = Rx ˆ H t Rb y + Rx mx Proposition x ∼ N mpost , Rx ˆ x post Séminaire BigMC, mars 2011 6 / 26
  • 7. Preuve post −1 −1 x = Rx ˆ H t Rb y + Rx mx Moyenne de x : ˆ E [x] = Rx ˆ post H t Rb E[y] + Rx E[mx ] = mpost −1 −1 x Covariance de x : ˆ E[xxt ] = Rx E t post −1 −1 −1 −1 post ˆˆ H t Rb y + Rx mx H t Rb y + Rx mx Rx = Rx H t Rb E y y t Rb H + Rx E mx mtx Rx Rx post −1 −1 −1 −1 post post −1 −1 −1 −1 post = Rx H t Rb (yy t + Rb )Rb H + Rx (mx mx t + Rx )Rx Rx = E [x] E [x] + Rx tpost −1 −1 post ˆ ˆ H t Rb H + Rx Rx = E [x] E [x] + Rx tpost ˆ ˆ V[x] = Rx ˆ post Séminaire BigMC, mars 2011 7 / 26
  • 8. Algorithme de Perturbation - Optimisation Objectif : tirer un échantillon x ∼ N mpost , Rx ˆ x post Algorithme proposé Étape P (perturbation) : tirage de y et mx indépendamment suivant y ∼ N (y, Rb ) mx ∼ N (mx , Rx ) Étape O (optimisation) : minimisation du critère x = arg min {J(x|y, mx , θ)} ˆ x Conditions d’utilisation lois a priori facilement échantillonnables lois a priori gaussiennes conditionnellement à θ (lois gaussiennes, modèles à variable cachée,...) Séminaire BigMC, mars 2011 8 / 26
  • 9. Applications Algorithme simple à mettre en œuvre Échantillonnage de bruits gaussiens Optimisation d’un critère quadratique Double intérêt : un seul algorithme pour atteindre la moyenne et la variance cibles Possibilité de relier les problèmes inverses de reconstruction d’images les méthodes MCMC Possibilité d’accéder à des méthodes d’estimation non-supervisées à la distribution entière des inconnues (pour des écart types, des intervalles de confiance,...) Séminaire BigMC, mars 2011 9 / 26
  • 10. Applications : Tomographie micro-onde Reconstruction d’image en tomographie micro-onde y = GS w + ε w = XE inc + XGD w + η Modèle non linéaire reliant l’image d’intérêt x aux données observées y Modèle bilinéaire par rapport aux inconnues x et w (courants induits) Loi a priori de mélange de gaussiennes pour x p(x|z) = N (mz , Σz ) Loi a posteriori conditionnellement gaussiennes pour l’image x les courants induits w Séminaire BigMC, mars 2011 10 / 26
  • 11. Illustration en super-résolution d’image Vraie image Une image basse résolution Modèle direct : y = P Hx + b y ∈ RM : images de basse résolution −→ données H : matrice de convolution P : matrice de sous-échantillonnage x ∈ RN : image originale Hypothèses −1 b ∼ N (0, γb I) −1 x ∼ N (0, γx D t D), avec D opérateur laplacien. a priori de Jeffreys pour γb et γx Séminaire BigMC, mars 2011 11 / 26
  • 12. Illustration en super-résolution Loi a posteriori jointe : M/2−1 (N−1)/2−1 γb 2 γx 2 p(x, γb , γx |y) ∝ γb γx exp − y − P Hx exp − Dx . 2 2 Échantillonneur de Gibbs pour l’inversion non supervisée 1 Initialisation avec k = 1 et x(0) = x0 (k ) 2 2 Tirage de γb ∼ G 1 + M/2, 2/ y − P Hx(k −1) (k ) 2 3 Tirage de γx ∼ G 1 + (N − 1)/2, 2/ Dx(k −1) 4 Tirage x(k ) ∼ N (mpost , Rx ) par perturbation-optimisation x post 5 k =k +1 6 Retour en 2 ou arrêt si respect d’un critère d’arrêt Séminaire BigMC, mars 2011 12 / 26
  • 13. Illustration en super-résolution Réconstruction d’image Vraie image Une image basse résolution Image estimée Séminaire BigMC, mars 2011 13 / 26
  • 14. Illustration en super-résolution Comportement de la chaîne des hyperparamètres γb γx Séminaire BigMC, mars 2011 14 / 26
  • 15. Généralisation Objectif : générer un échantillon x ∼ N Q−1 B, Q−1 , avec K t −1 Q = Mk Rk Mk k =1 K t −1 B = Mk Rk µk k =1 Perturbation-Optimization algorithm 1 Step P (Perturbation) : Générer les variables gaussiennes indépendantes ζ k , k = 1, . . . , K suivant ζ k ∼ N (µk , Rk ), ∀k = 1, . . . K 2 Step O (Optimisation) : Calculer le minimiseur x du critère ˜ K −1 J(x|ζ 1 , . . . , ζ K ) = (ζ k − Mk x)t Rk (ζ k − Mk x) k =1 Séminaire BigMC, mars 2011 15 / 26
  • 16. Travaux en cours Rapprochement avec l’algorithme de Langevin Idée sous-jacente : alléger l’algorithme d’optimisation par une simple descente de gradient. Algorithme de Hastings-Metropolis Processus discret de diffusion ayant pour loi invariante la loi cible Étude de convergence en prenant en compte le critère d’arrêt de l’algorithme d’optimisation. Séminaire BigMC, mars 2011 16 / 26
  • 17. Algorithme de Langevin Processus de Langevin 1 dXt = − J(Xt )dt + dBt 2 Loi stationnaire du processus : π(x) = C exp {−J(x)} En pratique : discrétisation du processus de diffusion τ2 x(t+1) = x(t) − J x(t) + τ εt 2 Problème : la loi invariante n’est plus π. Séminaire BigMC, mars 2011 17 / 26
  • 18. Algorithme de Langevin Solution : considérer x(t+1) comme candidat dans un algorithme de Hastings-Metropolis. τ x(t+1) ∼ N x(t) − J x(t) ; τ 2I 2 probabilité d’acceptation exp −J(x(t+1) ) ρ(x(t+1) , x(t) ) = ... exp −J(x(t) ) exp − τ12 x(t) − x(t+1) − τ 2 J(x(t+1) ) 2 ... exp − τ12 x(t+1) − x(t) − τ 2 J(x(t) ) 2 Séminaire BigMC, mars 2011 18 / 26
  • 19. Algorithme de Langevin Cas particulier : générer un échantillon x ∼ N Q−1 B, Q−1 , avec K K t −1 t −1 Q= Mk Rk Mk , B= Mk Rk µk k =1 k =1 π(x) ∝ exp {−J(x)}, avec K 1 t t−1 t J(x) = µk − Mk x Rk µk − Mk x 2 k =1 J(x) = Qx − B Échantillon candidat τ xp = xc − (Qxc − B) + ε, ε ∼ N (0, τ 2 I) 2 Séminaire BigMC, mars 2011 19 / 26
  • 20. Algorithme PO (1 étape de descente) Critère perturbé ζ k ∼ N (µk , Rk ), ∀k = 1, . . . K K ˜ 1 −1 J(x) = (ζ k − Mk x)t Rk (ζ k − Mk x) 2 k =1 ˜ J(x) = Qx − B + ε = J(x) + ε avec ε ∼ N (0, Q) Échantillon candidat xp = xc − τ (Qxc − B) + ε, ε ∼ N (0, τ 2 Q) Séminaire BigMC, mars 2011 20 / 26
  • 21. Algorithme PO (1 étape de descente) Probabilité d’acceptation ρ(xp , xc ) = exp − xt Qxp − xt Qxc − 2B t (xp − xc ) ... p c 1 − (xp − xc )t (xp + xc − 2Q−1 B) τ Nécessite le calcul de Q−1 B, i.e. la moyenne de la loi cible. Dans le cas particulier où la loi cible est N (0, Q−1 ), alors l’algorithme de Hastings Metropolis est utilsable. Séminaire BigMC, mars 2011 21 / 26
  • 22. Convergence de la marche aléatoire Loi cible x ∼ N (Q−1 B, Q−1 ) Processus de marche aléatoire x(t+1) = x(t) − τ (Qx(t) − B) + εt , εt ∼ N (0, τ 2 Q) Proposition La loi invariante du processus précédent est N (µ, R), avec µ = Q−1 B R = τ (2I − τ Q)−1 Un exemple qui montre que la loi invariante du processus de Langevin discrétisé est différente de celle du processus continu. Ce processus peut donner un estimateur de la moyenne cible. Séminaire BigMC, mars 2011 22 / 26
  • 23. Convergence de la marche aléatoire moyenne µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B variance R telle que R = (I − τ Q)R(I − τ Q) + τ 2 Q Prenons R = τ (2I − τ Q)−1 (I − τ Q)R = (2I − τ Q)R − R = τ I − R ⇒ (I − τ Q)R(I − τ Q) = (τ I − R)(I − τ Q) = τ (I − τ Q) − R(I − τ Q) = τ I − τ 2 Q − R(2I − τ Q) + R = R − τ 2Q Séminaire BigMC, mars 2011 23 / 26
  • 24. Marche aléatoire adaptée Loi cible x ∼ N (Q−1 B, Q−1 ) Processus de marche aléatoire x(t+1) = x(t) − τ (Qx(t) − B) + ε(t) , objectif : trouver la variance de ε(t) telle que la loi invariante de la marche aléatoire soit la loi cible. Proposition Si ε(t) ∼ N (0, τ (2I − τ Q)), Alors la marche aléatoire définie par x(t+1) = x(t) − τ (Qx(t) − B) + ε(t) admet pour loi invariante la loi N (Q−1 B, Q−1 ) Séminaire BigMC, mars 2011 24 / 26
  • 25. Marche aléatoire adaptée moyenne µ = (I − τ Q)µ + τ B ⇒ µ = Q−1 B variance R telle que R = (I − τ Q)R(I − τ Q) + 2τ I − τ 2 Q ⇒ τ 2 QRQ − τ QR − τ RQ + 2τ I − τ 2 Q = 0 R = Q−1 est solution. Séminaire BigMC, mars 2011 25 / 26
  • 26. Conclusion et perspectives Communication : Journées de statistiques (Marseilles 2010) Article court pour IEEE Signal Processing Letter Perspectives Étude de convergence du maximum numérique Poursuite vers un algorithme « allégé » et étude de convergence Communication vers la communauté statistique Séminaire BigMC, mars 2011 26 / 26