SlideShare ist ein Scribd-Unternehmen logo
1 von 104
Downloaden Sie, um offline zu lesen
Apprentissage du quantron
Un problème d’optimisation non différentiable
                       Simon de Montigny
             sous la direction de Richard Labib, Ph.D.


          ´                 ´             ´
         Departement de mathematiques et genie industriel
                 ´                           ´
                 Ecole Polytechnique de Montreal




                                                         Apprentissage du quantron. April 3, 2008 – p. 1/?
Introduction

  Un réseau de neurones artificiels est un
  modèle simplifié du fonctionnement du
  cerveau.




                                    Apprentissage du quantron. April 3, 2008 – p. 2/?
Introduction

  Un réseau de neurones artificiels est un
  modèle simplifié du fonctionnement du
  cerveau.
                  Neurones et synapses




        Entrées                          Sorties




                                               Apprentissage du quantron. April 3, 2008 – p. 2/?
Introduction

  Un réseau de neurones artificiels est un
  modèle simplifié du fonctionnement du
  cerveau.
                    Un seul neurone




                    Transformation
                     des signaux




                      Paramètres




                                      Apprentissage du quantron. April 3, 2008 – p. 2/?
Introduction

  Les réseaux de neurones sont surtout utilisés
  comme outil statistique pour effectuer de la
  régression, de la classification et de
  l’estimation.




                                    Apprentissage du quantron. April 3, 2008 – p. 3/?
Introduction

  Les réseaux de neurones sont surtout utilisés
  comme outil statistique pour effectuer de la
  régression, de la classification et de
  l’estimation.
  Un réseau doit être entraîné pour pouvoir
  effectuer une certaine tâche.




                                     Apprentissage du quantron. April 3, 2008 – p. 3/?
Introduction

  Les réseaux de neurones sont surtout utilisés
  comme outil statistique pour effectuer de la
  régression, de la classification et de
  l’estimation.
  Un réseau doit être entraîné pour pouvoir
  effectuer une certaine tâche.
  Le premier algorithme d’apprentissage
  développé pour les réseaux de neurones
  s’appelle "rétro-propagation de l’erreur"
  (Rumelhart et al., 1986).


                                     Apprentissage du quantron. April 3, 2008 – p. 3/?
Introduction

              Rétro-propagation de l'erreur




                                                        Calcul de
                                                       l'erreur du
                                                          réseau



                                   Modification
                                      des
                                   paramètres




                                     Rétro-propagation de la partie de
                                     l'erreur due à chaque neurone de
          Modification                       la couche précédente
             des
          paramètres




                                                                         Apprentissage du quantron. April 3, 2008 – p. 4/?
Introduction

  Les algorithmes d’apprentissages sont
  fondés sur des méthodes d’optimisation.




                                    Apprentissage du quantron. April 3, 2008 – p. 5/?
Introduction

  Les algorithmes d’apprentissages sont
  fondés sur des méthodes d’optimisation.
  On minimise une fonction d’erreur qui
  caractérise la différence entre l’état actuel du
  réseau et l’état désiré.




                                       Apprentissage du quantron. April 3, 2008 – p. 5/?
Introduction

  Les algorithmes d’apprentissages sont
  fondés sur des méthodes d’optimisation.
  On minimise une fonction d’erreur qui
  caractérise la différence entre l’état actuel du
  réseau et l’état désiré.
  Les variables d’optimisation sont les
  paramètres du réseau.




                                       Apprentissage du quantron. April 3, 2008 – p. 5/?
Exemple : le perceptron

  Modèle de neurone :
  f (x1 , x2 ) = w1 x1 + w2 x2 + w3




                                      Apprentissage du quantron. April 3, 2008 – p. 6/?
Exemple : le perceptron

  Modèle de neurone :
  f (x1 , x2 ) = w1 x1 + w2 x2 + w3

           x1
                          v = w1x1
                                        y(v) = v
                             +w2x2
                              +w3
           x2



                         w1 , w2 , w3




                                                   Apprentissage du quantron. April 3, 2008 – p. 6/?
Exemple : le perceptron

  Tâche : reproduire la fonction
     (k) (k)
    x1 , x2    , d(k)
                        k=1,...,n




                                    Apprentissage du quantron. April 3, 2008 – p. 7/?
Exemple : le perceptron

  Tâche : reproduire la fonction
      (k) (k)
     x1 , x2    , d(k)
                             k=1,...,n

  Erreur des moindres carrés :
                         n                                  2
                                             (k) (k)
  E(w1 , w2 , w3 ) =           d(k) −    f (x1 , x2 )
                       k=1




                                                   Apprentissage du quantron. April 3, 2008 – p. 7/?
Exemple : le perceptron

  Tâche : reproduire la fonction
      (k) (k)
     x1 , x2      , d(k)
                               k=1,...,n

  Erreur des moindres carrés :
                           n                                  2
                                               (k) (k)
  E(w1 , w2 , w3 ) =             d(k) −    f (x1 , x2 )
                       k=1

  Descente du gradient :
                          ∂E
  wj (t + 1) = wj (t) − η ∂wj |w1 (t),w2 (t),w3 (t)




                                                     Apprentissage du quantron. April 3, 2008 – p. 7/?
Exemple : le perceptron

  Puisque f est linéaire, la fonction d’erreur est
  convexe et l’apprentissage converge vers un
  minimum global (Haykin, 1999).




                                       Apprentissage du quantron. April 3, 2008 – p. 8/?
Exemple : le perceptron

  Puisque f est linéaire, la fonction d’erreur est
  convexe et l’apprentissage converge vers un
  minimum global (Haykin, 1999).
  Un seul perceptron effectue une régression
  linéaire.




                                       Apprentissage du quantron. April 3, 2008 – p. 8/?
Exemple : le perceptron

  Puisque f est linéaire, la fonction d’erreur est
  convexe et l’apprentissage converge vers un
  minimum global (Haykin, 1999).
  Un seul perceptron effectue une régression
  linéaire.
  Mettre plusieurs perceptrons en réseau
  permet de faire de la régression non linéaire.




                                       Apprentissage du quantron. April 3, 2008 – p. 8/?
Exemple : le perceptron

  Puisque f est linéaire, la fonction d’erreur est
  convexe et l’apprentissage converge vers un
  minimum global (Haykin, 1999).
  Un seul perceptron effectue une régression
  linéaire.
  Mettre plusieurs perceptrons en réseau
  permet de faire de la régression non linéaire.
  L’apprentissage n’est plus garanti de
  converger vers un minimum global.


                                       Apprentissage du quantron. April 3, 2008 – p. 8/?
Que faire?

  Limitations des réseaux de perceptrons :




                                    Apprentissage du quantron. April 3, 2008 – p. 9/?
Que faire?

  Limitations des réseaux de perceptrons :
    Il n’y a pas de règle magique pour choisir
    la taille du réseau. Un réseau trop grand
    apprend lentement et généralise mal.




                                     Apprentissage du quantron. April 3, 2008 – p. 9/?
Que faire?

  Limitations des réseaux de perceptrons :
    Il n’y a pas de règle magique pour choisir
    la taille du réseau. Un réseau trop grand
    apprend lentement et généralise mal.
    Le perceptron est un modèle grossier des
    neurones biologiques.




                                     Apprentissage du quantron. April 3, 2008 – p. 9/?
Que faire?

  Limitations des réseaux de perceptrons :
    Il n’y a pas de règle magique pour choisir
    la taille du réseau. Un réseau trop grand
    apprend lentement et généralise mal.
    Le perceptron est un modèle grossier des
    neurones biologiques.
  Question : Comment peut-on obtenir un
  réseau plus puissant et de petite taille?




                                      Apprentissage du quantron. April 3, 2008 – p. 9/?
Que faire?

  Limitations des réseaux de perceptrons :
    Il n’y a pas de règle magique pour choisir
    la taille du réseau. Un réseau trop grand
    apprend lentement et généralise mal.
    Le perceptron est un modèle grossier des
    neurones biologiques.
  Question : Comment peut-on obtenir un
  réseau plus puissant et de petite taille?
  Solution : Améliorer le modèle de neurone
  utilisé.

                                      Apprentissage du quantron. April 3, 2008 – p. 9/?
Le quantron

 Le quantron est un modèle analytique,
 biologiquement réaliste qui intègre la diffusion
 des neurotransmetteurs (Labib, 1999).




                                     Apprentissage du quantron. April 3, 2008 – p. 10/?
Le quantron

 Le quantron est un modèle analytique,
 biologiquement réaliste qui intègre la diffusion
 des neurotransmetteurs (Labib, 1999).
                5




                4




                3

            z



                2




                1




                0
                    0   5   10   15   20
                            t




                                           Apprentissage du quantron. April 3, 2008 – p. 10/?
Le quantron

 Le quantron est un modèle analytique,
 biologiquement réaliste qui intègre la diffusion
 des neurotransmetteurs (Labib, 1999).




                                     Apprentissage du quantron. April 3, 2008 – p. 10/?
Le quantron

 Une entrée du quantron représente le délai
 entre les arrivées des vagues de neuro-
 transmetteurs émises par un autre neurone.




                                  Apprentissage du quantron. April 3, 2008 – p. 11/?
Le quantron

 Une entrée du quantron représente le délai
 entre les arrivées des vagues de neuro-
 transmetteurs émises par un autre neurone.




                                  Apprentissage du quantron. April 3, 2008 – p. 11/?
Le quantron

 L’opération effectuée par le quantron est une
 sommation des potentiels reçus :

               S(t) =         ϕi,j (t)
                        i,j




                                         Apprentissage du quantron. April 3, 2008 – p. 12/?
Le quantron

 L’opération effectuée par le quantron est une
 sommation des potentiels reçus :

               S(t) =         ϕi,j (t)
                        i,j

 i : indice des entrées
 j : indice des potentiels de chaque entrée




                                         Apprentissage du quantron. April 3, 2008 – p. 12/?
Le quantron

 L’opération effectuée par le quantron est une
 sommation des potentiels reçus :

                S(t) =         ϕi,j (t)
                         i,j

 i : indice des entrées
 j : indice des potentiels de chaque entrée
 S(t) est une fonction continue.




                                          Apprentissage du quantron. April 3, 2008 – p. 12/?
Le quantron

 L’opération effectuée par le quantron est une
 sommation des potentiels reçus :

                S(t) =         ϕi,j (t)
                         i,j

 i : indice des entrées
 j : indice des potentiels de chaque entrée
 S(t) est une fonction continue.
 S(t) = 0 en dehors de [0, T ], où T est la fin du
 dernier potentiel reçu.

                                          Apprentissage du quantron. April 3, 2008 – p. 12/?
Le quantron

 Les paramètres du quantron influencent le
 temps de début et de fin des potentiels, ainsi
 que leur amplitude.




                                    Apprentissage du quantron. April 3, 2008 – p. 13/?
Le quantron

 Les paramètres du quantron influencent le
 temps de début et de fin des potentiels, ainsi
 que leur amplitude.
 Si S(t) dépasse le seuil Γ, le quantron émet
 une vague de neurotransmetteurs. Sinon, il
 n’émet rien.




                                    Apprentissage du quantron. April 3, 2008 – p. 13/?
Le quantron

 Les paramètres du quantron influencent le
 temps de début et de fin des potentiels, ainsi
 que leur amplitude.
 Si S(t) dépasse le seuil Γ, le quantron émet
 une vague de neurotransmetteurs. Sinon, il
 n’émet rien.
 Nous allons aborder le problème
 d’apprentissage avec le modèle f = max S(t).




                                    Apprentissage du quantron. April 3, 2008 – p. 13/?
Objectifs généraux de la recherche

  Développer un algorithme d’apprentissage
  efficace pour le quantron.




                                   Apprentissage du quantron. April 3, 2008 – p. 14/?
Objectifs généraux de la recherche

  Développer un algorithme d’apprentissage
  efficace pour le quantron.
  Trouver une formule analytique adaptée à
  l’algorithme de rétro-propagation pour
  entraîner des réseaux de quantrons.




                                   Apprentissage du quantron. April 3, 2008 – p. 14/?
Objectifs généraux de la recherche

  Développer un algorithme d’apprentissage
  efficace pour le quantron.
  Trouver une formule analytique adaptée à
  l’algorithme de rétro-propagation pour
  entraîner des réseaux de quantrons.
  Évaluer les capacités et les limites du
  quantron comme outil de reconnaissance de
  formes et d’approximation de fonctions.




                                   Apprentissage du quantron. April 3, 2008 – p. 14/?
Problème préliminaire

  Le modèle du quantron est une fonction non
  différentiable de ses paramètres.
                                   n
      f (τ1 , . . . , τn ) = max         gk (t)u(t − τk )
                                   k=1




                                                 Apprentissage du quantron. April 3, 2008 – p. 15/?
Problème préliminaire

  Le modèle du quantron est une fonction non
  différentiable de ses paramètres.
                                   n
      f (τ1 , . . . , τn ) = max         gk (t)u(t − τk )
                                   k=1

  Deux principales approches à l’optimisation
  non différentiable (Elhedhli et al., 2001) :




                                                 Apprentissage du quantron. April 3, 2008 – p. 15/?
Problème préliminaire

  Le modèle du quantron est une fonction non
  différentiable de ses paramètres.
                                   n
      f (τ1 , . . . , τn ) = max         gk (t)u(t − τk )
                                   k=1

  Deux principales approches à l’optimisation
  non différentiable (Elhedhli et al., 2001) :
    Méthode des sous-gradient (Shor) et
    gradient généralisé (Clarke)


                                                 Apprentissage du quantron. April 3, 2008 – p. 15/?
Problème préliminaire

  Le modèle du quantron est une fonction non
  différentiable de ses paramètres.
                                   n
      f (τ1 , . . . , τn ) = max         gk (t)u(t − τk )
                                   k=1

  Deux principales approches à l’optimisation
  non différentiable (Elhedhli et al., 2001) :
    Méthode des sous-gradient (Shor) et
    gradient généralisé (Clarke)
    Approximation différentiable (Bertsekas)

                                                 Apprentissage du quantron. April 3, 2008 – p. 15/?
Problème préliminaire

  Nous allons développer :




                             Apprentissage du quantron. April 3, 2008 – p. 16/?
Problème préliminaire

  Nous allons développer :
    une approximation différentiable du
    maximum global de S(t)




                                    Apprentissage du quantron. April 3, 2008 – p. 16/?
Problème préliminaire

  Nous allons développer :
    une approximation différentiable du
    maximum global de S(t)
    une approximation différentiable de ϕ(t)




                                    Apprentissage du quantron. April 3, 2008 – p. 16/?
Approximation de max S(t)

  Approximation différentiable de max S(t) :
                            T
                                S(t)ecS(t)
       softmax S(t) =            T
                                                        dt
                        0       0    ecS(τ ) dτ




                                             Apprentissage du quantron. April 3, 2008 – p. 17/?
Approximation de max S(t)

  Approximation différentiable de max S(t) :
                            T
                                S(t)ecS(t)
       softmax S(t) =            T
                                                        dt
                        0       0    ecS(τ ) dτ

  Il s’agit d’une adaptation de la fonction
  softmax utilisée dans divers modèles de
  réseaux de neurones. (Peterson et
  Söderberg, 1989, Jacobs et al., 1991).



                                             Apprentissage du quantron. April 3, 2008 – p. 17/?
Approximation de max S(t)

  Approximation différentiable de max S(t) :
                            T
                                S(t)ecS(t)
       softmax S(t) =            T
                                                        dt
                        0       0    ecS(τ ) dτ

  Il s’agit d’une adaptation de la fonction
  softmax utilisée dans divers modèles de
  réseaux de neurones. (Peterson et
  Söderberg, 1989, Jacobs et al., 1991).
  Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)


                                             Apprentissage du quantron. April 3, 2008 – p. 17/?
Approximation de max S(t)

  Approximation différentiable de max S(t) :
                            T
                                S(t)ecS(t)
       softmax S(t) =            T
                                                        dt
                        0       0    ecS(τ ) dτ

  Il s’agit d’une adaptation de la fonction
  softmax utilisée dans divers modèles de
  réseaux de neurones. (Peterson et
  Söderberg, 1989, Jacobs et al., 1991).
  Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)
  Convergence : lim softmax S(t) = max S(t)
                 c→∞
                                             Apprentissage du quantron. April 3, 2008 – p. 17/?
Preuve de convergence

  Propriétés des fonctions de densité




                                    Apprentissage du quantron. April 3, 2008 – p. 18/?
Preuve de convergence

  Propriétés des fonctions de densité
      T     ecS(t)
     0    T cS(τ )      dt = 1
          0
            e      dτ




                                    Apprentissage du quantron. April 3, 2008 – p. 18/?
Preuve de convergence

  Propriétés des fonctions de densité
      T      ecS(t)
     0     T cS(τ )      dt = 1
           0
             e      dτ

       ecS(t)
     T cS(τ )      ≥0
     0
       e      dτ




                                    Apprentissage du quantron. April 3, 2008 – p. 18/?
Preuve de convergence

  Propriétés des fonctions de densité
       T     ecS(t)
      0    T cS(τ )      dt = 1
           0
             e      dτ

       ecS(t)
     T cS(τ )      ≥0
     0
       e      dτ

  softmax S(t) = E[S(Xc )] où Xc est un temps
  aléatoire choisi dans l’intervalle [0, T ] selon la
                                   ecS(t)
  fonction de densité fXc (t) = T cS(τ ) .
                                  0
                                      e   dτ




                                          Apprentissage du quantron. April 3, 2008 – p. 18/?
Preuve de convergence

  Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.




                                     Apprentissage du quantron. April 3, 2008 – p. 19/?
Preuve de convergence

  Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
  Si t∗ est fini, on a

                                 0   si t ∈ t∗ ,
                                          /
        lim fXc (t) = fX (t) =
       c→∞                       ∞   si t ∈ t∗ .




                                        Apprentissage du quantron. April 3, 2008 – p. 19/?
Preuve de convergence

  Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
  Si t∗ est fini, on a

                                  0       si t ∈ t∗ ,
                                               /
        lim fXc (t) = fX (t) =
       c→∞                        ∞       si t ∈ t∗ .

  Si t∗ est infini non dénombrable, on a

                                 0         si t ∈ t∗ ,
                                                /
       lim fXc (t) = fX (t) =      1
       c→∞
                                 µ(t∗ )    si t ∈ t∗ .



                                             Apprentissage du quantron. April 3, 2008 – p. 19/?
Preuve de convergence

  Xc converge en distribution vers X.




                                    Apprentissage du quantron. April 3, 2008 – p. 20/?
Preuve de convergence

  Xc converge en distribution vers X.
  S(·) continue et bornée ⇒
  E[S(Xc )] converge vers E[S(X)]
  (représentation de Skorokhod, convergence
                      ´
  dominée, e.g. Capinski et Kopp, 2005).




                                    Apprentissage du quantron. April 3, 2008 – p. 20/?
Preuve de convergence

  Xc converge en distribution vers X.
  S(·) continue et bornée ⇒
  E[S(Xc )] converge vers E[S(X)]
  (représentation de Skorokhod, convergence
                      ´
  dominée, e.g. Capinski et Kopp, 2005).
  limc→∞ softmax S(t) = E[S(X)] = max S(t)




                                    Apprentissage du quantron. April 3, 2008 – p. 20/?
Preuve de convergence

  Xc converge en distribution vers X.
  S(·) continue et bornée ⇒
  E[S(Xc )] converge vers E[S(X)]
  (représentation de Skorokhod, convergence
                      ´
  dominée, e.g. Capinski et Kopp, 2005).
  limc→∞ softmax S(t) = E[S(X)] = max S(t)
              d
  Remarque : dc E[S(Xc )] = V [S(Xc )] ≥ 0
  (passage de la dérivée sous l’intégrale)



                                     Apprentissage du quantron. April 3, 2008 – p. 20/?
Approximation de max S(t)

  S(t)
             5




             4




             3

         z



             2




             1




             0
                 0   5   10   15   20
                         t




                                        Apprentissage du quantron. April 3, 2008 – p. 21/?
Approximation de max S(t)

  S(t)




                        Apprentissage du quantron. April 3, 2008 – p. 21/?
Approximation de max S(t)

  fX1 (t)
            0,25




            0,20




            0,15




            0,10




            0,05




                   0   5   10   15   20

                           t




                                          Apprentissage du quantron. April 3, 2008 – p. 21/?
Approximation de max S(t)

  fX2 (t)

            0,4




            0,3




            0,2




            0,1




                  0   5   10   15   20

                          t




                                         Apprentissage du quantron. April 3, 2008 – p. 21/?
Approximation de max S(t)

  fX3 (t)

            0,6




            0,5




            0,4




            0,3




            0,2




            0,1




             0

                  0   5   10   15   20

                          t




                                         Apprentissage du quantron. April 3, 2008 – p. 21/?
Approximation de max S(t)

  fX25 (t)
             2,0




             1,5




             1,0




             0,5




              0

                   0   5   10   15   20

                           t




                                          Apprentissage du quantron. April 3, 2008 – p. 21/?
Approximation de max S(t)

  fX100 (t)


              3




              2




              1




              0
                  0   5   10   15   20
                          t




                                         Apprentissage du quantron. April 3, 2008 – p. 21/?
Limites de ce résultat

  L’application de softmax à une fonction
  continue est limitée par la capacité de
  résoudre l’intégrale analytiquement.




                                     Apprentissage du quantron. April 3, 2008 – p. 22/?
Limites de ce résultat

  L’application de softmax à une fonction
  continue est limitée par la capacité de
  résoudre l’intégrale analytiquement.
  L’intégrale se résout bien avec une
  approximation linéaire par morceaux de S(t).




                                     Apprentissage du quantron. April 3, 2008 – p. 22/?
Limites de ce résultat

  L’application de softmax à une fonction
  continue est limitée par la capacité de
  résoudre l’intégrale analytiquement.
  L’intégrale se résout bien avec une
  approximation linéaire par morceaux de S(t).
  L’implémentation informatique de cette
  formule demande une attention particulière.




                                     Apprentissage du quantron. April 3, 2008 – p. 22/?
Approximation de ϕ(t)

  Potentiels du quantron :
         
         wQ ln ω√                  si 0        ≤t<s
         
                 t
  ϕ(t) = w Q ln ω − Q
                   √         ln
                             √ ω    si s        ≤ t < 2s
                   s         t−s
         
           0
         
                                    sinon




                                    Apprentissage du quantron. April 3, 2008 – p. 23/?
Approximation de ϕ(t)

  Potentiels du quantron :
         
         wQ ln ω√                      si 0        ≤t<s
         
                 t
  ϕ(t) = w Q ln ω − Q
                   √          ln
                              √ ω       si s        ≤ t < 2s
                   s          t−s
         
           0
         
                                        sinon

  Q(·) : fonction de survie d’une loi N (0, 1)
  ω : largeur de la fente synaptique




                                        Apprentissage du quantron. April 3, 2008 – p. 23/?
Approximation de ϕ(t)

  Potentiels du quantron :
         
         wQ ln ω√                      si 0        ≤t<s
         
                 t
  ϕ(t) = w Q ln ω − Q
                   √          ln
                              √ ω       si s        ≤ t < 2s
                   s          t−s
         
           0
         
                                        sinon

  Q(·) : fonction de survie d’une loi N (0, 1)
  ω : largeur de la fente synaptique
  Paramètres :
  w (amplitude), s (temps d’arrêt)

                                        Apprentissage du quantron. April 3, 2008 – p. 23/?
Approximation de ϕ(t)

               ∂ϕ(t;s)
 Exemple de      ∂s       (avec t fixé à 1) :
       0,7




       0,6




       0,5




       0,4




       0,3




       0,2




       0,1




       0,0

              0,4   0,6    0,8       1,0   1,2   1,4

                                 s



                                                       Apprentissage du quantron. April 3, 2008 – p. 24/?
Approximation de ϕ(t)

  Représentation avec fonctions Heaviside :
                  √
   ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t − s)]
                      √              √
         + w Q ln ω/ s − Q ln ω/ t − s
         × [u(t − s) − u(t − 2s)]




                                    Apprentissage du quantron. April 3, 2008 – p. 25/?
Approximation de ϕ(t)

  Représentation avec fonctions Heaviside :
                  √
   ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t − s)]
                      √              √
         + w Q ln ω/ s − Q ln ω/ t − s
          × [u(t − s) − u(t − 2s)]

  La solution la plus simple serait de remplacer
  les fonctions Heaviside par des sigmoïdes :
                           1
                 σ(x) =
                        1 + e−ax

                                     Apprentissage du quantron. April 3, 2008 – p. 25/?
Approximation de ϕ(t)

  Problème:
                 √
   ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)]
                    √             √
         + w Q ln ω/ s − Q ln ω/ t − s
          × [σ(t − s) − σ(t − 2s)]

  est complexe pour t < s.




                                     Apprentissage du quantron. April 3, 2008 – p. 26/?
Approximation de ϕ(t)

  Problème:
                 √
   ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)]
                    √             √
         + w Q ln ω/ s − Q ln ω/ t − s
          × [σ(t − s) − σ(t − 2s)]

  est complexe pour t < s.
  Solution : Approximer le potentiel par une
  fonction en escalier, puis approximer les pas
  de la fonction en escalier par des sigmoïdes.

                                     Apprentissage du quantron. April 3, 2008 – p. 26/?
Approximation de ϕ(t)

  Approximation avec 5 évaluations

         0,4




         0,3




         0,2




         0,1




               0   1   2       3   4

                           t




                                       Apprentissage du quantron. April 3, 2008 – p. 27/?
Approximation de ϕ(t)

  Approximation avec 9 évaluations

         0,4




         0,3




         0,2




         0,1




               0   1   2       3   4

                           t




                                       Apprentissage du quantron. April 3, 2008 – p. 27/?
Approximation de ϕ(t)

  Approximation avec 13 évaluations

         0,4




         0,3




         0,2




         0,1




               0   1   2       3   4

                           t




                                       Apprentissage du quantron. April 3, 2008 – p. 27/?
Approximation de ϕ(t)

  Approximation avec 17 évaluations

         0,4




         0,3




         0,2




         0,1




               0   1   2       3   4

                           t




                                       Apprentissage du quantron. April 3, 2008 – p. 27/?
Approximation de ϕ(t)

  Approximation avec 21 évaluations

         0,4




         0,3




         0,2




         0,1




               0   1   2       3   4

                           t




                                       Apprentissage du quantron. April 3, 2008 – p. 27/?
Approximation de ϕ(t)

  Approximation avec 25 évaluations

         0,4




         0,3




         0,2




         0,1




               0   1   2       3   4

                           t




                                       Apprentissage du quantron. April 3, 2008 – p. 27/?
Approximation de ϕ(t)

  d : nombre de pas de l’approximation par
  fonction en escalier




                                    Apprentissage du quantron. April 3, 2008 – p. 28/?
Approximation de ϕ(t)

  d : nombre de pas de l’approximation par
  fonction en escalier
  Nous avons choisi a = 5d comme paramètre
                        2s
  de forme de la sigmoïde.




                                    Apprentissage du quantron. April 3, 2008 – p. 28/?
Approximation de ϕ(t)

  d : nombre de pas de l’approximation par
  fonction en escalier
  Nous avons choisi a = 5d comme paramètre
                        2s
  de forme de la sigmoïde.
  Ce choix donne une approximation "lisse".




                                    Apprentissage du quantron. April 3, 2008 – p. 28/?
Approximation de ϕ(t)

  d : nombre de pas de l’approximation par
  fonction en escalier
  Nous avons choisi a = 5d comme paramètre
                        2s
  de forme de la sigmoïde.
  Ce choix donne une approximation "lisse".
  Validation expérimentale par identification du
  minimum de l’erreur quadratique entre ϕ(t) et
  son approximation par sigmoïdes.



                                    Apprentissage du quantron. April 3, 2008 – p. 28/?
Approximation de ϕ(t)

  d : nombre de pas de l’approximation par
  fonction en escalier
  Nous avons choisi a = 5d comme paramètre
                        2s
  de forme de la sigmoïde.
  Ce choix donne une approximation "lisse".
  Validation expérimentale par identification du
  minimum de l’erreur quadratique entre ϕ(t) et
  son approximation par sigmoïdes.
  Un mauvais choix de a est néfaste.


                                       Apprentissage du quantron. April 3, 2008 – p. 28/?
Approximation de ϕ(t)

                                                     2d
  Approximation avec 9 évaluations, a =              2s

         0,4




         0,3




         0,2




         0,1




               0   1   2       3   4

                           t




                                       Apprentissage du quantron. April 3, 2008 – p. 29/?
Approximation de ϕ(t)

                                                     20d
  Approximation avec 9 évaluations, a =               2s

         0,4




         0,3




         0,2




         0,1




               0   1   2       3   4

                           t




                                       Apprentissage du quantron. April 3, 2008 – p. 29/?
Approximation de ϕ(t)

  L’approximation semble bonne, mais
  qu’arrive-t-il à la dérivée?




                                  Apprentissage du quantron. April 3, 2008 – p. 30/?
Approximation de ϕ(t)

  L’approximation semble bonne, mais
  qu’arrive-t-il à la dérivée?
       5d
  a=   2s
            0,9




            0,8




            0,7




            0,6




            0,5




            0,4




            0,3




            0,2




            0,1




            0,0

                  0,4   0,6   0,8       1,0   1,2   1,4

                                    s




                                                          Apprentissage du quantron. April 3, 2008 – p. 30/?
Approximation de ϕ(t)

  L’approximation semble bonne, mais
  qu’arrive-t-il à la dérivée?
       2d
  a=   2s
            0,7




            0,6




            0,5




            0,4




            0,3




            0,2




            0,1




            0,0

                  0,4   0,6   0,8       1,0   1,2   1,4

                                    s




                                                          Apprentissage du quantron. April 3, 2008 – p. 30/?
Approximation de ϕ(t)

  L’approximation semble bonne, mais
  qu’arrive-t-il à la dérivée?
       20d
  a=    2s

             3




             2




             1




             0

                 0,4   0,6   0,8       1,0   1,2   1,4

                                   s




                                                         Apprentissage du quantron. April 3, 2008 – p. 30/?
Approximation de ϕ(t)

  L’approximation semble bonne, mais
  qu’arrive-t-il à la dérivée?
  Le calcul de la dérivée est utilisable, mais la
  présence de pics dans la dérivée de
  l’approximation pourrait être problématique
  pour effectuer la descente du gradient.




                                       Apprentissage du quantron. April 3, 2008 – p. 30/?
En conclusion

  Les deux approximations différentiables
  présentées permettent d’aborder
  l’apprentissage du quantron.




                                    Apprentissage du quantron. April 3, 2008 – p. 31/?
En conclusion

  Les deux approximations différentiables
  présentées permettent d’aborder
  l’apprentissage du quantron.
  Les questions d’implémentation de ces
  méthodes sont primordiales.




                                    Apprentissage du quantron. April 3, 2008 – p. 31/?
En conclusion

  Les deux approximations différentiables
  présentées permettent d’aborder
  l’apprentissage du quantron.
  Les questions d’implémentation de ces
  méthodes sont primordiales.
  Suite des travaux :




                                    Apprentissage du quantron. April 3, 2008 – p. 31/?
En conclusion

  Les deux approximations différentiables
  présentées permettent d’aborder
  l’apprentissage du quantron.
  Les questions d’implémentation de ces
  méthodes sont primordiales.
  Suite des travaux :
    Développement d’une forme alternative de
    calcul de la réponse du quantron.




                                    Apprentissage du quantron. April 3, 2008 – p. 31/?
En conclusion

  Les deux approximations différentiables
  présentées permettent d’aborder
  l’apprentissage du quantron.
  Les questions d’implémentation de ces
  méthodes sont primordiales.
  Suite des travaux :
    Développement d’une forme alternative de
    calcul de la réponse du quantron.
    Application des résultats obtenus à
    l’apprentissage en classification et en
    régression.
                                    Apprentissage du quantron. April 3, 2008 – p. 31/?
Références

        ´
 M. Capinski et E. Kopp, Measure, Integral and Probability (2nd ed.). London :
 Springer-Verlag, 2005.
 S. Elhedhli, J.-L. Goffin et J.-P. Vial, "Nondifferentiable Optimization: Introduction,
 Applications and Algorithms", in Encyclopedia on Optimization, C. Floudas and P.
 Pardalos, editors, Kluwer Academic Publishers, 2001.
 S. Haykin, Neural networks : a comprehensive foundation (2nd ed.). Upper Saddle
 River, NJ : Prentice Hall, 1999.
 R.A. Jacobs, M.I. Jordan, S.J. Nowlan et G.E. Hinton, "Adaptative Mixture of Local
 Experts", Neural Computation, 3, 79-87, 1991.
 R. Labib, "New Single Neuron Structure for Solving Nonlinear Problems",
 Proceedings of the International Joint Conference on Neural Networks, 1,
 617-620, 1999.
 C. Peterson et B. Söderberg, "A New Method for Mapping Optimization Problems
 onto Neural Networks", International Journal of Neural Systems, 1, 3-22, 1989.
 D.E. Rumelhart, G.E. Hinton et R.J. Williams, "Learning representations by
 back-propagation of errors", Nature, 323, 533-536, 1986.

                                                                    Apprentissage du quantron. April 3, 2008 – p. 32/?

Weitere ähnliche Inhalte

Andere mochten auch

Paradigmes et paradoxes : introduction à la simulation en probabilités
Paradigmes et paradoxes : introduction à la simulation en probabilitésParadigmes et paradoxes : introduction à la simulation en probabilités
Paradigmes et paradoxes : introduction à la simulation en probabilitéssdemontigny
 
G Deces Du Bon Sens2
G Deces Du Bon Sens2G Deces Du Bon Sens2
G Deces Du Bon Sens2guest6b12b7
 
Sécuriser les parcours professionnels à travers une régulation des temps sur ...
Sécuriser les parcours professionnels à travers une régulation des temps sur ...Sécuriser les parcours professionnels à travers une régulation des temps sur ...
Sécuriser les parcours professionnels à travers une régulation des temps sur ...Anact
 
Utilisation Slideshare
Utilisation SlideshareUtilisation Slideshare
Utilisation SlidesharePolidoro F.
 
La pratique s'avère bien différente dans notre pays - Règles et lois (Dr P. G...
La pratique s'avère bien différente dans notre pays - Règles et lois (Dr P. G...La pratique s'avère bien différente dans notre pays - Règles et lois (Dr P. G...
La pratique s'avère bien différente dans notre pays - Règles et lois (Dr P. G...Brussels Heart Center
 
Découvrez 8 conseils imparables pour rentabiliser votre site e-commerce
Découvrez 8 conseils imparables pour rentabiliser votre site e-commerceDécouvrez 8 conseils imparables pour rentabiliser votre site e-commerce
Découvrez 8 conseils imparables pour rentabiliser votre site e-commerceSpeedinfo, éditeur du logiciel OpenSi
 
Testament St Thomas Me Winston Tuttle 20 Nov 09
Testament St Thomas   Me Winston Tuttle 20 Nov 09Testament St Thomas   Me Winston Tuttle 20 Nov 09
Testament St Thomas Me Winston Tuttle 20 Nov 09wince_tuttle
 
Facebook advertising valencia (Graham Hunt y Roger Swain)
Facebook advertising valencia (Graham Hunt y Roger Swain)Facebook advertising valencia (Graham Hunt y Roger Swain)
Facebook advertising valencia (Graham Hunt y Roger Swain)Foro JuanLuisVives
 

Andere mochten auch (20)

Paradigmes et paradoxes : introduction à la simulation en probabilités
Paradigmes et paradoxes : introduction à la simulation en probabilitésParadigmes et paradoxes : introduction à la simulation en probabilités
Paradigmes et paradoxes : introduction à la simulation en probabilités
 
Alejandra kollontai
Alejandra kollontaiAlejandra kollontai
Alejandra kollontai
 
Tutorial 3: Mobilisation Resources Session 2
Tutorial 3: Mobilisation Resources Session 2Tutorial 3: Mobilisation Resources Session 2
Tutorial 3: Mobilisation Resources Session 2
 
G Deces Du Bon Sens2
G Deces Du Bon Sens2G Deces Du Bon Sens2
G Deces Du Bon Sens2
 
Test Qi
Test QiTest Qi
Test Qi
 
Sécuriser les parcours professionnels à travers une régulation des temps sur ...
Sécuriser les parcours professionnels à travers une régulation des temps sur ...Sécuriser les parcours professionnels à travers une régulation des temps sur ...
Sécuriser les parcours professionnels à travers une régulation des temps sur ...
 
Les Quatre Bougies
Les Quatre BougiesLes Quatre Bougies
Les Quatre Bougies
 
Utilisation Slideshare
Utilisation SlideshareUtilisation Slideshare
Utilisation Slideshare
 
Saluuuut
SaluuuutSaluuuut
Saluuuut
 
hummmmmm
hummmmmmhummmmmm
hummmmmm
 
La pratique s'avère bien différente dans notre pays - Règles et lois (Dr P. G...
La pratique s'avère bien différente dans notre pays - Règles et lois (Dr P. G...La pratique s'avère bien différente dans notre pays - Règles et lois (Dr P. G...
La pratique s'avère bien différente dans notre pays - Règles et lois (Dr P. G...
 
Découvrez 8 conseils imparables pour rentabiliser votre site e-commerce
Découvrez 8 conseils imparables pour rentabiliser votre site e-commerceDécouvrez 8 conseils imparables pour rentabiliser votre site e-commerce
Découvrez 8 conseils imparables pour rentabiliser votre site e-commerce
 
Testament St Thomas Me Winston Tuttle 20 Nov 09
Testament St Thomas   Me Winston Tuttle 20 Nov 09Testament St Thomas   Me Winston Tuttle 20 Nov 09
Testament St Thomas Me Winston Tuttle 20 Nov 09
 
1 la force-du_papillon s
1 la force-du_papillon s1 la force-du_papillon s
1 la force-du_papillon s
 
#2. Montemor-o-Velho
#2. Montemor-o-Velho#2. Montemor-o-Velho
#2. Montemor-o-Velho
 
06 balafon février 2012
06 balafon février 201206 balafon février 2012
06 balafon février 2012
 
Baby2011 2tome
Baby2011 2tomeBaby2011 2tome
Baby2011 2tome
 
LA PAIX
LA PAIXLA PAIX
LA PAIX
 
Paris
ParisParis
Paris
 
Facebook advertising valencia (Graham Hunt y Roger Swain)
Facebook advertising valencia (Graham Hunt y Roger Swain)Facebook advertising valencia (Graham Hunt y Roger Swain)
Facebook advertising valencia (Graham Hunt y Roger Swain)
 

Ähnlich wie Apprentissage du quantron : un problème d\’optimisation non différentiable

prsentationrn-151107223049-lva1-app6891.pdf
prsentationrn-151107223049-lva1-app6891.pdfprsentationrn-151107223049-lva1-app6891.pdf
prsentationrn-151107223049-lva1-app6891.pdfdrajou
 
Rapport projet Master 2 - Intelligence Artificielle
Rapport projet Master 2 - Intelligence ArtificielleRapport projet Master 2 - Intelligence Artificielle
Rapport projet Master 2 - Intelligence ArtificielleYanis Marchand
 
TP_Réseaux_de_neurones_Safae_ElOmari.pdf
TP_Réseaux_de_neurones_Safae_ElOmari.pdfTP_Réseaux_de_neurones_Safae_ElOmari.pdf
TP_Réseaux_de_neurones_Safae_ElOmari.pdfSafaeElOmari
 
Les applications du Deep Learning
Les applications du Deep LearningLes applications du Deep Learning
Les applications du Deep LearningJedha Bootcamp
 
APPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAPPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAyoub Abraich
 

Ähnlich wie Apprentissage du quantron : un problème d\’optimisation non différentiable (8)

prsentationrn-151107223049-lva1-app6891.pdf
prsentationrn-151107223049-lva1-app6891.pdfprsentationrn-151107223049-lva1-app6891.pdf
prsentationrn-151107223049-lva1-app6891.pdf
 
Rapport projet Master 2 - Intelligence Artificielle
Rapport projet Master 2 - Intelligence ArtificielleRapport projet Master 2 - Intelligence Artificielle
Rapport projet Master 2 - Intelligence Artificielle
 
Réseaux de neurones
Réseaux de neurones Réseaux de neurones
Réseaux de neurones
 
TP_Réseaux_de_neurones_Safae_ElOmari.pdf
TP_Réseaux_de_neurones_Safae_ElOmari.pdfTP_Réseaux_de_neurones_Safae_ElOmari.pdf
TP_Réseaux_de_neurones_Safae_ElOmari.pdf
 
Les applications du Deep Learning
Les applications du Deep LearningLes applications du Deep Learning
Les applications du Deep Learning
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
 
APPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAPPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUE
 
Progression
ProgressionProgression
Progression
 

Apprentissage du quantron : un problème d\’optimisation non différentiable

  • 1. Apprentissage du quantron Un problème d’optimisation non différentiable Simon de Montigny sous la direction de Richard Labib, Ph.D. ´ ´ ´ Departement de mathematiques et genie industriel ´ ´ Ecole Polytechnique de Montreal Apprentissage du quantron. April 3, 2008 – p. 1/?
  • 2. Introduction Un réseau de neurones artificiels est un modèle simplifié du fonctionnement du cerveau. Apprentissage du quantron. April 3, 2008 – p. 2/?
  • 3. Introduction Un réseau de neurones artificiels est un modèle simplifié du fonctionnement du cerveau. Neurones et synapses Entrées Sorties Apprentissage du quantron. April 3, 2008 – p. 2/?
  • 4. Introduction Un réseau de neurones artificiels est un modèle simplifié du fonctionnement du cerveau. Un seul neurone Transformation des signaux Paramètres Apprentissage du quantron. April 3, 2008 – p. 2/?
  • 5. Introduction Les réseaux de neurones sont surtout utilisés comme outil statistique pour effectuer de la régression, de la classification et de l’estimation. Apprentissage du quantron. April 3, 2008 – p. 3/?
  • 6. Introduction Les réseaux de neurones sont surtout utilisés comme outil statistique pour effectuer de la régression, de la classification et de l’estimation. Un réseau doit être entraîné pour pouvoir effectuer une certaine tâche. Apprentissage du quantron. April 3, 2008 – p. 3/?
  • 7. Introduction Les réseaux de neurones sont surtout utilisés comme outil statistique pour effectuer de la régression, de la classification et de l’estimation. Un réseau doit être entraîné pour pouvoir effectuer une certaine tâche. Le premier algorithme d’apprentissage développé pour les réseaux de neurones s’appelle "rétro-propagation de l’erreur" (Rumelhart et al., 1986). Apprentissage du quantron. April 3, 2008 – p. 3/?
  • 8. Introduction Rétro-propagation de l'erreur Calcul de l'erreur du réseau Modification des paramètres Rétro-propagation de la partie de l'erreur due à chaque neurone de Modification la couche précédente des paramètres Apprentissage du quantron. April 3, 2008 – p. 4/?
  • 9. Introduction Les algorithmes d’apprentissages sont fondés sur des méthodes d’optimisation. Apprentissage du quantron. April 3, 2008 – p. 5/?
  • 10. Introduction Les algorithmes d’apprentissages sont fondés sur des méthodes d’optimisation. On minimise une fonction d’erreur qui caractérise la différence entre l’état actuel du réseau et l’état désiré. Apprentissage du quantron. April 3, 2008 – p. 5/?
  • 11. Introduction Les algorithmes d’apprentissages sont fondés sur des méthodes d’optimisation. On minimise une fonction d’erreur qui caractérise la différence entre l’état actuel du réseau et l’état désiré. Les variables d’optimisation sont les paramètres du réseau. Apprentissage du quantron. April 3, 2008 – p. 5/?
  • 12. Exemple : le perceptron Modèle de neurone : f (x1 , x2 ) = w1 x1 + w2 x2 + w3 Apprentissage du quantron. April 3, 2008 – p. 6/?
  • 13. Exemple : le perceptron Modèle de neurone : f (x1 , x2 ) = w1 x1 + w2 x2 + w3 x1 v = w1x1 y(v) = v +w2x2 +w3 x2 w1 , w2 , w3 Apprentissage du quantron. April 3, 2008 – p. 6/?
  • 14. Exemple : le perceptron Tâche : reproduire la fonction (k) (k) x1 , x2 , d(k) k=1,...,n Apprentissage du quantron. April 3, 2008 – p. 7/?
  • 15. Exemple : le perceptron Tâche : reproduire la fonction (k) (k) x1 , x2 , d(k) k=1,...,n Erreur des moindres carrés : n 2 (k) (k) E(w1 , w2 , w3 ) = d(k) − f (x1 , x2 ) k=1 Apprentissage du quantron. April 3, 2008 – p. 7/?
  • 16. Exemple : le perceptron Tâche : reproduire la fonction (k) (k) x1 , x2 , d(k) k=1,...,n Erreur des moindres carrés : n 2 (k) (k) E(w1 , w2 , w3 ) = d(k) − f (x1 , x2 ) k=1 Descente du gradient : ∂E wj (t + 1) = wj (t) − η ∂wj |w1 (t),w2 (t),w3 (t) Apprentissage du quantron. April 3, 2008 – p. 7/?
  • 17. Exemple : le perceptron Puisque f est linéaire, la fonction d’erreur est convexe et l’apprentissage converge vers un minimum global (Haykin, 1999). Apprentissage du quantron. April 3, 2008 – p. 8/?
  • 18. Exemple : le perceptron Puisque f est linéaire, la fonction d’erreur est convexe et l’apprentissage converge vers un minimum global (Haykin, 1999). Un seul perceptron effectue une régression linéaire. Apprentissage du quantron. April 3, 2008 – p. 8/?
  • 19. Exemple : le perceptron Puisque f est linéaire, la fonction d’erreur est convexe et l’apprentissage converge vers un minimum global (Haykin, 1999). Un seul perceptron effectue une régression linéaire. Mettre plusieurs perceptrons en réseau permet de faire de la régression non linéaire. Apprentissage du quantron. April 3, 2008 – p. 8/?
  • 20. Exemple : le perceptron Puisque f est linéaire, la fonction d’erreur est convexe et l’apprentissage converge vers un minimum global (Haykin, 1999). Un seul perceptron effectue une régression linéaire. Mettre plusieurs perceptrons en réseau permet de faire de la régression non linéaire. L’apprentissage n’est plus garanti de converger vers un minimum global. Apprentissage du quantron. April 3, 2008 – p. 8/?
  • 21. Que faire? Limitations des réseaux de perceptrons : Apprentissage du quantron. April 3, 2008 – p. 9/?
  • 22. Que faire? Limitations des réseaux de perceptrons : Il n’y a pas de règle magique pour choisir la taille du réseau. Un réseau trop grand apprend lentement et généralise mal. Apprentissage du quantron. April 3, 2008 – p. 9/?
  • 23. Que faire? Limitations des réseaux de perceptrons : Il n’y a pas de règle magique pour choisir la taille du réseau. Un réseau trop grand apprend lentement et généralise mal. Le perceptron est un modèle grossier des neurones biologiques. Apprentissage du quantron. April 3, 2008 – p. 9/?
  • 24. Que faire? Limitations des réseaux de perceptrons : Il n’y a pas de règle magique pour choisir la taille du réseau. Un réseau trop grand apprend lentement et généralise mal. Le perceptron est un modèle grossier des neurones biologiques. Question : Comment peut-on obtenir un réseau plus puissant et de petite taille? Apprentissage du quantron. April 3, 2008 – p. 9/?
  • 25. Que faire? Limitations des réseaux de perceptrons : Il n’y a pas de règle magique pour choisir la taille du réseau. Un réseau trop grand apprend lentement et généralise mal. Le perceptron est un modèle grossier des neurones biologiques. Question : Comment peut-on obtenir un réseau plus puissant et de petite taille? Solution : Améliorer le modèle de neurone utilisé. Apprentissage du quantron. April 3, 2008 – p. 9/?
  • 26. Le quantron Le quantron est un modèle analytique, biologiquement réaliste qui intègre la diffusion des neurotransmetteurs (Labib, 1999). Apprentissage du quantron. April 3, 2008 – p. 10/?
  • 27. Le quantron Le quantron est un modèle analytique, biologiquement réaliste qui intègre la diffusion des neurotransmetteurs (Labib, 1999). 5 4 3 z 2 1 0 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 10/?
  • 28. Le quantron Le quantron est un modèle analytique, biologiquement réaliste qui intègre la diffusion des neurotransmetteurs (Labib, 1999). Apprentissage du quantron. April 3, 2008 – p. 10/?
  • 29. Le quantron Une entrée du quantron représente le délai entre les arrivées des vagues de neuro- transmetteurs émises par un autre neurone. Apprentissage du quantron. April 3, 2008 – p. 11/?
  • 30. Le quantron Une entrée du quantron représente le délai entre les arrivées des vagues de neuro- transmetteurs émises par un autre neurone. Apprentissage du quantron. April 3, 2008 – p. 11/?
  • 31. Le quantron L’opération effectuée par le quantron est une sommation des potentiels reçus : S(t) = ϕi,j (t) i,j Apprentissage du quantron. April 3, 2008 – p. 12/?
  • 32. Le quantron L’opération effectuée par le quantron est une sommation des potentiels reçus : S(t) = ϕi,j (t) i,j i : indice des entrées j : indice des potentiels de chaque entrée Apprentissage du quantron. April 3, 2008 – p. 12/?
  • 33. Le quantron L’opération effectuée par le quantron est une sommation des potentiels reçus : S(t) = ϕi,j (t) i,j i : indice des entrées j : indice des potentiels de chaque entrée S(t) est une fonction continue. Apprentissage du quantron. April 3, 2008 – p. 12/?
  • 34. Le quantron L’opération effectuée par le quantron est une sommation des potentiels reçus : S(t) = ϕi,j (t) i,j i : indice des entrées j : indice des potentiels de chaque entrée S(t) est une fonction continue. S(t) = 0 en dehors de [0, T ], où T est la fin du dernier potentiel reçu. Apprentissage du quantron. April 3, 2008 – p. 12/?
  • 35. Le quantron Les paramètres du quantron influencent le temps de début et de fin des potentiels, ainsi que leur amplitude. Apprentissage du quantron. April 3, 2008 – p. 13/?
  • 36. Le quantron Les paramètres du quantron influencent le temps de début et de fin des potentiels, ainsi que leur amplitude. Si S(t) dépasse le seuil Γ, le quantron émet une vague de neurotransmetteurs. Sinon, il n’émet rien. Apprentissage du quantron. April 3, 2008 – p. 13/?
  • 37. Le quantron Les paramètres du quantron influencent le temps de début et de fin des potentiels, ainsi que leur amplitude. Si S(t) dépasse le seuil Γ, le quantron émet une vague de neurotransmetteurs. Sinon, il n’émet rien. Nous allons aborder le problème d’apprentissage avec le modèle f = max S(t). Apprentissage du quantron. April 3, 2008 – p. 13/?
  • 38. Objectifs généraux de la recherche Développer un algorithme d’apprentissage efficace pour le quantron. Apprentissage du quantron. April 3, 2008 – p. 14/?
  • 39. Objectifs généraux de la recherche Développer un algorithme d’apprentissage efficace pour le quantron. Trouver une formule analytique adaptée à l’algorithme de rétro-propagation pour entraîner des réseaux de quantrons. Apprentissage du quantron. April 3, 2008 – p. 14/?
  • 40. Objectifs généraux de la recherche Développer un algorithme d’apprentissage efficace pour le quantron. Trouver une formule analytique adaptée à l’algorithme de rétro-propagation pour entraîner des réseaux de quantrons. Évaluer les capacités et les limites du quantron comme outil de reconnaissance de formes et d’approximation de fonctions. Apprentissage du quantron. April 3, 2008 – p. 14/?
  • 41. Problème préliminaire Le modèle du quantron est une fonction non différentiable de ses paramètres. n f (τ1 , . . . , τn ) = max gk (t)u(t − τk ) k=1 Apprentissage du quantron. April 3, 2008 – p. 15/?
  • 42. Problème préliminaire Le modèle du quantron est une fonction non différentiable de ses paramètres. n f (τ1 , . . . , τn ) = max gk (t)u(t − τk ) k=1 Deux principales approches à l’optimisation non différentiable (Elhedhli et al., 2001) : Apprentissage du quantron. April 3, 2008 – p. 15/?
  • 43. Problème préliminaire Le modèle du quantron est une fonction non différentiable de ses paramètres. n f (τ1 , . . . , τn ) = max gk (t)u(t − τk ) k=1 Deux principales approches à l’optimisation non différentiable (Elhedhli et al., 2001) : Méthode des sous-gradient (Shor) et gradient généralisé (Clarke) Apprentissage du quantron. April 3, 2008 – p. 15/?
  • 44. Problème préliminaire Le modèle du quantron est une fonction non différentiable de ses paramètres. n f (τ1 , . . . , τn ) = max gk (t)u(t − τk ) k=1 Deux principales approches à l’optimisation non différentiable (Elhedhli et al., 2001) : Méthode des sous-gradient (Shor) et gradient généralisé (Clarke) Approximation différentiable (Bertsekas) Apprentissage du quantron. April 3, 2008 – p. 15/?
  • 45. Problème préliminaire Nous allons développer : Apprentissage du quantron. April 3, 2008 – p. 16/?
  • 46. Problème préliminaire Nous allons développer : une approximation différentiable du maximum global de S(t) Apprentissage du quantron. April 3, 2008 – p. 16/?
  • 47. Problème préliminaire Nous allons développer : une approximation différentiable du maximum global de S(t) une approximation différentiable de ϕ(t) Apprentissage du quantron. April 3, 2008 – p. 16/?
  • 48. Approximation de max S(t) Approximation différentiable de max S(t) : T S(t)ecS(t) softmax S(t) = T dt 0 0 ecS(τ ) dτ Apprentissage du quantron. April 3, 2008 – p. 17/?
  • 49. Approximation de max S(t) Approximation différentiable de max S(t) : T S(t)ecS(t) softmax S(t) = T dt 0 0 ecS(τ ) dτ Il s’agit d’une adaptation de la fonction softmax utilisée dans divers modèles de réseaux de neurones. (Peterson et Söderberg, 1989, Jacobs et al., 1991). Apprentissage du quantron. April 3, 2008 – p. 17/?
  • 50. Approximation de max S(t) Approximation différentiable de max S(t) : T S(t)ecS(t) softmax S(t) = T dt 0 0 ecS(τ ) dτ Il s’agit d’une adaptation de la fonction softmax utilisée dans divers modèles de réseaux de neurones. (Peterson et Söderberg, 1989, Jacobs et al., 1991). Bornes : min S(t) ≤ softmax S(t) ≤ max S(t) Apprentissage du quantron. April 3, 2008 – p. 17/?
  • 51. Approximation de max S(t) Approximation différentiable de max S(t) : T S(t)ecS(t) softmax S(t) = T dt 0 0 ecS(τ ) dτ Il s’agit d’une adaptation de la fonction softmax utilisée dans divers modèles de réseaux de neurones. (Peterson et Söderberg, 1989, Jacobs et al., 1991). Bornes : min S(t) ≤ softmax S(t) ≤ max S(t) Convergence : lim softmax S(t) = max S(t) c→∞ Apprentissage du quantron. April 3, 2008 – p. 17/?
  • 52. Preuve de convergence Propriétés des fonctions de densité Apprentissage du quantron. April 3, 2008 – p. 18/?
  • 53. Preuve de convergence Propriétés des fonctions de densité T ecS(t) 0 T cS(τ ) dt = 1 0 e dτ Apprentissage du quantron. April 3, 2008 – p. 18/?
  • 54. Preuve de convergence Propriétés des fonctions de densité T ecS(t) 0 T cS(τ ) dt = 1 0 e dτ ecS(t) T cS(τ ) ≥0 0 e dτ Apprentissage du quantron. April 3, 2008 – p. 18/?
  • 55. Preuve de convergence Propriétés des fonctions de densité T ecS(t) 0 T cS(τ ) dt = 1 0 e dτ ecS(t) T cS(τ ) ≥0 0 e dτ softmax S(t) = E[S(Xc )] où Xc est un temps aléatoire choisi dans l’intervalle [0, T ] selon la ecS(t) fonction de densité fXc (t) = T cS(τ ) . 0 e dτ Apprentissage du quantron. April 3, 2008 – p. 18/?
  • 56. Preuve de convergence Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}. Apprentissage du quantron. April 3, 2008 – p. 19/?
  • 57. Preuve de convergence Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}. Si t∗ est fini, on a 0 si t ∈ t∗ , / lim fXc (t) = fX (t) = c→∞ ∞ si t ∈ t∗ . Apprentissage du quantron. April 3, 2008 – p. 19/?
  • 58. Preuve de convergence Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}. Si t∗ est fini, on a 0 si t ∈ t∗ , / lim fXc (t) = fX (t) = c→∞ ∞ si t ∈ t∗ . Si t∗ est infini non dénombrable, on a 0 si t ∈ t∗ , / lim fXc (t) = fX (t) = 1 c→∞ µ(t∗ ) si t ∈ t∗ . Apprentissage du quantron. April 3, 2008 – p. 19/?
  • 59. Preuve de convergence Xc converge en distribution vers X. Apprentissage du quantron. April 3, 2008 – p. 20/?
  • 60. Preuve de convergence Xc converge en distribution vers X. S(·) continue et bornée ⇒ E[S(Xc )] converge vers E[S(X)] (représentation de Skorokhod, convergence ´ dominée, e.g. Capinski et Kopp, 2005). Apprentissage du quantron. April 3, 2008 – p. 20/?
  • 61. Preuve de convergence Xc converge en distribution vers X. S(·) continue et bornée ⇒ E[S(Xc )] converge vers E[S(X)] (représentation de Skorokhod, convergence ´ dominée, e.g. Capinski et Kopp, 2005). limc→∞ softmax S(t) = E[S(X)] = max S(t) Apprentissage du quantron. April 3, 2008 – p. 20/?
  • 62. Preuve de convergence Xc converge en distribution vers X. S(·) continue et bornée ⇒ E[S(Xc )] converge vers E[S(X)] (représentation de Skorokhod, convergence ´ dominée, e.g. Capinski et Kopp, 2005). limc→∞ softmax S(t) = E[S(X)] = max S(t) d Remarque : dc E[S(Xc )] = V [S(Xc )] ≥ 0 (passage de la dérivée sous l’intégrale) Apprentissage du quantron. April 3, 2008 – p. 20/?
  • 63. Approximation de max S(t) S(t) 5 4 3 z 2 1 0 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  • 64. Approximation de max S(t) S(t) Apprentissage du quantron. April 3, 2008 – p. 21/?
  • 65. Approximation de max S(t) fX1 (t) 0,25 0,20 0,15 0,10 0,05 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  • 66. Approximation de max S(t) fX2 (t) 0,4 0,3 0,2 0,1 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  • 67. Approximation de max S(t) fX3 (t) 0,6 0,5 0,4 0,3 0,2 0,1 0 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  • 68. Approximation de max S(t) fX25 (t) 2,0 1,5 1,0 0,5 0 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  • 69. Approximation de max S(t) fX100 (t) 3 2 1 0 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  • 70. Limites de ce résultat L’application de softmax à une fonction continue est limitée par la capacité de résoudre l’intégrale analytiquement. Apprentissage du quantron. April 3, 2008 – p. 22/?
  • 71. Limites de ce résultat L’application de softmax à une fonction continue est limitée par la capacité de résoudre l’intégrale analytiquement. L’intégrale se résout bien avec une approximation linéaire par morceaux de S(t). Apprentissage du quantron. April 3, 2008 – p. 22/?
  • 72. Limites de ce résultat L’application de softmax à une fonction continue est limitée par la capacité de résoudre l’intégrale analytiquement. L’intégrale se résout bien avec une approximation linéaire par morceaux de S(t). L’implémentation informatique de cette formule demande une attention particulière. Apprentissage du quantron. April 3, 2008 – p. 22/?
  • 73. Approximation de ϕ(t) Potentiels du quantron :  wQ ln ω√ si 0 ≤t<s   t ϕ(t) = w Q ln ω − Q √ ln √ ω si s ≤ t < 2s  s t−s  0  sinon Apprentissage du quantron. April 3, 2008 – p. 23/?
  • 74. Approximation de ϕ(t) Potentiels du quantron :  wQ ln ω√ si 0 ≤t<s   t ϕ(t) = w Q ln ω − Q √ ln √ ω si s ≤ t < 2s  s t−s  0  sinon Q(·) : fonction de survie d’une loi N (0, 1) ω : largeur de la fente synaptique Apprentissage du quantron. April 3, 2008 – p. 23/?
  • 75. Approximation de ϕ(t) Potentiels du quantron :  wQ ln ω√ si 0 ≤t<s   t ϕ(t) = w Q ln ω − Q √ ln √ ω si s ≤ t < 2s  s t−s  0  sinon Q(·) : fonction de survie d’une loi N (0, 1) ω : largeur de la fente synaptique Paramètres : w (amplitude), s (temps d’arrêt) Apprentissage du quantron. April 3, 2008 – p. 23/?
  • 76. Approximation de ϕ(t) ∂ϕ(t;s) Exemple de ∂s (avec t fixé à 1) : 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,4 0,6 0,8 1,0 1,2 1,4 s Apprentissage du quantron. April 3, 2008 – p. 24/?
  • 77. Approximation de ϕ(t) Représentation avec fonctions Heaviside : √ ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t − s)] √ √ + w Q ln ω/ s − Q ln ω/ t − s × [u(t − s) − u(t − 2s)] Apprentissage du quantron. April 3, 2008 – p. 25/?
  • 78. Approximation de ϕ(t) Représentation avec fonctions Heaviside : √ ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t − s)] √ √ + w Q ln ω/ s − Q ln ω/ t − s × [u(t − s) − u(t − 2s)] La solution la plus simple serait de remplacer les fonctions Heaviside par des sigmoïdes : 1 σ(x) = 1 + e−ax Apprentissage du quantron. April 3, 2008 – p. 25/?
  • 79. Approximation de ϕ(t) Problème: √ ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)] √ √ + w Q ln ω/ s − Q ln ω/ t − s × [σ(t − s) − σ(t − 2s)] est complexe pour t < s. Apprentissage du quantron. April 3, 2008 – p. 26/?
  • 80. Approximation de ϕ(t) Problème: √ ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)] √ √ + w Q ln ω/ s − Q ln ω/ t − s × [σ(t − s) − σ(t − 2s)] est complexe pour t < s. Solution : Approximer le potentiel par une fonction en escalier, puis approximer les pas de la fonction en escalier par des sigmoïdes. Apprentissage du quantron. April 3, 2008 – p. 26/?
  • 81. Approximation de ϕ(t) Approximation avec 5 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  • 82. Approximation de ϕ(t) Approximation avec 9 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  • 83. Approximation de ϕ(t) Approximation avec 13 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  • 84. Approximation de ϕ(t) Approximation avec 17 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  • 85. Approximation de ϕ(t) Approximation avec 21 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  • 86. Approximation de ϕ(t) Approximation avec 25 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  • 87. Approximation de ϕ(t) d : nombre de pas de l’approximation par fonction en escalier Apprentissage du quantron. April 3, 2008 – p. 28/?
  • 88. Approximation de ϕ(t) d : nombre de pas de l’approximation par fonction en escalier Nous avons choisi a = 5d comme paramètre 2s de forme de la sigmoïde. Apprentissage du quantron. April 3, 2008 – p. 28/?
  • 89. Approximation de ϕ(t) d : nombre de pas de l’approximation par fonction en escalier Nous avons choisi a = 5d comme paramètre 2s de forme de la sigmoïde. Ce choix donne une approximation "lisse". Apprentissage du quantron. April 3, 2008 – p. 28/?
  • 90. Approximation de ϕ(t) d : nombre de pas de l’approximation par fonction en escalier Nous avons choisi a = 5d comme paramètre 2s de forme de la sigmoïde. Ce choix donne une approximation "lisse". Validation expérimentale par identification du minimum de l’erreur quadratique entre ϕ(t) et son approximation par sigmoïdes. Apprentissage du quantron. April 3, 2008 – p. 28/?
  • 91. Approximation de ϕ(t) d : nombre de pas de l’approximation par fonction en escalier Nous avons choisi a = 5d comme paramètre 2s de forme de la sigmoïde. Ce choix donne une approximation "lisse". Validation expérimentale par identification du minimum de l’erreur quadratique entre ϕ(t) et son approximation par sigmoïdes. Un mauvais choix de a est néfaste. Apprentissage du quantron. April 3, 2008 – p. 28/?
  • 92. Approximation de ϕ(t) 2d Approximation avec 9 évaluations, a = 2s 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 29/?
  • 93. Approximation de ϕ(t) 20d Approximation avec 9 évaluations, a = 2s 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 29/?
  • 94. Approximation de ϕ(t) L’approximation semble bonne, mais qu’arrive-t-il à la dérivée? Apprentissage du quantron. April 3, 2008 – p. 30/?
  • 95. Approximation de ϕ(t) L’approximation semble bonne, mais qu’arrive-t-il à la dérivée? 5d a= 2s 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,4 0,6 0,8 1,0 1,2 1,4 s Apprentissage du quantron. April 3, 2008 – p. 30/?
  • 96. Approximation de ϕ(t) L’approximation semble bonne, mais qu’arrive-t-il à la dérivée? 2d a= 2s 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,4 0,6 0,8 1,0 1,2 1,4 s Apprentissage du quantron. April 3, 2008 – p. 30/?
  • 97. Approximation de ϕ(t) L’approximation semble bonne, mais qu’arrive-t-il à la dérivée? 20d a= 2s 3 2 1 0 0,4 0,6 0,8 1,0 1,2 1,4 s Apprentissage du quantron. April 3, 2008 – p. 30/?
  • 98. Approximation de ϕ(t) L’approximation semble bonne, mais qu’arrive-t-il à la dérivée? Le calcul de la dérivée est utilisable, mais la présence de pics dans la dérivée de l’approximation pourrait être problématique pour effectuer la descente du gradient. Apprentissage du quantron. April 3, 2008 – p. 30/?
  • 99. En conclusion Les deux approximations différentiables présentées permettent d’aborder l’apprentissage du quantron. Apprentissage du quantron. April 3, 2008 – p. 31/?
  • 100. En conclusion Les deux approximations différentiables présentées permettent d’aborder l’apprentissage du quantron. Les questions d’implémentation de ces méthodes sont primordiales. Apprentissage du quantron. April 3, 2008 – p. 31/?
  • 101. En conclusion Les deux approximations différentiables présentées permettent d’aborder l’apprentissage du quantron. Les questions d’implémentation de ces méthodes sont primordiales. Suite des travaux : Apprentissage du quantron. April 3, 2008 – p. 31/?
  • 102. En conclusion Les deux approximations différentiables présentées permettent d’aborder l’apprentissage du quantron. Les questions d’implémentation de ces méthodes sont primordiales. Suite des travaux : Développement d’une forme alternative de calcul de la réponse du quantron. Apprentissage du quantron. April 3, 2008 – p. 31/?
  • 103. En conclusion Les deux approximations différentiables présentées permettent d’aborder l’apprentissage du quantron. Les questions d’implémentation de ces méthodes sont primordiales. Suite des travaux : Développement d’une forme alternative de calcul de la réponse du quantron. Application des résultats obtenus à l’apprentissage en classification et en régression. Apprentissage du quantron. April 3, 2008 – p. 31/?
  • 104. Références ´ M. Capinski et E. Kopp, Measure, Integral and Probability (2nd ed.). London : Springer-Verlag, 2005. S. Elhedhli, J.-L. Goffin et J.-P. Vial, "Nondifferentiable Optimization: Introduction, Applications and Algorithms", in Encyclopedia on Optimization, C. Floudas and P. Pardalos, editors, Kluwer Academic Publishers, 2001. S. Haykin, Neural networks : a comprehensive foundation (2nd ed.). Upper Saddle River, NJ : Prentice Hall, 1999. R.A. Jacobs, M.I. Jordan, S.J. Nowlan et G.E. Hinton, "Adaptative Mixture of Local Experts", Neural Computation, 3, 79-87, 1991. R. Labib, "New Single Neuron Structure for Solving Nonlinear Problems", Proceedings of the International Joint Conference on Neural Networks, 1, 617-620, 1999. C. Peterson et B. Söderberg, "A New Method for Mapping Optimization Problems onto Neural Networks", International Journal of Neural Systems, 1, 3-22, 1989. D.E. Rumelhart, G.E. Hinton et R.J. Williams, "Learning representations by back-propagation of errors", Nature, 323, 533-536, 1986. Apprentissage du quantron. April 3, 2008 – p. 32/?