SlideShare ist ein Scribd-Unternehmen logo
1 von 31
Downloaden Sie, um offline zu lesen
Classifieur d’entropie maximale (MaxEnt)

                    Jean-Philippe Fauconnier

                          IRIT - Toulouse


                        15 février 2013




(IRIT - Toulouse)                              15 février 2013   1 / 31
1   Introduction


2   Entropie


3   Modèle MaxEnt


4   Conclusion


5   Références




      (IRIT - Toulouse)   15 février 2013   2 / 31
Introduction
Un modèle de Maximum d’Entropie (MaxEnt) :
est un classifieur probabiliste linéaire et discriminant.
  1   classifieur
      Le MaxEnt prédit une classe (∈ Ensemble de valeurs discrètes)
  2   probabiliste
      À chaque individu est associé une probabilité d’appartenance à chacune des
      classes (dont la somme est 1).
  3   log-linéaire
      Un classifieur log-linéaire tente d’estimer les poids (w ) du modèle par
      régression linéaire.
  4   discriminant
      Pour estimer les poids (w ), un modèle discriminant s’entraînera sur un
      ensemble de samples sans nécessiter de probabilités conditionnelles (cf.
      Modèles génératifs).

      (IRIT - Toulouse)                                          15 février 2013   3 / 31
Introduction
Le MaxEnt s’inscrit dans :
 1   une maximisation de l’entropie
     Le MaxEnt consiste à choisir, pour un phénomène donné, une distribution
     qui maximise l’entropie (Shannon), c’est-à-dire « l’incertitude ».

 2   le principe du rasoir d’Occam
     « L’hypothèse la plus simple est souvent la bonne »
     La plus simple, la moins contrainte, c’est-à-dire qui ne présume pas au-delà
     de ce qui est connu.

 3   le principe d’indifférence (Laplace)
     En cas d’information manquante, le mieux à faire est de considérer les
     événements comme équiprobables (distribution uniforme).



     (IRIT - Toulouse)                                         15 février 2013   4 / 31
1   Introduction


2   Entropie


3   Modèle MaxEnt


4   Conclusion


5   Références




      (IRIT - Toulouse)   15 février 2013   5 / 31
Entropie de Shannon
L’entropie est :
- une fonction, fondamentale en théorie de l’information, qui retourne à la
  quantité d’information délivrée/contenue par une source S (Shannon, 1948).

  Pour une source S comportant n symboles, un symbole i a une probabilité pi
  d’apparaître. Alors l’entropie de la source S est définie comme suit :


                                           n
                          H(S) =−          i=1 pi   log2 (pi )

               ⇒ entropie, une mesure de « surprise », d’« incertitude »

Source :
- Plus la source émet des infos différentes, plus l’entropie (incertitude) est grande
- Et inversement.

      (IRIT - Toulouse)                                           15 février 2013   6 / 31
Entropie de Shannon
Exemple
Une source S qui émet 10 valeurs :
- qui prennent toujours le même symbole (ici « a »).




- p(a) = 1
- H(S) = −(1 ∗ log2 (1)) = 0

Entropie est nulle.
      (IRIT - Toulouse)                                15 février 2013   7 / 31
Entropie de Shannon
Exemple
Une source S qui émet 10 valeurs :
- qui prennent équitablement deux symboles (ici « a » et « b »)




- p(a) = 1 et p(b) = 2
         2
                      1

- H(S) = −(2 ∗ (0, 5 ∗ log2 (0, 5))) = 1

Entropie positive
      (IRIT - Toulouse)                                      15 février 2013   8 / 31
Entropie de Shannon
Exemple
Une source S qui émet 10 valeurs :
- qui prennent trois symboles (ici « a », « b » et « c »)




- p(a) = 2 , p(b) = 3 et p(c) = 1
         5
                    1
                                   3
- H(S) = −( ( 2 ∗ log2 ( 2 )) + (2 ∗ ( 1 ∗ log2 ( 1 ))) ) = 1,585 ...
                5        5             3          3


Entropie positive
      (IRIT - Toulouse)                                     15 février 2013   9 / 31
Entropie de Shannon
Exemple
Une source S qui émet 10 valeurs :
- qui prennent chacune un symbôle différent (ici de « a » à « j »)




                 1
- Chaque p(n) = 10
- H(S) = −10 ∗ (0, 1 ∗ log2 (0, 1)) = 3,321 ...

Entropie maximale
Dans ce cas-ci, la distribution est uniforme
et la source S est maximalement informative.
     (IRIT - Toulouse)                                       15 février 2013   10 / 31
Entropie de Shannon
Le principe d’entropie maximale

Principe :
(Jaynes, 1957)
Information theory provides a constructive criterion for setting up probability
distributions on the basis of partial knowledge, and leads to a type of
statistical inference which is called the maximum entropy estimate. It is least
biased estimate possible on the given information (...)


Pour représenter une connaissance imparfaite par une distribution
(loi de probabilité), il est nécessaire :
   1   d’identifier toutes les distributions qui respectent les contraintes observées
       sur les données (e.g : moyennes observées, etc.)
   2   et de choisir celle qui maximise l’entropie (unique)


       (IRIT - Toulouse)                                         15 février 2013   11 / 31
Entropie de Shannon
Vers les modèles d’entropie maximale


Pourquoi ?
La distribution avec l’entropie maximale est celle
- qui est la plus uniforme (équidistribution)
- et, donc, celle qu’il serait le moins arbitraire d’utiliser pour représenter une
  connaissance imparfaite.
- En pratique, c’est la distribution qui contient le moins de cas particuliers qui
  divergent de ce qui est le plus probable.



Idée centrale de l’entropie maximale
On ne présume pas au-delà des données.



      (IRIT - Toulouse)                                           15 février 2013   12 / 31
1   Introduction


2   Entropie


3   Modèle MaxEnt


4   Conclusion


5   Références




      (IRIT - Toulouse)   15 février 2013   13 / 31
Modèle MaxEnt
Un classifieur d’entropie maximale (modèle MaxEnt) :
- Reprend le principe d’entropie maximale
- Autrement dit, maximise l’entropie pour prédire un phénomène aléatoire


Dans l’élaboration d’un MaxEnt, il y a trois étapes :
  1   Constituer un set d’entraînement qui va permettre de « capturer » au
      possible le comportement d’un phénomène aléatoire.

  2   Déterminer les traits qui rendent compte de ce phénomène aléatoire.
         Un trait = fonction qui fournit une information à propos des données.

  3   Choisir le modèle qui maximise l’entropie tout en restant consistant
      vis-à-vis des contraintes.
          Dans le MaxEnt, les traits sont utilisés comme des contraintes.

      (IRIT - Toulouse)                                       15 février 2013   14 / 31
Modèle MaxEnt
Étape 1
Constitution d’un set d’entraînement :
- La première étape vise à constituer un corpus reprenant des échantillons du
  phénomène aléatoire.
- De ce corpus, il est possible de tirer (x1 , y1 ), (x2 , y2 ), ..., (xN , yN ) samples où :
     1     x = information contextuelle et x ∈ X
     2     y = classes et y ∈ Y


Exemple en TA :
- Nous désirons modéliser le comportement d’un traducteur lorsqu’il doit choisir
  un mot français pour traduire la proposition « in » en anglais.
- 5 classes : « dans », « en », « à », « au cours de », « pendant »
- E.g de samples : (in avril, en), (in this, dans)

         (IRIT - Toulouse)                                               15 février 2013   15 / 31
Modèle MaxEnt
Étape 2
Sélection des traits
- Quels indices sont informatifs pour la prise de décision ?
- Au-delà des statistiques d’observation empirique (e. g : p (en) = 1 et p (dans)
                                                           ˜        2    ˜
  = 1 ), intérêt pour donner de l’importance à d’autres statistiques au travers
     2
  des traits (e.g : une régularité récurrente).


Dans le modèle :
- Un trait, dit aussi feature, est une fonction binaire dépendante de x qui
  apporte une information sur la décision de y .
- E.g : Savoir que lorsque « in » est suivi d’un nom de mois, il est classé dans
  « en »
                          1 si y = « en » et si x = « in Avril »
          f (x, y ) =
                          0 sinon
      (IRIT - Toulouse)                                         15 février 2013   16 / 31
Modèle MaxEnt
Étape 2 : Traits et contraintes


Les traits :
- sont considérés comme des contraintes
- ont des poids qui leur sont associés


Contraintes :
- Une contrainte est une égalité que doit satisfaire le modèle cible
- En pratique, le modèle doit respecter l’égalité entre
     1     La valeur attendue de p (f ) dans le set d’entraînement
                                 ˜
     2     La valeur attendue de p(f ) dans le modèle cible




         (IRIT - Toulouse)                                           15 février 2013   17 / 31
Modèle MaxEnt
Étape 2 : Traits et contraintes

Contrainte pour le trait f :
- La valeur attendue d’un trait f du point de vue du set d’entraînement

                              p (f ) =
                              ˜                p (x, y )f (x, y )
                                               ˜
                                         x,y


- La valeur attendue d’un trait f du point de vue du modèle

                            p(f ) =          p (x)p(y|x)f (x, y )
                                             ˜
                                       x,y

- Et la contrainte pour le trait f :

                                       p(f ) = p (f )
                                               ˜



      (IRIT - Toulouse)                                             15 février 2013   18 / 31
Modèle MaxEnt
Étape 2 : Traits et contraintes

Pourquoi contraindre ?
   1   C’est un moyen d’exiger que la valeur attendue respecte la distribution
       empirique observée dans le set d’entraînement.
   2   Ainsi, lorsque l’on découvre une statistique qu’on trouve utile, il est possible
       de lui donner de l’importance en exigeant que le modèle soit en accord avec
       elle.
   3   Premier corollaire, un modèle qui ne respecte pas ces contraintes est :
          1   Un modèle qui n’est pas en accord avec le set d’entraînement
          2   Un modèle inconsistant
   4   Deuxième corollaire, la résolution du MaxEnt est un problème
       d’optimisation sous contraintes.

       → On cherche à maximiser l’entropie tout en respectant des contraintes.


       (IRIT - Toulouse)                                           15 février 2013   19 / 31
Modèle MaxEnt
Scénarios d’optimisation sous contraintes (Berger, 1996)




Soit P l’espace des hypothèses et C1 , C2 et C3 des contraintes.
      (IRIT - Toulouse)                                        15 février 2013   20 / 31
Modèle MaxEnt
Étape 2 : exemple (1)
Exemple simple (Berger, 1996) :
- La première contrainte (implicite) est que :
  p(dans) + p(en) + p(à) + p(au cours de) + p(pendant) = 1

→ A ce niveau, il existe une infinité de modèles qui répondent à cette contrainte.


Un modèle d’entropie maximale qui répond à cette contrainte :
   1   p(dans) = 1/5
   2   p(en) = 1/5
   3   p(à) = 1/5
   4   p(au cours de) = 1/5
   5   p(pendant) = 1/5

       (IRIT - Toulouse)                                       15 février 2013   21 / 31
Modèle MaxEnt
Étape 2 : exemple (2)
Un autre exemple (Ratnaparkhi, 1997) :
   1   Pour la distribution p(x, y ) où x ∈{ in Avril, in this} et y ∈ {en, dans}.
   2   Avec pour contrainte : p(in Avril,en) + p(in this, en) = 0,6

                              p(x, y )   en    dans
                              in avril    ?      ?
                               in this    ?      ?
                                total    0,6           1

⇒ Maximiser l’entropie revient à uniformiser le modèle selon la contrainte.


                               p(a, b)    0      1
                                  x      0,3    0,2
                                  y      0,3    0,2
                                total    0,6    0,4   1

       (IRIT - Toulouse)                                           15 février 2013   22 / 31
Modèle MaxEnt
Étape 3
Choisir le modèle qui maximise l’entropie :
Le modèle d’entropie maximale a pour sortie :
                                                  n
                                        1
                          P(y |x) =         exp         wi fi (x, y )
                                      Z (x)
                                                  i=1

où
- P(y |x) désigne la probabilité que individu x (contexte) appartienne à la classe y
- La fonction fi est une fonction binaire appelée trait qui permet de définir les
  contraintes du modèle.
- Z(x) est une constante de normalisation
- Chaque x est encodé comme vecteur avec n traits fi
- avec un poids wi associé à chaque trait
 Comment estimer les poids ?
 Quels sont les poids qui maximisent l’entropie ?
      (IRIT - Toulouse)                                                 15 février 2013   23 / 31
Modèle MaxEnt
Étape 3 : Maximisation de l’entropie

Trouver des poids qui :
- maximisent l’entropie
- respectent les contraintes

Maximiser la fonction d’entropie :
Pour estimer les valeurs des paramètres w , le MaxEnt doit maximiser la fonction
                                        ˜
d’entropie associé à chaque p(x, y ) :

                          p(x, y ) = argmax H(p(x, y ))
                                       p(x,y )∈C

où H est la fonction d’entropie, p(x,y) le modèle cible et C l’espace des
contraintes.

Or, computationnellement, il est difficile (voire impossible) de calculer
directement ce problème d’optimisation sous contraintes.

      (IRIT - Toulouse)                                         15 février 2013   24 / 31
Modèle MaxEnt
Étape 3 : Maximisation de l’entropie




Solution :
Mathématiquement, il est prouvé :
   1   l’estimation d’un maximum d’entropie (sous contraintes) est équivalent à
       l’estimation du maximum de vraissemblance (sans contraintes) sur les
       données du set d’entraînement (Berger, 1996).
   2   et une solution itérative converge vers ce modèle unique.




       (IRIT - Toulouse)                                           15 février 2013   25 / 31
Modèle MaxEnt
Étape 3 : Maximisation de l’entropie


Estimation du maximum de vraissemblance :
- est une méthode statistique pour estimer les poids (paramètres) d’un modèle
  (distribution) à partir des samples du set d’entraînement (échantillons)
- Trouver le maximum de vraissemblance est un problème d’optimisation non
  contraint.
- Ainsi, trouver les poids w peut s’effectuer ainsi :
                           ˆ



                          w = argmax
                          ˆ                  p (x, y ) log p(y |x)
                                             ˜
                                w
                                       x,y

où p (x, y ) est la fréquence empirique observée de x associé à la classe y dans les
   ˜
données d’entraînement.


      (IRIT - Toulouse)                                              15 février 2013   26 / 31
Modèle MaxEnt
Étape 3 : Maximisation de l’entropie




Algorithmes itératifs :
   1   Il est prouvé mathématiquement que certains algorithmes itératifs
       convergent vers la solution à chaque itération.
   2   Plusieurs algorithmes :
       -   GIS (Darroch & Ratcliff, 1972)
       -   IIS (Berger, 1996)
       -   GIS avec correction feature (Curran & Clark, 2003)
       -   L-BFGS




       (IRIT - Toulouse)                                        15 février 2013   27 / 31
1   Introduction


2   Entropie


3   Modèle MaxEnt


4   Conclusion


5   Références




      (IRIT - Toulouse)   15 février 2013   28 / 31
Conclusion


Quelques implémentations :
- Apache OpenNLP (GIS)
- SharpEntropy (GIS)
- AI : :MaxEntropy (GIS et L-BFGS)
- MaxEnt Modeling Toolkit (GIS et L-BFGS)
- MegaM (CG et L-BFGS)
- etc.




         (IRIT - Toulouse)                  15 février 2013   29 / 31
1   Introduction


2   Entropie


3   Modèle MaxEnt


4   Conclusion


5   Références




      (IRIT - Toulouse)   15 février 2013   30 / 31
Références
- BERGER, A., PIETRA, V. et PIETRA, S. (1996). A Maximum Entropy approach to Natural
  Language Processing. Computational linguistics, 22(1) :39-71.
- BERGER, A. (1997). The Improved Iterative Scaling Algorithm : A Gentle Introduction, Tech
  report. School of Computer Science, Carnegie Mellon University.
- CANDITO, M. (2012), Classification : MaxEnt. In Cours de M2 Linguistique Informatique,
  Paris 7.
- CURRAN, J. R., & CLARK, S. (2003). Investigating GIS and smoothing for maximum
  entropy taggers. In Proceedings of the tenth conference on European chapter of the
  Association for Computational Linguistics, volume 1, pages 91-98. Association for
  Computational Linguistics.
- JAYNES, E. T. (1957). Information theory and statistical mechanics. Physical review,
  106(4), 620.
- RATNAPARKHI, A. (1996). A Maximum Entropy model for Part-of-Speech Tagging. In
  Proceedings of the conference on empirical methods in natural language processing, volume
  1, pages 133-142. Philadelphia, PA.
- RATNAPARKHI, A. (1997). A Simple Introduction to Maximum Entropy Models for Natural
  Language Processing, Tech report. Dept. of Computer and Informative Science, University of
  Pennsylvania.
- SHANNON, C. E. (1948). A Mathematical Theory of Communication, Bell System Technical
  Journal, vol. 27.
      (IRIT - Toulouse)                                                 15 février 2013   31 / 31

Weitere ähnliche Inhalte

Was ist angesagt?

Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans Imen Turki
 
Chapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesChapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesSana Aroussi
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigFelipe Sanchez Garzon
 
Présentation Mémoire Master de Recherche
Présentation Mémoire Master de RecherchePrésentation Mémoire Master de Recherche
Présentation Mémoire Master de RechercheRouâa Ben Hammouda
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels Oussama Werfelli
 
Les Ontologies dans les Systèmes d’Information
Les Ontologies dans les Systèmes d’InformationLes Ontologies dans les Systèmes d’Information
Les Ontologies dans les Systèmes d’Informationcatherine roussey
 
Systèmes de recommandation: applications en bibliothèque, archives et documen...
Systèmes de recommandation: applications en bibliothèque, archives et documen...Systèmes de recommandation: applications en bibliothèque, archives et documen...
Systèmes de recommandation: applications en bibliothèque, archives et documen...Ecole hôtelière de Lausanne - EHL
 
Algorithme génétique
Algorithme génétiqueAlgorithme génétique
Algorithme génétiqueIlhem Daoudi
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesMohamed Heny SELMI
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 
Ontologie concept applications
Ontologie concept applicationsOntologie concept applications
Ontologie concept applicationsbenouini rachid
 
Les reseaux profonds
Les reseaux profondsLes reseaux profonds
Les reseaux profondsStany Mwamba
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisionsMariem Chaaben
 

Was ist angesagt? (20)

Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans
 
Chapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesChapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiques
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Data Mining
Data MiningData Mining
Data Mining
 
Présentation Mémoire Master de Recherche
Présentation Mémoire Master de RecherchePrésentation Mémoire Master de Recherche
Présentation Mémoire Master de Recherche
 
Algorithmes de jeux
Algorithmes de jeuxAlgorithmes de jeux
Algorithmes de jeux
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
 
Les Ontologies dans les Systèmes d’Information
Les Ontologies dans les Systèmes d’InformationLes Ontologies dans les Systèmes d’Information
Les Ontologies dans les Systèmes d’Information
 
Systèmes de recommandation: applications en bibliothèque, archives et documen...
Systèmes de recommandation: applications en bibliothèque, archives et documen...Systèmes de recommandation: applications en bibliothèque, archives et documen...
Systèmes de recommandation: applications en bibliothèque, archives et documen...
 
Algorithme génétique
Algorithme génétiqueAlgorithme génétique
Algorithme génétique
 
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
Ontologie concept applications
Ontologie concept applicationsOntologie concept applications
Ontologie concept applications
 
Les reseaux profonds
Les reseaux profondsLes reseaux profonds
Les reseaux profonds
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 

Andere mochten auch

Métriques pour l'évaluation de l'Annotation
Métriques pour l'évaluation de l'AnnotationMétriques pour l'évaluation de l'Annotation
Métriques pour l'évaluation de l'AnnotationJean-Philippe Fauconnier
 
Princeton's Maximum Entropy Tutorial
Princeton's Maximum Entropy TutorialPrinceton's Maximum Entropy Tutorial
Princeton's Maximum Entropy TutorialDashiell Cruz
 
Le Reseau De Neurones
Le Reseau De NeuronesLe Reseau De Neurones
Le Reseau De Neuronesguestf80d95
 
L'observatoire politique d'Elabe pour "Les Echos" et Radio Classique
L'observatoire politique d'Elabe pour "Les Echos" et Radio ClassiqueL'observatoire politique d'Elabe pour "Les Echos" et Radio Classique
L'observatoire politique d'Elabe pour "Les Echos" et Radio ClassiqueAlexandre Rousset
 
Un village hors du commun
Un village hors du communUn village hors du commun
Un village hors du communRodrigo Cardoso
 
Ejercicios 29 37 adm.[1]
Ejercicios 29 37 adm.[1]Ejercicios 29 37 adm.[1]
Ejercicios 29 37 adm.[1]NORMA
 
Aφιέρωμα στο περιβάλλον της Βέροιας
Aφιέρωμα στο περιβάλλον της Βέροιας  Aφιέρωμα στο περιβάλλον της Βέροιας
Aφιέρωμα στο περιβάλλον της Βέροιας paraskevi64
 
Dr. jesus felipe gonzalez
Dr. jesus felipe gonzalezDr. jesus felipe gonzalez
Dr. jesus felipe gonzalezMiguel Rivera
 
Mactac Soignies - Vitres: adhésifs opacifiants
Mactac Soignies - Vitres: adhésifs opacifiantsMactac Soignies - Vitres: adhésifs opacifiants
Mactac Soignies - Vitres: adhésifs opacifiantsMactac Europe
 
Incorporación de TIC en la Universidad Católica de Colombia
Incorporación de TIC en la Universidad Católica de ColombiaIncorporación de TIC en la Universidad Católica de Colombia
Incorporación de TIC en la Universidad Católica de ColombiaProyecto AVA
 
Las ordenes de caballeria del temple y de calatrava
Las ordenes de caballeria del temple y de calatravaLas ordenes de caballeria del temple y de calatrava
Las ordenes de caballeria del temple y de calatravaLuis Bados Ramirez
 
Merci Pour Vos Mails
Merci Pour Vos MailsMerci Pour Vos Mails
Merci Pour Vos Mailsmarsipulami
 

Andere mochten auch (20)

Théo inf
Théo infThéo inf
Théo inf
 
MaxEnt 2009 talk
MaxEnt 2009 talkMaxEnt 2009 talk
MaxEnt 2009 talk
 
Métriques pour l'évaluation de l'Annotation
Métriques pour l'évaluation de l'AnnotationMétriques pour l'évaluation de l'Annotation
Métriques pour l'évaluation de l'Annotation
 
Princeton's Maximum Entropy Tutorial
Princeton's Maximum Entropy TutorialPrinceton's Maximum Entropy Tutorial
Princeton's Maximum Entropy Tutorial
 
Le Reseau De Neurones
Le Reseau De NeuronesLe Reseau De Neurones
Le Reseau De Neurones
 
L'observatoire politique d'Elabe pour "Les Echos" et Radio Classique
L'observatoire politique d'Elabe pour "Les Echos" et Radio ClassiqueL'observatoire politique d'Elabe pour "Les Echos" et Radio Classique
L'observatoire politique d'Elabe pour "Les Echos" et Radio Classique
 
Un village hors du commun
Un village hors du communUn village hors du commun
Un village hors du commun
 
Ejercicios 29 37 adm.[1]
Ejercicios 29 37 adm.[1]Ejercicios 29 37 adm.[1]
Ejercicios 29 37 adm.[1]
 
Proceso de la misión
Proceso de la misiónProceso de la misión
Proceso de la misión
 
Alfredo garcia mtz
Alfredo garcia mtzAlfredo garcia mtz
Alfredo garcia mtz
 
Aφιέρωμα στο περιβάλλον της Βέροιας
Aφιέρωμα στο περιβάλλον της Βέροιας  Aφιέρωμα στο περιβάλλον της Βέροιας
Aφιέρωμα στο περιβάλλον της Βέροιας
 
Dr. jesus felipe gonzalez
Dr. jesus felipe gonzalezDr. jesus felipe gonzalez
Dr. jesus felipe gonzalez
 
Mactac Soignies - Vitres: adhésifs opacifiants
Mactac Soignies - Vitres: adhésifs opacifiantsMactac Soignies - Vitres: adhésifs opacifiants
Mactac Soignies - Vitres: adhésifs opacifiants
 
Madrid
MadridMadrid
Madrid
 
Incorporación de TIC en la Universidad Católica de Colombia
Incorporación de TIC en la Universidad Católica de ColombiaIncorporación de TIC en la Universidad Católica de Colombia
Incorporación de TIC en la Universidad Católica de Colombia
 
Jets Of War en 3D
Jets Of War en 3DJets Of War en 3D
Jets Of War en 3D
 
Las ordenes de caballeria del temple y de calatrava
Las ordenes de caballeria del temple y de calatravaLas ordenes de caballeria del temple y de calatrava
Las ordenes de caballeria del temple y de calatrava
 
Honoraires cass
Honoraires cassHonoraires cass
Honoraires cass
 
Planificacionem
PlanificacionemPlanificacionem
Planificacionem
 
Merci Pour Vos Mails
Merci Pour Vos MailsMerci Pour Vos Mails
Merci Pour Vos Mails
 

Ähnlich wie Classifieur d'entropie maximale (MaxEnt)

S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3Jamal Yasser
 
Slides ensae - Actuariat Assurance Non Vie 2
Slides ensae - Actuariat Assurance Non Vie 2Slides ensae - Actuariat Assurance Non Vie 2
Slides ensae - Actuariat Assurance Non Vie 2Arthur Charpentier
 
éChantillonnage estimation
éChantillonnage   estimationéChantillonnage   estimation
éChantillonnage estimationmarouane hdidou
 
Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearChristian Robert
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdfSidiAbdallah1
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfELHASSANEAJARCIF1
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Modèles d\'Information CORIA\'2010
Modèles d\'Information CORIA\'2010Modèles d\'Information CORIA\'2010
Modèles d\'Information CORIA\'2010sclincha
 
Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Arthur Charpentier
 
APPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAPPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAyoub Abraich
 
analyse_discriminante.pdf
analyse_discriminante.pdfanalyse_discriminante.pdf
analyse_discriminante.pdfSidiAbdallah1
 

Ähnlich wie Classifieur d'entropie maximale (MaxEnt) (20)

Actuariat et Données
Actuariat et DonnéesActuariat et Données
Actuariat et Données
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3
 
Slides ensae-2016-2
Slides ensae-2016-2Slides ensae-2016-2
Slides ensae-2016-2
 
Slides ensae - Actuariat Assurance Non Vie 2
Slides ensae - Actuariat Assurance Non Vie 2Slides ensae - Actuariat Assurance Non Vie 2
Slides ensae - Actuariat Assurance Non Vie 2
 
éChantillonnage estimation
éChantillonnage   estimationéChantillonnage   estimation
éChantillonnage estimation
 
Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd year
 
Slides ensae 4
Slides ensae 4Slides ensae 4
Slides ensae 4
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdf
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Modèles d\'Information CORIA\'2010
Modèles d\'Information CORIA\'2010Modèles d\'Information CORIA\'2010
Modèles d\'Information CORIA\'2010
 
Slides ensae 5
Slides ensae 5Slides ensae 5
Slides ensae 5
 
1Flou.ppt
1Flou.ppt1Flou.ppt
1Flou.ppt
 
1Flou.ppt
1Flou.ppt1Flou.ppt
1Flou.ppt
 
Slides ensae-2016-1
Slides ensae-2016-1Slides ensae-2016-1
Slides ensae-2016-1
 
Rappels stats-2014-part2
Rappels stats-2014-part2Rappels stats-2014-part2
Rappels stats-2014-part2
 
Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1
 
Slides ensae-2016-5
Slides ensae-2016-5Slides ensae-2016-5
Slides ensae-2016-5
 
APPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUEAPPRENTISSAGE STATISTIQUE
APPRENTISSAGE STATISTIQUE
 
analyse_discriminante.pdf
analyse_discriminante.pdfanalyse_discriminante.pdf
analyse_discriminante.pdf
 

Kürzlich hochgeladen

analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxHadJer61
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 

Kürzlich hochgeladen (6)

analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptx
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 

Classifieur d'entropie maximale (MaxEnt)

  • 1. Classifieur d’entropie maximale (MaxEnt) Jean-Philippe Fauconnier IRIT - Toulouse 15 février 2013 (IRIT - Toulouse) 15 février 2013 1 / 31
  • 2. 1 Introduction 2 Entropie 3 Modèle MaxEnt 4 Conclusion 5 Références (IRIT - Toulouse) 15 février 2013 2 / 31
  • 3. Introduction Un modèle de Maximum d’Entropie (MaxEnt) : est un classifieur probabiliste linéaire et discriminant. 1 classifieur Le MaxEnt prédit une classe (∈ Ensemble de valeurs discrètes) 2 probabiliste À chaque individu est associé une probabilité d’appartenance à chacune des classes (dont la somme est 1). 3 log-linéaire Un classifieur log-linéaire tente d’estimer les poids (w ) du modèle par régression linéaire. 4 discriminant Pour estimer les poids (w ), un modèle discriminant s’entraînera sur un ensemble de samples sans nécessiter de probabilités conditionnelles (cf. Modèles génératifs). (IRIT - Toulouse) 15 février 2013 3 / 31
  • 4. Introduction Le MaxEnt s’inscrit dans : 1 une maximisation de l’entropie Le MaxEnt consiste à choisir, pour un phénomène donné, une distribution qui maximise l’entropie (Shannon), c’est-à-dire « l’incertitude ». 2 le principe du rasoir d’Occam « L’hypothèse la plus simple est souvent la bonne » La plus simple, la moins contrainte, c’est-à-dire qui ne présume pas au-delà de ce qui est connu. 3 le principe d’indifférence (Laplace) En cas d’information manquante, le mieux à faire est de considérer les événements comme équiprobables (distribution uniforme). (IRIT - Toulouse) 15 février 2013 4 / 31
  • 5. 1 Introduction 2 Entropie 3 Modèle MaxEnt 4 Conclusion 5 Références (IRIT - Toulouse) 15 février 2013 5 / 31
  • 6. Entropie de Shannon L’entropie est : - une fonction, fondamentale en théorie de l’information, qui retourne à la quantité d’information délivrée/contenue par une source S (Shannon, 1948). Pour une source S comportant n symboles, un symbole i a une probabilité pi d’apparaître. Alors l’entropie de la source S est définie comme suit : n H(S) =− i=1 pi log2 (pi ) ⇒ entropie, une mesure de « surprise », d’« incertitude » Source : - Plus la source émet des infos différentes, plus l’entropie (incertitude) est grande - Et inversement. (IRIT - Toulouse) 15 février 2013 6 / 31
  • 7. Entropie de Shannon Exemple Une source S qui émet 10 valeurs : - qui prennent toujours le même symbole (ici « a »). - p(a) = 1 - H(S) = −(1 ∗ log2 (1)) = 0 Entropie est nulle. (IRIT - Toulouse) 15 février 2013 7 / 31
  • 8. Entropie de Shannon Exemple Une source S qui émet 10 valeurs : - qui prennent équitablement deux symboles (ici « a » et « b ») - p(a) = 1 et p(b) = 2 2 1 - H(S) = −(2 ∗ (0, 5 ∗ log2 (0, 5))) = 1 Entropie positive (IRIT - Toulouse) 15 février 2013 8 / 31
  • 9. Entropie de Shannon Exemple Une source S qui émet 10 valeurs : - qui prennent trois symboles (ici « a », « b » et « c ») - p(a) = 2 , p(b) = 3 et p(c) = 1 5 1 3 - H(S) = −( ( 2 ∗ log2 ( 2 )) + (2 ∗ ( 1 ∗ log2 ( 1 ))) ) = 1,585 ... 5 5 3 3 Entropie positive (IRIT - Toulouse) 15 février 2013 9 / 31
  • 10. Entropie de Shannon Exemple Une source S qui émet 10 valeurs : - qui prennent chacune un symbôle différent (ici de « a » à « j ») 1 - Chaque p(n) = 10 - H(S) = −10 ∗ (0, 1 ∗ log2 (0, 1)) = 3,321 ... Entropie maximale Dans ce cas-ci, la distribution est uniforme et la source S est maximalement informative. (IRIT - Toulouse) 15 février 2013 10 / 31
  • 11. Entropie de Shannon Le principe d’entropie maximale Principe : (Jaynes, 1957) Information theory provides a constructive criterion for setting up probability distributions on the basis of partial knowledge, and leads to a type of statistical inference which is called the maximum entropy estimate. It is least biased estimate possible on the given information (...) Pour représenter une connaissance imparfaite par une distribution (loi de probabilité), il est nécessaire : 1 d’identifier toutes les distributions qui respectent les contraintes observées sur les données (e.g : moyennes observées, etc.) 2 et de choisir celle qui maximise l’entropie (unique) (IRIT - Toulouse) 15 février 2013 11 / 31
  • 12. Entropie de Shannon Vers les modèles d’entropie maximale Pourquoi ? La distribution avec l’entropie maximale est celle - qui est la plus uniforme (équidistribution) - et, donc, celle qu’il serait le moins arbitraire d’utiliser pour représenter une connaissance imparfaite. - En pratique, c’est la distribution qui contient le moins de cas particuliers qui divergent de ce qui est le plus probable. Idée centrale de l’entropie maximale On ne présume pas au-delà des données. (IRIT - Toulouse) 15 février 2013 12 / 31
  • 13. 1 Introduction 2 Entropie 3 Modèle MaxEnt 4 Conclusion 5 Références (IRIT - Toulouse) 15 février 2013 13 / 31
  • 14. Modèle MaxEnt Un classifieur d’entropie maximale (modèle MaxEnt) : - Reprend le principe d’entropie maximale - Autrement dit, maximise l’entropie pour prédire un phénomène aléatoire Dans l’élaboration d’un MaxEnt, il y a trois étapes : 1 Constituer un set d’entraînement qui va permettre de « capturer » au possible le comportement d’un phénomène aléatoire. 2 Déterminer les traits qui rendent compte de ce phénomène aléatoire. Un trait = fonction qui fournit une information à propos des données. 3 Choisir le modèle qui maximise l’entropie tout en restant consistant vis-à-vis des contraintes. Dans le MaxEnt, les traits sont utilisés comme des contraintes. (IRIT - Toulouse) 15 février 2013 14 / 31
  • 15. Modèle MaxEnt Étape 1 Constitution d’un set d’entraînement : - La première étape vise à constituer un corpus reprenant des échantillons du phénomène aléatoire. - De ce corpus, il est possible de tirer (x1 , y1 ), (x2 , y2 ), ..., (xN , yN ) samples où : 1 x = information contextuelle et x ∈ X 2 y = classes et y ∈ Y Exemple en TA : - Nous désirons modéliser le comportement d’un traducteur lorsqu’il doit choisir un mot français pour traduire la proposition « in » en anglais. - 5 classes : « dans », « en », « à », « au cours de », « pendant » - E.g de samples : (in avril, en), (in this, dans) (IRIT - Toulouse) 15 février 2013 15 / 31
  • 16. Modèle MaxEnt Étape 2 Sélection des traits - Quels indices sont informatifs pour la prise de décision ? - Au-delà des statistiques d’observation empirique (e. g : p (en) = 1 et p (dans) ˜ 2 ˜ = 1 ), intérêt pour donner de l’importance à d’autres statistiques au travers 2 des traits (e.g : une régularité récurrente). Dans le modèle : - Un trait, dit aussi feature, est une fonction binaire dépendante de x qui apporte une information sur la décision de y . - E.g : Savoir que lorsque « in » est suivi d’un nom de mois, il est classé dans « en » 1 si y = « en » et si x = « in Avril » f (x, y ) = 0 sinon (IRIT - Toulouse) 15 février 2013 16 / 31
  • 17. Modèle MaxEnt Étape 2 : Traits et contraintes Les traits : - sont considérés comme des contraintes - ont des poids qui leur sont associés Contraintes : - Une contrainte est une égalité que doit satisfaire le modèle cible - En pratique, le modèle doit respecter l’égalité entre 1 La valeur attendue de p (f ) dans le set d’entraînement ˜ 2 La valeur attendue de p(f ) dans le modèle cible (IRIT - Toulouse) 15 février 2013 17 / 31
  • 18. Modèle MaxEnt Étape 2 : Traits et contraintes Contrainte pour le trait f : - La valeur attendue d’un trait f du point de vue du set d’entraînement p (f ) = ˜ p (x, y )f (x, y ) ˜ x,y - La valeur attendue d’un trait f du point de vue du modèle p(f ) = p (x)p(y|x)f (x, y ) ˜ x,y - Et la contrainte pour le trait f : p(f ) = p (f ) ˜ (IRIT - Toulouse) 15 février 2013 18 / 31
  • 19. Modèle MaxEnt Étape 2 : Traits et contraintes Pourquoi contraindre ? 1 C’est un moyen d’exiger que la valeur attendue respecte la distribution empirique observée dans le set d’entraînement. 2 Ainsi, lorsque l’on découvre une statistique qu’on trouve utile, il est possible de lui donner de l’importance en exigeant que le modèle soit en accord avec elle. 3 Premier corollaire, un modèle qui ne respecte pas ces contraintes est : 1 Un modèle qui n’est pas en accord avec le set d’entraînement 2 Un modèle inconsistant 4 Deuxième corollaire, la résolution du MaxEnt est un problème d’optimisation sous contraintes. → On cherche à maximiser l’entropie tout en respectant des contraintes. (IRIT - Toulouse) 15 février 2013 19 / 31
  • 20. Modèle MaxEnt Scénarios d’optimisation sous contraintes (Berger, 1996) Soit P l’espace des hypothèses et C1 , C2 et C3 des contraintes. (IRIT - Toulouse) 15 février 2013 20 / 31
  • 21. Modèle MaxEnt Étape 2 : exemple (1) Exemple simple (Berger, 1996) : - La première contrainte (implicite) est que : p(dans) + p(en) + p(à) + p(au cours de) + p(pendant) = 1 → A ce niveau, il existe une infinité de modèles qui répondent à cette contrainte. Un modèle d’entropie maximale qui répond à cette contrainte : 1 p(dans) = 1/5 2 p(en) = 1/5 3 p(à) = 1/5 4 p(au cours de) = 1/5 5 p(pendant) = 1/5 (IRIT - Toulouse) 15 février 2013 21 / 31
  • 22. Modèle MaxEnt Étape 2 : exemple (2) Un autre exemple (Ratnaparkhi, 1997) : 1 Pour la distribution p(x, y ) où x ∈{ in Avril, in this} et y ∈ {en, dans}. 2 Avec pour contrainte : p(in Avril,en) + p(in this, en) = 0,6 p(x, y ) en dans in avril ? ? in this ? ? total 0,6 1 ⇒ Maximiser l’entropie revient à uniformiser le modèle selon la contrainte. p(a, b) 0 1 x 0,3 0,2 y 0,3 0,2 total 0,6 0,4 1 (IRIT - Toulouse) 15 février 2013 22 / 31
  • 23. Modèle MaxEnt Étape 3 Choisir le modèle qui maximise l’entropie : Le modèle d’entropie maximale a pour sortie : n 1 P(y |x) = exp wi fi (x, y ) Z (x) i=1 où - P(y |x) désigne la probabilité que individu x (contexte) appartienne à la classe y - La fonction fi est une fonction binaire appelée trait qui permet de définir les contraintes du modèle. - Z(x) est une constante de normalisation - Chaque x est encodé comme vecteur avec n traits fi - avec un poids wi associé à chaque trait Comment estimer les poids ? Quels sont les poids qui maximisent l’entropie ? (IRIT - Toulouse) 15 février 2013 23 / 31
  • 24. Modèle MaxEnt Étape 3 : Maximisation de l’entropie Trouver des poids qui : - maximisent l’entropie - respectent les contraintes Maximiser la fonction d’entropie : Pour estimer les valeurs des paramètres w , le MaxEnt doit maximiser la fonction ˜ d’entropie associé à chaque p(x, y ) : p(x, y ) = argmax H(p(x, y )) p(x,y )∈C où H est la fonction d’entropie, p(x,y) le modèle cible et C l’espace des contraintes. Or, computationnellement, il est difficile (voire impossible) de calculer directement ce problème d’optimisation sous contraintes. (IRIT - Toulouse) 15 février 2013 24 / 31
  • 25. Modèle MaxEnt Étape 3 : Maximisation de l’entropie Solution : Mathématiquement, il est prouvé : 1 l’estimation d’un maximum d’entropie (sous contraintes) est équivalent à l’estimation du maximum de vraissemblance (sans contraintes) sur les données du set d’entraînement (Berger, 1996). 2 et une solution itérative converge vers ce modèle unique. (IRIT - Toulouse) 15 février 2013 25 / 31
  • 26. Modèle MaxEnt Étape 3 : Maximisation de l’entropie Estimation du maximum de vraissemblance : - est une méthode statistique pour estimer les poids (paramètres) d’un modèle (distribution) à partir des samples du set d’entraînement (échantillons) - Trouver le maximum de vraissemblance est un problème d’optimisation non contraint. - Ainsi, trouver les poids w peut s’effectuer ainsi : ˆ w = argmax ˆ p (x, y ) log p(y |x) ˜ w x,y où p (x, y ) est la fréquence empirique observée de x associé à la classe y dans les ˜ données d’entraînement. (IRIT - Toulouse) 15 février 2013 26 / 31
  • 27. Modèle MaxEnt Étape 3 : Maximisation de l’entropie Algorithmes itératifs : 1 Il est prouvé mathématiquement que certains algorithmes itératifs convergent vers la solution à chaque itération. 2 Plusieurs algorithmes : - GIS (Darroch & Ratcliff, 1972) - IIS (Berger, 1996) - GIS avec correction feature (Curran & Clark, 2003) - L-BFGS (IRIT - Toulouse) 15 février 2013 27 / 31
  • 28. 1 Introduction 2 Entropie 3 Modèle MaxEnt 4 Conclusion 5 Références (IRIT - Toulouse) 15 février 2013 28 / 31
  • 29. Conclusion Quelques implémentations : - Apache OpenNLP (GIS) - SharpEntropy (GIS) - AI : :MaxEntropy (GIS et L-BFGS) - MaxEnt Modeling Toolkit (GIS et L-BFGS) - MegaM (CG et L-BFGS) - etc. (IRIT - Toulouse) 15 février 2013 29 / 31
  • 30. 1 Introduction 2 Entropie 3 Modèle MaxEnt 4 Conclusion 5 Références (IRIT - Toulouse) 15 février 2013 30 / 31
  • 31. Références - BERGER, A., PIETRA, V. et PIETRA, S. (1996). A Maximum Entropy approach to Natural Language Processing. Computational linguistics, 22(1) :39-71. - BERGER, A. (1997). The Improved Iterative Scaling Algorithm : A Gentle Introduction, Tech report. School of Computer Science, Carnegie Mellon University. - CANDITO, M. (2012), Classification : MaxEnt. In Cours de M2 Linguistique Informatique, Paris 7. - CURRAN, J. R., & CLARK, S. (2003). Investigating GIS and smoothing for maximum entropy taggers. In Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics, volume 1, pages 91-98. Association for Computational Linguistics. - JAYNES, E. T. (1957). Information theory and statistical mechanics. Physical review, 106(4), 620. - RATNAPARKHI, A. (1996). A Maximum Entropy model for Part-of-Speech Tagging. In Proceedings of the conference on empirical methods in natural language processing, volume 1, pages 133-142. Philadelphia, PA. - RATNAPARKHI, A. (1997). A Simple Introduction to Maximum Entropy Models for Natural Language Processing, Tech report. Dept. of Computer and Informative Science, University of Pennsylvania. - SHANNON, C. E. (1948). A Mathematical Theory of Communication, Bell System Technical Journal, vol. 27. (IRIT - Toulouse) 15 février 2013 31 / 31