SlideShare une entreprise Scribd logo
1  sur  49
Télécharger pour lire hors ligne
Modèles phylogéniques de la diversification
              des langues

Robin J. Ryder1,2 sous la direction de Geoff K. Nicholls3

       1 Centre   de Recherche des Mathématiques de la Décision,
                        Université Paris Dauphine
      2 Centre    de Recherche en Économie et Statistique, ENSAE
            3 Department    of Statistics, University of Oxford


Séminaire des thésards du CREST, 15 décembre 2010



                            R. Ryder    Modèles phylogéniques de la diversification des langues
Plan




       Un peu de linguistique
       Un modèle trop bien
       Des tests synthétiques merveilleux
       Des résultats révolutionnaires




                             R. Ryder   Modèles phylogéniques de la diversification des langues
Carles li reis, nostre emper[er]e magnes
Set anz tuz pleins ad estet en Espaigne :
Tresqu’en la mer cunquist la tere altaigne.
N’i ad castel ki devant lui remaigne ;
Mur ne citet n’i est remes a fraindre,
Fors Sarraguce, ki est en une muntaigne.

Chanson de Roland, 1r (XIe siècle)




                         R. Ryder   Modèles phylogéniques de la diversification des langues
La plus commune façon d’amollir les coeurs de ceux qu’on a
offensez, lors qu’ayant la vengeance en main, ils nous tiennent
à leur mercy, c’est de les esmouvoir par submission à
commiseration et à pitié.

Montaigne, Essais, I, 1 (1580)




                         R. Ryder   Modèles phylogéniques de la diversification des langues
Tes yeux sont si profonds qu’en me penchant pour boire
J’ai vu tous les soleils y venir se mirer
S’y jeter à mourir tous les désespérés
Tes yeux sont si profonds que j’y perds la mémoire

Aragon, Les Yeux d’Elsa (1942)




                        R. Ryder   Modèles phylogéniques de la diversification des langues
Et la piaule swingue au son du ghetto, on tape à la porte
Chill c’est trop fort ! baisse le son merde ! j’connais
A chaque fois c’est pareil tant pis il faut qu’ça pète
Et profite en traître des nouveaux albums qu’Rod m’achète

Akhénaton, Juste une pression (2005)




                        R. Ryder   Modèles phylogéniques de la diversification des langues
Similarités entre les langues

                        1          2                 3              9
        Albanais       një        dy               tre          nëntë
         Anglais      one        two             three           nine
         Bengali       ek        dvi                tri          nay
           Grec       hen        duo              treis         ennea
        Irlandais     aon         do                tri          naoi
          Italien     uno        due               tre           nove
         Persan       yak         do               se            noh
          Russe       odin       dva                tri         devyat
         Suédois       en        tva               tre            nio
       Tocharien A    sas        wu                tre            nu
         Chinois        yi        er              san              jiu
         Hébreu      ’ehad    s(e)nayim         selosa           tis’a
           Turc        bir        iki              üc           dokuz


                        R. Ryder   Modèles phylogéniques de la diversification des langues
Langues Indo-Européennes modernes




      F IGURE: Carte effectuée avec WALS (Dryer et al., 2003)
                          R. Ryder   Modèles phylogéniques de la diversification des langues
Diversification des langues




     Les langues évoluent d’une façon semblable aux espèces
     biologiques
     Des similarités entre langues peuvent donner une
     indication qu’elles sont cousines
     Modèle le plus commun : arbre




                        R. Ryder   Modèles phylogéniques de la diversification des langues
Exemple d’arbre




                  R. Ryder   Modèles phylogéniques de la diversification des langues
Questions à résoudre




     Structure de l’arbre
     Âge des nœuds internes
     Âge de la racine : 6000-6500 BP ou 8000-9500 BP ?




                            R. Ryder   Modèles phylogéniques de la diversification des langues
Vocabulaire de base




     100 ou 200 mots, présents dans quasiment toutes les
     langues : oiseau, main, manger, rouge...
     Possibilité d’emprunt (l’évolution ne suit pas un arbre),
     mais :
     “Facile” à détecter
     Rare
     Peu d’influence sur les résultats




                           R. Ryder   Modèles phylogéniques de la diversification des langues
Donnée binaires : il meurt

                      Vieil anglais                    stierfþ
                  Vieux haut-allemand              stirbit, touwit
                       Avestique                      miriiete
                      Vieux-slave                         ı ˘
                                                      um˘retu
                          Latin                        moritur
                         Osque                             ?

     Classes       de   cognats
     (traits) :                                Vieil anglais                       1      0      0
                                           Vieux haut-allemand                     1      1      0
       1   {stierfþ, stirbit}
                                                Avestique                          0      0      1
       2   {touwit}
                                               Vieux-slave                         0      0      1
       3                ı ˘
           {miriiete, um˘retu,                     Latin                           0      0      1
           moritur}                               Osque                            ?      ?      ?


                                R. Ryder    Modèles phylogéniques de la diversification des langues
Contraintes




     Contraintes sur la structure de l’arbre
     30 contraintes sur l’âge de certains nœuds ou langues
     anciennes
     Ces contraintes sont nécessaires pour évaluer les taux et
     permettre de dater la racine.




                          R. Ryder   Modèles phylogéniques de la diversification des langues
Contraintes




              R. Ryder   Modèles phylogéniques de la diversification des langues
Description du modèle (1)

                                           Les traits naissent à
                                           un taux λ
                                           Les traits disparaissent
                                           à un taux µ
                                           λ et µ sont constants
                                       1      1   0    0   0    0   0   0    0
                                       2      1   0    1   0    0   0   0    0
                                       3      1   0    0   0    0   0   0    1
                                       4      0   0    0   0    1   0   0    0
                                       5      0   0    0   0    1   0   0    0
                                       6      1   1    0   0    0   1   1    0
                                       7      1   1    0   0    0   1   0    0
                                       8      1   0    0   0    0   0   0    0


                    R. Ryder   Modèles phylogéniques de la diversification des langues
Description du modèle (2)
                                     Des catastrophes se produisent
                                     à un taux ρ
                                     Lors d’une catastrophe, chaque
                                     trait disparaît avec une
                                     probabilité κ et Poiss(ν) traits
                                     naissent.
                                     λ/µ = ν/κ : le nombre de traits
                                     est constant en moyenne.
                               1      1   0   0   0   0   0   0   0   0   0   0   0   0     0
                               2      1   0   1   0   0   0   0   0   0   0   0   0   0     1
                               3      0   0   0   0   0   0   0   0   0   1   1   0   0     0
                               4      0   0   0   0   1   0   0   0   0   0   0   0   0     0
                               5      0   0   0   0   1   0   0   0   0   0   0   0   0     0
                               6      1   0   0   0   0   1   1   0   0   0   0   0   1     0
                               7      1   0   0   0   0   1   0   0   0   0   0   0   1     0
                               8      1   0   0   0   0   0   0   0   0   0   0   0   1     0
                    R. Ryder       Modèles phylogéniques de la diversification des langues
Description du modèle (3)

                                     Processus d’observation :
                                     chaque point est manquant
                                     avec une probabilité ξi
                                     Certains traits ne sont pas
                                     observés et ne sont donc pas
                                     inclus dans les données
                               1      1   0   00     ?   0   0   0   00     ?   0   0   0
                               2      ?   0   10     0   0   ?   0   00     0   0   0   ?
                               3      0   ?   00     ?   0   0   0   01     1   0   0   0
                               4      0   0   00     ?   0   ?   0   00     0   ?   0   0
                               5      0   0   ?0     1   ?   0   0   00     0   0   0   0
                               6      1   0   00     0   ?   ?   0   ?0     0   0   ?   0
                               7      ?   0   00     0   ?   0   ?   00     0   0   1   0
                               8      1   0   00     0   0   0   0   00     0   0   1   0


                    R. Ryder       Modèles phylogéniques de la diversification des langues
Processus d’observation




   0   1   0   0   1   0   1      1       0
   0   0   0   1   1   0   0      1       1
   1   1   0   1   1   1   1      1       1
   1   0   0   1   0   1   1      1       0
   0   0   1   1   1   1   0      0       1




                               R. Ryder       Modèles phylogéniques de la diversification des langues
Processus d’observation




   ?   1   0   0   ?   0   1     1    0
   0   0   ?   ?   1   0   0     1    1
   ?   1   ?   ?   ?   1   ?     1    1
   1   0   0   1   0   1   1     1    0
   0   ?   1   1   1   1   0     0    1




                           R. Ryder   Modèles phylogéniques de la diversification des langues
Processus d’observation




      1    0   ?   0   1     1    0
      0    ?   1   0   0     1    1
      1    ?   ?   1   ?     1    1
      0    1   0   1   1     1    0
      ?    1   1   1   0     0    1




                       R. Ryder   Modèles phylogéniques de la diversification des langues
Processus d’observation




                L(g, θ) = P[D|g, θ, O(D)]
                    ˜
                    λ(t) = λP[O(t)]




                     R. Ryder   Modèles phylogéniques de la diversification des langues
Distribution a posteriori



p(g, µ, λ, κ, ρ, ξ|D = D)
                                                                                                                    
               N
     1 λ               λ
  =             exp −                    P[EZ |Z = (ti , i), g, µ, κ, ξ](1 − e−µ(tj −ti +ki TC ) )
    N! µ               µ
                                 i,j ∈E
                                                                                                           
         N
    ×                           P[M = ω|Z = (ti , i), g, µ](1 − e−µ(tj −ti +ki TC ) )
        a=1       i,j ∈Ea ω∈Ωa
                                                       L
         1               e−ρ|g| (ρ|g|)kT
    ×      p(ρ)fG (g|T )                                   (1 − ξi )Qi ξiN−Qi
        µλ                    kT !
                                                   i=1




                                            R. Ryder        Modèles phylogéniques de la diversification des langues
Calcul de vraisemblance


         P[M = ω|Z = (ti , c), g, µ] =
   (c)
ω∈Ωa
                                                          (c)
  
   δi,c ×
                  P[M = ω|Z = (tc , c), g, µ] si Y (Ωa ) ≥ 1
  
               (c)
  
           ω∈Ωa
  
  
  
                                                          (c)          (c)
   (1−δi,c )+δi,c ×       P[M=ω|Z=(tc , c), g, µ] si Y (Ωa ) = 0 et Q(Ωa ) ≥ 1
  
                        (c)
  
  
                  ω∈Ωa
   (1 − δ ) + δ v (0)
                                                          (c)      (c)
                                                  si Y (Ωa ) + Q(Ωa ) = 0
  
          i,c      i,c c
                                                               (c)
  
                                                      (i.e. Ωa = {∅})
  


                                                                   (c)
                                                  
                                                  1
                                                           si Ωa = {{c}, ∅} ou {{c}}
                  P[M = ω|Z = (tc , c), g, µ] =                (i.e. Dc,a ∈ {?, 1})
                                                                   (c)
            (c)
                                                  
                                                   0        si Ωa = {∅} (i.e. Dc,a = 0)
                                                  
         ω∈Ωa


                                     R. Ryder   Modèles phylogéniques de la diversification des langues
Inférence bayésienne
Chaîne de Markov Monte-Carlo




                   R. Ryder   Modèles phylogéniques de la diversification des langues
Test sur des données synthétiques




   F IGURE: Vrai arbre, environ 40
   mots/langue                              F IGURE: Arbre consensus




                             R. Ryder   Modèles phylogéniques de la diversification des langues
Test sur des données synthétiques (2)




               F IGURE: Taux de disparition (µ)




                       R. Ryder   Modèles phylogéniques de la diversification des langues
Influence des emprunts (1)




   F IGURE: Vrai arbre, environ 40
   mots/langue, 10% d’emprunts              F IGURE: Arbre consensus




                             R. Ryder   Modèles phylogéniques de la diversification des langues
Influence des emprunts (2)




   F IGURE: Vrai arbre, environ 40
                                            F IGURE: Arbre consensus
   mots/langue, 50% d’emprunts




                             R. Ryder   Modèles phylogéniques de la diversification des langues
Influence des emprunts (3)

     La structure est bien reconstruite
     Les dates sont sous-estimées




     F IGURE: Âge de la racine        F IGURE: Taux de disparition (µ)



                           R. Ryder   Modèles phylogéniques de la diversification des langues
Présence d’emprunts ?


        1




       0.9




       0.8




                                                                         Ringe 100
                                                                         b=0
                                                                         b=0.1
       0.7
                                                                         b=0.5
                                                                         b=1




       0.6




       0.5




       0.4
             2   4   6   8       10     12        14     16      18     20           22   24




                             R. Ryder        Modèles phylogéniques de la diversification des langues
Validation croisée


        100




         10

          5

          2

          0

        −2

        −5

       −10




       −100




              HI   TA   TB   LU   LY   OI   UM OS   LA   GK   AR   GO ON OE   OG OS   PR   AV   PE   VE   CE   IT   GE   WG NW BS   BA   IR   II   TG
          0



       2000



       4000



       6000



       8000




                                                                    R. Ryder               Modèles phylogéniques de la diversification des langues
Données




    Langues Indo-Européennes
    Vocabulaire de base (Swadesh 100 ou 200)
    Deux bases de données
    Dyen et al. (1997) : 87 langues, surtout modernes
    Ringe et al. (2002) : 24 langues, surtout anciennes




                        R. Ryder   Modèles phylogéniques de la diversification des langues
MCMC




 Logiciel TraitLab, codé en MatLab




                         R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
Arbre consensus : langues modernes (données Dyen
et al., 1997)
                                                                                                     French_Creole_C
                                                                                                     French_Creole_D
                                                                                                     French
                                                                                                     Walloon
                                                                                                     Provencal
                                                                                                     Portuguese_ST
                                                                                                     Brazilian
                                                                                        95           Spanish
                                                                                                     Catalan
                                                                                                     Italian
                                                                                                     Ladin
                                                                                                 67     Sardinian_N
                                                                                                       Sardinian_C
                                                                                  72                 Sardinian_L
                                                                                                        Vlach
                                   84                                                                   Romanian_List
                                                                                                       Flemish
                                                                                                   72 Afrikaans
                                                                                                      Dutch_List
                                                                                                       Frisian
                                                                                                       German_ST
                                                                                                       Penn_Dutch
                                                                                                       Takitaki
                                                                                                       English_ST
                                                                                                       Swedish_VL
                                                                                                       Swedish_Up
                                                                                                       Swedish_List
                                                                                                       Danish
                                                                                                       Riksmal
                                                                                                       Icelandic_ST
                                                                                                       Faroese
                       93                                                                            Breton_ST
                                                                                                     Breton_SE
                                                                                                     Breton_List
                                                                                                     Welsh_N
                                                                                                     Welsh_C
                                                                                                     Irish_A
                                                                                                     Irish_B
                                                                                               94     Czech_E
                                                                                                      Czech
                                                                                                      Slovak
                77                                                                                    Lusatian_U
                                                                                                      Lusatian_L
                                                                                                      Polish
                                                                                                      Russian
                                                                                                      Ukrainian
                                                                                                      Byelorussian
           77                                                                                         Bulgarian
                                                                                                      Macedonian
                                                                                                      Serbocroatian
                                                                                                      Slovenian
                                                                                                      Lithuanian_O
                                                                                                      Lithuanian_ST
                                                                                                      Latvian
                                                                                                         Greek_MD
                                                                                                         Greek_ML
                                                                                                         Greek_Mod
                                        61                                                               Greek_D
                                                                                                         Greek_K
                                                                                                            Armenian_List
                                                                                                            Armenian_Mod
                                                                              TOCHARIAN_A
                                                                             TOCHARIAN_B
                                                     HITTITE
                                                                                                    Albanian_T
                                                                                                   Albanian_Top
                                                                                                    Albanian_G
                                                                                       94           Albanian_C
                                                                                                    Albanian_K
                                                                                                   Lahnda
                                                                                                   Panjabi_ST
                                                                             81                    Hindi
                                                                                                  Gujarati
                                                                                                  Marathi
                                                                                                Bengali
                                                                                                 Nepali_List
                                                                                                 Khaskura
                                                                                              Singhalese
                                                               76                            Gypsy_Gk
                                                                                              Kashmiri
                                                                                                   Tadzik
                                                                                                   Persian_List
                                                                                                   Wakhi
                                                                                                    Baluchi
                                                                                                   Afghan
                                                                                                   Waziri
                                                                                                   Ossetic


    8000        7000        6000             5000   4000            3000     2000           1000           0



                                                                           R. Ryder                   Modèles phylogéniques de la diversification des langues
Arbre consensus : langues anciennes (données Ringe
et al., 2002)
                                                                                                     oldhighgerman

                                                                                                       oldenglish


                                                                                                           oldnorse



                                                                                           gothic

                                                                                  oscan

                                                                                 umbrian
                               66

                                                                                   latin


                                                                                                                                welsh
                                                                                                         oldirish
                   85                                                         oldpersian
                                                                             avestan

                                                              vedic
             58
                                                                                                                      lithuanian
                                                                                                                      latvian

                                                                                                          oldprussian

                                                                                                    oldcslavonic
                                                                                  greek
                          78
                                                                                                         armenian
                                                                                           lycian
                                                                  luvian

                                                                  hittite
              62
                                                                                                         tocharian_b
                                                                                                         tocharian_a
                                                                                                                    albanian

      8000         7000             6000   5000        4000           3000                 2000               1000                 0



                                                  R. Ryder            Modèles phylogéniques de la diversification des langues
Âge de la racine




                   R. Ryder   Modèles phylogéniques de la diversification des langues
Questions


               otázky                   kesses
            spørgsmåler              cwestiwnau
              pytania                 preguntes
             preguntas                   vrae
             kláusimai                  Fragen
             âîïðîñû                 quaestiones
                   ˘
             întrebari                questions
              vragen                   ρωτ η σ ις
                                           ´
             çàïèòàííi                spurningar
             domande                 spørsmåler
             questões                   frågor
             vprašanja




                         R. Ryder   Modèles phylogéniques de la diversification des langues
Références




     R. J. Ryder & G. K. Nicholls, Missing data in a stochastic
     Dollo model for cognate data, and its application to the
     dating of Proto-Indo-European (2011), JRSS C
     G. K. Nicholls, Horses or farmers ? The tower of Babel and
     confidence in trees (2008), Significance (vulgarisation)
     R. J. Ryder, Phylogenetic Models of Language
     Diversification (2010), DPhil. thesis, University of Oxford




                          R. Ryder   Modèles phylogéniques de la diversification des langues

Contenu connexe

Plus de Robin Ryder

Bayesian Methods for Historical Linguistics
Bayesian Methods for Historical LinguisticsBayesian Methods for Historical Linguistics
Bayesian Methods for Historical LinguisticsRobin Ryder
 
A phylogenetic model of language diversification
A phylogenetic model of language diversificationA phylogenetic model of language diversification
A phylogenetic model of language diversificationRobin Ryder
 
Statistical Methods in Historical Linguistics
Statistical Methods in Historical LinguisticsStatistical Methods in Historical Linguistics
Statistical Methods in Historical LinguisticsRobin Ryder
 
Introduction à ABC
Introduction à ABCIntroduction à ABC
Introduction à ABCRobin Ryder
 
On the convergence properties of the Wang-Landau algorithm
On the convergence properties of the Wang-Landau algorithmOn the convergence properties of the Wang-Landau algorithm
On the convergence properties of the Wang-Landau algorithmRobin Ryder
 
Bayesian case studies, practical 2
Bayesian case studies, practical 2Bayesian case studies, practical 2
Bayesian case studies, practical 2Robin Ryder
 
Bayesian case studies, practical 1
Bayesian case studies, practical 1Bayesian case studies, practical 1
Bayesian case studies, practical 1Robin Ryder
 
Talk at Institut Jean Nicod on 6 October 2010
Talk at Institut Jean Nicod on 6 October 2010Talk at Institut Jean Nicod on 6 October 2010
Talk at Institut Jean Nicod on 6 October 2010Robin Ryder
 
Phylogenetic models and MCMC methods for the reconstruction of language history
Phylogenetic models and MCMC methods for the reconstruction of language historyPhylogenetic models and MCMC methods for the reconstruction of language history
Phylogenetic models and MCMC methods for the reconstruction of language historyRobin Ryder
 
Modèles phylogénétiques de la diversification des langues
Modèles phylogénétiques de la diversification des languesModèles phylogénétiques de la diversification des langues
Modèles phylogénétiques de la diversification des languesRobin Ryder
 
Approximate Bayesian Computation (ABC)
Approximate Bayesian Computation (ABC)Approximate Bayesian Computation (ABC)
Approximate Bayesian Computation (ABC)Robin Ryder
 

Plus de Robin Ryder (11)

Bayesian Methods for Historical Linguistics
Bayesian Methods for Historical LinguisticsBayesian Methods for Historical Linguistics
Bayesian Methods for Historical Linguistics
 
A phylogenetic model of language diversification
A phylogenetic model of language diversificationA phylogenetic model of language diversification
A phylogenetic model of language diversification
 
Statistical Methods in Historical Linguistics
Statistical Methods in Historical LinguisticsStatistical Methods in Historical Linguistics
Statistical Methods in Historical Linguistics
 
Introduction à ABC
Introduction à ABCIntroduction à ABC
Introduction à ABC
 
On the convergence properties of the Wang-Landau algorithm
On the convergence properties of the Wang-Landau algorithmOn the convergence properties of the Wang-Landau algorithm
On the convergence properties of the Wang-Landau algorithm
 
Bayesian case studies, practical 2
Bayesian case studies, practical 2Bayesian case studies, practical 2
Bayesian case studies, practical 2
 
Bayesian case studies, practical 1
Bayesian case studies, practical 1Bayesian case studies, practical 1
Bayesian case studies, practical 1
 
Talk at Institut Jean Nicod on 6 October 2010
Talk at Institut Jean Nicod on 6 October 2010Talk at Institut Jean Nicod on 6 October 2010
Talk at Institut Jean Nicod on 6 October 2010
 
Phylogenetic models and MCMC methods for the reconstruction of language history
Phylogenetic models and MCMC methods for the reconstruction of language historyPhylogenetic models and MCMC methods for the reconstruction of language history
Phylogenetic models and MCMC methods for the reconstruction of language history
 
Modèles phylogénétiques de la diversification des langues
Modèles phylogénétiques de la diversification des languesModèles phylogénétiques de la diversification des langues
Modèles phylogénétiques de la diversification des langues
 
Approximate Bayesian Computation (ABC)
Approximate Bayesian Computation (ABC)Approximate Bayesian Computation (ABC)
Approximate Bayesian Computation (ABC)
 

Dernier

Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptssusercbaa22
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...M2i Formation
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxssusercbaa22
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptssusercbaa22
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptxMalikaIdseaid1
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 

Dernier (16)

Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.ppt
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptx
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 

Modèles phylogéniques de la diversification des langues

  • 1. Modèles phylogéniques de la diversification des langues Robin J. Ryder1,2 sous la direction de Geoff K. Nicholls3 1 Centre de Recherche des Mathématiques de la Décision, Université Paris Dauphine 2 Centre de Recherche en Économie et Statistique, ENSAE 3 Department of Statistics, University of Oxford Séminaire des thésards du CREST, 15 décembre 2010 R. Ryder Modèles phylogéniques de la diversification des langues
  • 2. Plan Un peu de linguistique Un modèle trop bien Des tests synthétiques merveilleux Des résultats révolutionnaires R. Ryder Modèles phylogéniques de la diversification des langues
  • 3. Carles li reis, nostre emper[er]e magnes Set anz tuz pleins ad estet en Espaigne : Tresqu’en la mer cunquist la tere altaigne. N’i ad castel ki devant lui remaigne ; Mur ne citet n’i est remes a fraindre, Fors Sarraguce, ki est en une muntaigne. Chanson de Roland, 1r (XIe siècle) R. Ryder Modèles phylogéniques de la diversification des langues
  • 4. La plus commune façon d’amollir les coeurs de ceux qu’on a offensez, lors qu’ayant la vengeance en main, ils nous tiennent à leur mercy, c’est de les esmouvoir par submission à commiseration et à pitié. Montaigne, Essais, I, 1 (1580) R. Ryder Modèles phylogéniques de la diversification des langues
  • 5. Tes yeux sont si profonds qu’en me penchant pour boire J’ai vu tous les soleils y venir se mirer S’y jeter à mourir tous les désespérés Tes yeux sont si profonds que j’y perds la mémoire Aragon, Les Yeux d’Elsa (1942) R. Ryder Modèles phylogéniques de la diversification des langues
  • 6. Et la piaule swingue au son du ghetto, on tape à la porte Chill c’est trop fort ! baisse le son merde ! j’connais A chaque fois c’est pareil tant pis il faut qu’ça pète Et profite en traître des nouveaux albums qu’Rod m’achète Akhénaton, Juste une pression (2005) R. Ryder Modèles phylogéniques de la diversification des langues
  • 7. Similarités entre les langues 1 2 3 9 Albanais një dy tre nëntë Anglais one two three nine Bengali ek dvi tri nay Grec hen duo treis ennea Irlandais aon do tri naoi Italien uno due tre nove Persan yak do se noh Russe odin dva tri devyat Suédois en tva tre nio Tocharien A sas wu tre nu Chinois yi er san jiu Hébreu ’ehad s(e)nayim selosa tis’a Turc bir iki üc dokuz R. Ryder Modèles phylogéniques de la diversification des langues
  • 8. Langues Indo-Européennes modernes F IGURE: Carte effectuée avec WALS (Dryer et al., 2003) R. Ryder Modèles phylogéniques de la diversification des langues
  • 9. Diversification des langues Les langues évoluent d’une façon semblable aux espèces biologiques Des similarités entre langues peuvent donner une indication qu’elles sont cousines Modèle le plus commun : arbre R. Ryder Modèles phylogéniques de la diversification des langues
  • 10. Exemple d’arbre R. Ryder Modèles phylogéniques de la diversification des langues
  • 11. Questions à résoudre Structure de l’arbre Âge des nœuds internes Âge de la racine : 6000-6500 BP ou 8000-9500 BP ? R. Ryder Modèles phylogéniques de la diversification des langues
  • 12. Vocabulaire de base 100 ou 200 mots, présents dans quasiment toutes les langues : oiseau, main, manger, rouge... Possibilité d’emprunt (l’évolution ne suit pas un arbre), mais : “Facile” à détecter Rare Peu d’influence sur les résultats R. Ryder Modèles phylogéniques de la diversification des langues
  • 13. Donnée binaires : il meurt Vieil anglais stierfþ Vieux haut-allemand stirbit, touwit Avestique miriiete Vieux-slave ı ˘ um˘retu Latin moritur Osque ? Classes de cognats (traits) : Vieil anglais 1 0 0 Vieux haut-allemand 1 1 0 1 {stierfþ, stirbit} Avestique 0 0 1 2 {touwit} Vieux-slave 0 0 1 3 ı ˘ {miriiete, um˘retu, Latin 0 0 1 moritur} Osque ? ? ? R. Ryder Modèles phylogéniques de la diversification des langues
  • 14. Contraintes Contraintes sur la structure de l’arbre 30 contraintes sur l’âge de certains nœuds ou langues anciennes Ces contraintes sont nécessaires pour évaluer les taux et permettre de dater la racine. R. Ryder Modèles phylogéniques de la diversification des langues
  • 15. Contraintes R. Ryder Modèles phylogéniques de la diversification des langues
  • 16. Description du modèle (1) Les traits naissent à un taux λ Les traits disparaissent à un taux µ λ et µ sont constants 1 1 0 0 0 0 0 0 0 2 1 0 1 0 0 0 0 0 3 1 0 0 0 0 0 0 1 4 0 0 0 0 1 0 0 0 5 0 0 0 0 1 0 0 0 6 1 1 0 0 0 1 1 0 7 1 1 0 0 0 1 0 0 8 1 0 0 0 0 0 0 0 R. Ryder Modèles phylogéniques de la diversification des langues
  • 17. Description du modèle (2) Des catastrophes se produisent à un taux ρ Lors d’une catastrophe, chaque trait disparaît avec une probabilité κ et Poiss(ν) traits naissent. λ/µ = ν/κ : le nombre de traits est constant en moyenne. 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 1 0 0 0 0 0 0 0 0 0 0 1 3 0 0 0 0 0 0 0 0 0 1 1 0 0 0 4 0 0 0 0 1 0 0 0 0 0 0 0 0 0 5 0 0 0 0 1 0 0 0 0 0 0 0 0 0 6 1 0 0 0 0 1 1 0 0 0 0 0 1 0 7 1 0 0 0 0 1 0 0 0 0 0 0 1 0 8 1 0 0 0 0 0 0 0 0 0 0 0 1 0 R. Ryder Modèles phylogéniques de la diversification des langues
  • 18. Description du modèle (3) Processus d’observation : chaque point est manquant avec une probabilité ξi Certains traits ne sont pas observés et ne sont donc pas inclus dans les données 1 1 0 00 ? 0 0 0 00 ? 0 0 0 2 ? 0 10 0 0 ? 0 00 0 0 0 ? 3 0 ? 00 ? 0 0 0 01 1 0 0 0 4 0 0 00 ? 0 ? 0 00 0 ? 0 0 5 0 0 ?0 1 ? 0 0 00 0 0 0 0 6 1 0 00 0 ? ? 0 ?0 0 0 ? 0 7 ? 0 00 0 ? 0 ? 00 0 0 1 0 8 1 0 00 0 0 0 0 00 0 0 1 0 R. Ryder Modèles phylogéniques de la diversification des langues
  • 19. Processus d’observation 0 1 0 0 1 0 1 1 0 0 0 0 1 1 0 0 1 1 1 1 0 1 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 1 1 1 1 0 0 1 R. Ryder Modèles phylogéniques de la diversification des langues
  • 20. Processus d’observation ? 1 0 0 ? 0 1 1 0 0 0 ? ? 1 0 0 1 1 ? 1 ? ? ? 1 ? 1 1 1 0 0 1 0 1 1 1 0 0 ? 1 1 1 1 0 0 1 R. Ryder Modèles phylogéniques de la diversification des langues
  • 21. Processus d’observation 1 0 ? 0 1 1 0 0 ? 1 0 0 1 1 1 ? ? 1 ? 1 1 0 1 0 1 1 1 0 ? 1 1 1 0 0 1 R. Ryder Modèles phylogéniques de la diversification des langues
  • 22. Processus d’observation L(g, θ) = P[D|g, θ, O(D)] ˜ λ(t) = λP[O(t)] R. Ryder Modèles phylogéniques de la diversification des langues
  • 23. Distribution a posteriori p(g, µ, λ, κ, ρ, ξ|D = D)   N 1 λ λ = exp − P[EZ |Z = (ti , i), g, µ, κ, ξ](1 − e−µ(tj −ti +ki TC ) ) N! µ µ i,j ∈E   N ×  P[M = ω|Z = (ti , i), g, µ](1 − e−µ(tj −ti +ki TC ) ) a=1 i,j ∈Ea ω∈Ωa L 1 e−ρ|g| (ρ|g|)kT × p(ρ)fG (g|T ) (1 − ξi )Qi ξiN−Qi µλ kT ! i=1 R. Ryder Modèles phylogéniques de la diversification des langues
  • 24. Calcul de vraisemblance P[M = ω|Z = (ti , c), g, µ] = (c) ω∈Ωa (c)   δi,c ×  P[M = ω|Z = (tc , c), g, µ] si Y (Ωa ) ≥ 1  (c)  ω∈Ωa     (c) (c) (1−δi,c )+δi,c × P[M=ω|Z=(tc , c), g, µ] si Y (Ωa ) = 0 et Q(Ωa ) ≥ 1  (c)    ω∈Ωa  (1 − δ ) + δ v (0)  (c) (c) si Y (Ωa ) + Q(Ωa ) = 0   i,c i,c c (c)  (i.e. Ωa = {∅})  (c)  1  si Ωa = {{c}, ∅} ou {{c}} P[M = ω|Z = (tc , c), g, µ] = (i.e. Dc,a ∈ {?, 1}) (c) (c)  0 si Ωa = {∅} (i.e. Dc,a = 0)  ω∈Ωa R. Ryder Modèles phylogéniques de la diversification des langues
  • 25. Inférence bayésienne Chaîne de Markov Monte-Carlo R. Ryder Modèles phylogéniques de la diversification des langues
  • 26. Test sur des données synthétiques F IGURE: Vrai arbre, environ 40 mots/langue F IGURE: Arbre consensus R. Ryder Modèles phylogéniques de la diversification des langues
  • 27. Test sur des données synthétiques (2) F IGURE: Taux de disparition (µ) R. Ryder Modèles phylogéniques de la diversification des langues
  • 28. Influence des emprunts (1) F IGURE: Vrai arbre, environ 40 mots/langue, 10% d’emprunts F IGURE: Arbre consensus R. Ryder Modèles phylogéniques de la diversification des langues
  • 29. Influence des emprunts (2) F IGURE: Vrai arbre, environ 40 F IGURE: Arbre consensus mots/langue, 50% d’emprunts R. Ryder Modèles phylogéniques de la diversification des langues
  • 30. Influence des emprunts (3) La structure est bien reconstruite Les dates sont sous-estimées F IGURE: Âge de la racine F IGURE: Taux de disparition (µ) R. Ryder Modèles phylogéniques de la diversification des langues
  • 31. Présence d’emprunts ? 1 0.9 0.8 Ringe 100 b=0 b=0.1 0.7 b=0.5 b=1 0.6 0.5 0.4 2 4 6 8 10 12 14 16 18 20 22 24 R. Ryder Modèles phylogéniques de la diversification des langues
  • 32. Validation croisée 100 10 5 2 0 −2 −5 −10 −100 HI TA TB LU LY OI UM OS LA GK AR GO ON OE OG OS PR AV PE VE CE IT GE WG NW BS BA IR II TG 0 2000 4000 6000 8000 R. Ryder Modèles phylogéniques de la diversification des langues
  • 33. Données Langues Indo-Européennes Vocabulaire de base (Swadesh 100 ou 200) Deux bases de données Dyen et al. (1997) : 87 langues, surtout modernes Ringe et al. (2002) : 24 langues, surtout anciennes R. Ryder Modèles phylogéniques de la diversification des langues
  • 34. MCMC Logiciel TraitLab, codé en MatLab R. Ryder Modèles phylogéniques de la diversification des langues
  • 35. R. Ryder Modèles phylogéniques de la diversification des langues
  • 36. R. Ryder Modèles phylogéniques de la diversification des langues
  • 37. R. Ryder Modèles phylogéniques de la diversification des langues
  • 38. R. Ryder Modèles phylogéniques de la diversification des langues
  • 39. R. Ryder Modèles phylogéniques de la diversification des langues
  • 40. R. Ryder Modèles phylogéniques de la diversification des langues
  • 41. R. Ryder Modèles phylogéniques de la diversification des langues
  • 42. R. Ryder Modèles phylogéniques de la diversification des langues
  • 43. R. Ryder Modèles phylogéniques de la diversification des langues
  • 44. R. Ryder Modèles phylogéniques de la diversification des langues
  • 45. Arbre consensus : langues modernes (données Dyen et al., 1997) French_Creole_C French_Creole_D French Walloon Provencal Portuguese_ST Brazilian 95 Spanish Catalan Italian Ladin 67 Sardinian_N Sardinian_C 72 Sardinian_L Vlach 84 Romanian_List Flemish 72 Afrikaans Dutch_List Frisian German_ST Penn_Dutch Takitaki English_ST Swedish_VL Swedish_Up Swedish_List Danish Riksmal Icelandic_ST Faroese 93 Breton_ST Breton_SE Breton_List Welsh_N Welsh_C Irish_A Irish_B 94 Czech_E Czech Slovak 77 Lusatian_U Lusatian_L Polish Russian Ukrainian Byelorussian 77 Bulgarian Macedonian Serbocroatian Slovenian Lithuanian_O Lithuanian_ST Latvian Greek_MD Greek_ML Greek_Mod 61 Greek_D Greek_K Armenian_List Armenian_Mod TOCHARIAN_A TOCHARIAN_B HITTITE Albanian_T Albanian_Top Albanian_G 94 Albanian_C Albanian_K Lahnda Panjabi_ST 81 Hindi Gujarati Marathi Bengali Nepali_List Khaskura Singhalese 76 Gypsy_Gk Kashmiri Tadzik Persian_List Wakhi Baluchi Afghan Waziri Ossetic 8000 7000 6000 5000 4000 3000 2000 1000 0 R. Ryder Modèles phylogéniques de la diversification des langues
  • 46. Arbre consensus : langues anciennes (données Ringe et al., 2002) oldhighgerman oldenglish oldnorse gothic oscan umbrian 66 latin welsh oldirish 85 oldpersian avestan vedic 58 lithuanian latvian oldprussian oldcslavonic greek 78 armenian lycian luvian hittite 62 tocharian_b tocharian_a albanian 8000 7000 6000 5000 4000 3000 2000 1000 0 R. Ryder Modèles phylogéniques de la diversification des langues
  • 47. Âge de la racine R. Ryder Modèles phylogéniques de la diversification des langues
  • 48. Questions otázky kesses spørgsmåler cwestiwnau pytania preguntes preguntas vrae kláusimai Fragen âîïðîñû quaestiones ˘ întrebari questions vragen ρωτ η σ ις ´ çàïèòàííi spurningar domande spørsmåler questões frågor vprašanja R. Ryder Modèles phylogéniques de la diversification des langues
  • 49. Références R. J. Ryder & G. K. Nicholls, Missing data in a stochastic Dollo model for cognate data, and its application to the dating of Proto-Indo-European (2011), JRSS C G. K. Nicholls, Horses or farmers ? The tower of Babel and confidence in trees (2008), Significance (vulgarisation) R. J. Ryder, Phylogenetic Models of Language Diversification (2010), DPhil. thesis, University of Oxford R. Ryder Modèles phylogéniques de la diversification des langues