Modèles phylogéniques de la diversification des langues
1. Modèles phylogéniques de la diversification
des langues
Robin J. Ryder1,2 sous la direction de Geoff K. Nicholls3
1 Centre de Recherche des Mathématiques de la Décision,
Université Paris Dauphine
2 Centre de Recherche en Économie et Statistique, ENSAE
3 Department of Statistics, University of Oxford
Séminaire des thésards du CREST, 15 décembre 2010
R. Ryder Modèles phylogéniques de la diversification des langues
2. Plan
Un peu de linguistique
Un modèle trop bien
Des tests synthétiques merveilleux
Des résultats révolutionnaires
R. Ryder Modèles phylogéniques de la diversification des langues
3. Carles li reis, nostre emper[er]e magnes
Set anz tuz pleins ad estet en Espaigne :
Tresqu’en la mer cunquist la tere altaigne.
N’i ad castel ki devant lui remaigne ;
Mur ne citet n’i est remes a fraindre,
Fors Sarraguce, ki est en une muntaigne.
Chanson de Roland, 1r (XIe siècle)
R. Ryder Modèles phylogéniques de la diversification des langues
4. La plus commune façon d’amollir les coeurs de ceux qu’on a
offensez, lors qu’ayant la vengeance en main, ils nous tiennent
à leur mercy, c’est de les esmouvoir par submission à
commiseration et à pitié.
Montaigne, Essais, I, 1 (1580)
R. Ryder Modèles phylogéniques de la diversification des langues
5. Tes yeux sont si profonds qu’en me penchant pour boire
J’ai vu tous les soleils y venir se mirer
S’y jeter à mourir tous les désespérés
Tes yeux sont si profonds que j’y perds la mémoire
Aragon, Les Yeux d’Elsa (1942)
R. Ryder Modèles phylogéniques de la diversification des langues
6. Et la piaule swingue au son du ghetto, on tape à la porte
Chill c’est trop fort ! baisse le son merde ! j’connais
A chaque fois c’est pareil tant pis il faut qu’ça pète
Et profite en traître des nouveaux albums qu’Rod m’achète
Akhénaton, Juste une pression (2005)
R. Ryder Modèles phylogéniques de la diversification des langues
7. Similarités entre les langues
1 2 3 9
Albanais një dy tre nëntë
Anglais one two three nine
Bengali ek dvi tri nay
Grec hen duo treis ennea
Irlandais aon do tri naoi
Italien uno due tre nove
Persan yak do se noh
Russe odin dva tri devyat
Suédois en tva tre nio
Tocharien A sas wu tre nu
Chinois yi er san jiu
Hébreu ’ehad s(e)nayim selosa tis’a
Turc bir iki üc dokuz
R. Ryder Modèles phylogéniques de la diversification des langues
8. Langues Indo-Européennes modernes
F IGURE: Carte effectuée avec WALS (Dryer et al., 2003)
R. Ryder Modèles phylogéniques de la diversification des langues
9. Diversification des langues
Les langues évoluent d’une façon semblable aux espèces
biologiques
Des similarités entre langues peuvent donner une
indication qu’elles sont cousines
Modèle le plus commun : arbre
R. Ryder Modèles phylogéniques de la diversification des langues
10. Exemple d’arbre
R. Ryder Modèles phylogéniques de la diversification des langues
11. Questions à résoudre
Structure de l’arbre
Âge des nœuds internes
Âge de la racine : 6000-6500 BP ou 8000-9500 BP ?
R. Ryder Modèles phylogéniques de la diversification des langues
12. Vocabulaire de base
100 ou 200 mots, présents dans quasiment toutes les
langues : oiseau, main, manger, rouge...
Possibilité d’emprunt (l’évolution ne suit pas un arbre),
mais :
“Facile” à détecter
Rare
Peu d’influence sur les résultats
R. Ryder Modèles phylogéniques de la diversification des langues
13. Donnée binaires : il meurt
Vieil anglais stierfþ
Vieux haut-allemand stirbit, touwit
Avestique miriiete
Vieux-slave ı ˘
um˘retu
Latin moritur
Osque ?
Classes de cognats
(traits) : Vieil anglais 1 0 0
Vieux haut-allemand 1 1 0
1 {stierfþ, stirbit}
Avestique 0 0 1
2 {touwit}
Vieux-slave 0 0 1
3 ı ˘
{miriiete, um˘retu, Latin 0 0 1
moritur} Osque ? ? ?
R. Ryder Modèles phylogéniques de la diversification des langues
14. Contraintes
Contraintes sur la structure de l’arbre
30 contraintes sur l’âge de certains nœuds ou langues
anciennes
Ces contraintes sont nécessaires pour évaluer les taux et
permettre de dater la racine.
R. Ryder Modèles phylogéniques de la diversification des langues
15. Contraintes
R. Ryder Modèles phylogéniques de la diversification des langues
16. Description du modèle (1)
Les traits naissent à
un taux λ
Les traits disparaissent
à un taux µ
λ et µ sont constants
1 1 0 0 0 0 0 0 0
2 1 0 1 0 0 0 0 0
3 1 0 0 0 0 0 0 1
4 0 0 0 0 1 0 0 0
5 0 0 0 0 1 0 0 0
6 1 1 0 0 0 1 1 0
7 1 1 0 0 0 1 0 0
8 1 0 0 0 0 0 0 0
R. Ryder Modèles phylogéniques de la diversification des langues
17. Description du modèle (2)
Des catastrophes se produisent
à un taux ρ
Lors d’une catastrophe, chaque
trait disparaît avec une
probabilité κ et Poiss(ν) traits
naissent.
λ/µ = ν/κ : le nombre de traits
est constant en moyenne.
1 1 0 0 0 0 0 0 0 0 0 0 0 0 0
2 1 0 1 0 0 0 0 0 0 0 0 0 0 1
3 0 0 0 0 0 0 0 0 0 1 1 0 0 0
4 0 0 0 0 1 0 0 0 0 0 0 0 0 0
5 0 0 0 0 1 0 0 0 0 0 0 0 0 0
6 1 0 0 0 0 1 1 0 0 0 0 0 1 0
7 1 0 0 0 0 1 0 0 0 0 0 0 1 0
8 1 0 0 0 0 0 0 0 0 0 0 0 1 0
R. Ryder Modèles phylogéniques de la diversification des langues
18. Description du modèle (3)
Processus d’observation :
chaque point est manquant
avec une probabilité ξi
Certains traits ne sont pas
observés et ne sont donc pas
inclus dans les données
1 1 0 00 ? 0 0 0 00 ? 0 0 0
2 ? 0 10 0 0 ? 0 00 0 0 0 ?
3 0 ? 00 ? 0 0 0 01 1 0 0 0
4 0 0 00 ? 0 ? 0 00 0 ? 0 0
5 0 0 ?0 1 ? 0 0 00 0 0 0 0
6 1 0 00 0 ? ? 0 ?0 0 0 ? 0
7 ? 0 00 0 ? 0 ? 00 0 0 1 0
8 1 0 00 0 0 0 0 00 0 0 1 0
R. Ryder Modèles phylogéniques de la diversification des langues
26. Test sur des données synthétiques
F IGURE: Vrai arbre, environ 40
mots/langue F IGURE: Arbre consensus
R. Ryder Modèles phylogéniques de la diversification des langues
27. Test sur des données synthétiques (2)
F IGURE: Taux de disparition (µ)
R. Ryder Modèles phylogéniques de la diversification des langues
28. Influence des emprunts (1)
F IGURE: Vrai arbre, environ 40
mots/langue, 10% d’emprunts F IGURE: Arbre consensus
R. Ryder Modèles phylogéniques de la diversification des langues
29. Influence des emprunts (2)
F IGURE: Vrai arbre, environ 40
F IGURE: Arbre consensus
mots/langue, 50% d’emprunts
R. Ryder Modèles phylogéniques de la diversification des langues
30. Influence des emprunts (3)
La structure est bien reconstruite
Les dates sont sous-estimées
F IGURE: Âge de la racine F IGURE: Taux de disparition (µ)
R. Ryder Modèles phylogéniques de la diversification des langues
31. Présence d’emprunts ?
1
0.9
0.8
Ringe 100
b=0
b=0.1
0.7
b=0.5
b=1
0.6
0.5
0.4
2 4 6 8 10 12 14 16 18 20 22 24
R. Ryder Modèles phylogéniques de la diversification des langues
32. Validation croisée
100
10
5
2
0
−2
−5
−10
−100
HI TA TB LU LY OI UM OS LA GK AR GO ON OE OG OS PR AV PE VE CE IT GE WG NW BS BA IR II TG
0
2000
4000
6000
8000
R. Ryder Modèles phylogéniques de la diversification des langues
33. Données
Langues Indo-Européennes
Vocabulaire de base (Swadesh 100 ou 200)
Deux bases de données
Dyen et al. (1997) : 87 langues, surtout modernes
Ringe et al. (2002) : 24 langues, surtout anciennes
R. Ryder Modèles phylogéniques de la diversification des langues
34. MCMC
Logiciel TraitLab, codé en MatLab
R. Ryder Modèles phylogéniques de la diversification des langues
35. R. Ryder Modèles phylogéniques de la diversification des langues
36. R. Ryder Modèles phylogéniques de la diversification des langues
37. R. Ryder Modèles phylogéniques de la diversification des langues
38. R. Ryder Modèles phylogéniques de la diversification des langues
39. R. Ryder Modèles phylogéniques de la diversification des langues
40. R. Ryder Modèles phylogéniques de la diversification des langues
41. R. Ryder Modèles phylogéniques de la diversification des langues
42. R. Ryder Modèles phylogéniques de la diversification des langues
43. R. Ryder Modèles phylogéniques de la diversification des langues
44. R. Ryder Modèles phylogéniques de la diversification des langues
46. Arbre consensus : langues anciennes (données Ringe
et al., 2002)
oldhighgerman
oldenglish
oldnorse
gothic
oscan
umbrian
66
latin
welsh
oldirish
85 oldpersian
avestan
vedic
58
lithuanian
latvian
oldprussian
oldcslavonic
greek
78
armenian
lycian
luvian
hittite
62
tocharian_b
tocharian_a
albanian
8000 7000 6000 5000 4000 3000 2000 1000 0
R. Ryder Modèles phylogéniques de la diversification des langues
47. Âge de la racine
R. Ryder Modèles phylogéniques de la diversification des langues
48. Questions
otázky kesses
spørgsmåler cwestiwnau
pytania preguntes
preguntas vrae
kláusimai Fragen
âîïðîñû quaestiones
˘
întrebari questions
vragen ρωτ η σ ις
´
çàïèòàííi spurningar
domande spørsmåler
questões frågor
vprašanja
R. Ryder Modèles phylogéniques de la diversification des langues
49. Références
R. J. Ryder & G. K. Nicholls, Missing data in a stochastic
Dollo model for cognate data, and its application to the
dating of Proto-Indo-European (2011), JRSS C
G. K. Nicholls, Horses or farmers ? The tower of Babel and
confidence in trees (2008), Significance (vulgarisation)
R. J. Ryder, Phylogenetic Models of Language
Diversification (2010), DPhil. thesis, University of Oxford
R. Ryder Modèles phylogéniques de la diversification des langues