1. OrthoMCL: Identification of Ortholog Groups for
Eukaryotic Genomes Li et al. Genome Res. (2003)
Présenté par Marc-André Legault
2. Introduction – Orthologie
2
https://genomevolution.org/wiki/index.php/Ortholog
• Les orthologues
partagent un rôle
fonctionnel
• Les paralogues
récents aussi
3. Introduction – Reciprocal Best Hits
Espèce 1 Espèce 2
Gène A Gène A’
Gène B’
Gène C’
3
Et vice versa…
5
1
2
4. Introduction – Reciprocal Best Hits
Espèce 1 Espèce 2
Gène A Gène A’
4
5
Gène B
Gène C
2
1
• Alignement A – A’
est optimal dans les
deux directions
• Qu’arrive-t-il avec
des paralogues
(récents)?
5. Introduction – Reciprocal Best Hits
Espèce 1 Espèce 2
Gène A Gène A’
5
5
Paralogue A
Gène B
6
1
• Le hit n’est plus
réciproque!
• Possibilité de faux
positifs et faux
négatifs
• Dépend de BLAST
6. Introduction – Reciprocal Best Hits
• RBH fonctionne bien dans les cas simples
6
• Génomes eucaryotes:
Redondance fonctionnelle
Structures à plusieurs domaines
Séquençage incomplet
7. OrthoMCL – Objectifs
• Ajouter les paralogues récents aux groupes
7
d’orthologues
• Prendre plusieurs espèces en charge de façon
simultanée
8. OrthoMCL – Méthodes
• Utilisation de WU-BLASTP pour chaque gène
• Construction du graphe pondéré par le score
8
d’alignement
• Les paralogues potentiels sont ajoutés ssi. ils ont un
meilleur score que n’importe quelle paire
d’orthologues
9. OrthoMCL – Méthodes
• Différence entre les scores de paralogues récents
(plus similaires) et d’orthologues
• Différence en comparant différentes espèces
• Éviter des biais à l’étape du partitionnement
9
10. OrthoMCL – Markov Cluster Algorithm
• Approches de
10
partitionnement (clustering)
• Non supervisé
• Trouver des regroupements
d’éléments similaires
Exemple de clustering vectoriel
doi:10.1186/gb-2012-13-7-r64
11. OrthoMCL – Markov Cluster Algorithm
• Marche aléatoire dans le graphe
• La marche passe plus des temps à
11
l’intérieur des clusters
https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdf
http://micans.org/mcl/ani/mcl-animation.html
12. OrthoMCL – Markov Cluster Algorithm
• La marche dans le graphe peut être représentée par une chaine de
12
Markov
• La marche se fait par exponentiation de la matrice (expansion)
• Les noeuds d’un même cluster auront de plus grands poids
• MCL utilise l’opération de r-inflation pour renforcer cet effet
https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdf
La matrice est ensuite
normalisée par colonne
14. Résultats – Comparaison des méthodes
• InParanoid: Algorithme similaire, mais qui peut
traiter seulement des paires d’espèces
• N’exige pas que les alignements entre parangonnes
soient meilleurs que pour les orthologues
14
15. Résultats – Comparaison des méthodes
• Identification des orthologues entre le ver et la
15
drosophile
• Environ 30% des séquences regroupées (sur 33 062)
• Méthodes relativement cohérentes entre elles
OrthoMCL 0.62 10.23 1.13
InParanoid
Les valeurs sont des milliers de séquences
16. Résultats – Comparaison des méthodes
• Identification des orthologues entre le ver et la
16
drosophile et la levure
• Comparaison avec EGO (capable de gérer des triplets
d’espèces)
• 35% des séquences classées par OrthoMCL vs. 13%
pour EGO
OrthoMCL 9.14 4.72 0.57 EGO
17. Résultats – Comparaison des méthodes
• Étendre un ensemble: Lorsqu’un groupe d’orthologues
est un sous-ensemble d’un groupe identifié par l’autre
méthode considérée.
• 70 groupe OrthoMCL étendus par EGO
• 2038 groupes EGO étendus par OrthoMCL
• Suggère une plus grande sensibilité de OrthoMCL
17
snb-1
Syb
SNC1
snb-1 Syb
SNC1
n-syb
EGO
OrthoMCL
18. Résultats – Relation avec la fonction
• Utilisation d’enzymes avec un numéro EC
• EC (Enzyme Commission Number): Classification
systématique de la fonction des enzymes
e.g. EC 3.4.11.4
• 3 Hydrolases
• 4 … agissant sur des liens peptidiques
• 11 … clivant l’acide aminé terminal
• 4 … d’un tri-peptide
18
19. Résultats – Relation avec la fonction
• 7 protéomes, 3562 séquences avec numéro EC
• 88% des groupes avec au moins 2 séquences
annotées avaient la même annotation
• Suggère que OrthoMCL est un bon candidat pour
l’annotation fonctionnelle
http://cgm.cs.mcgill.ca/~godfried/teaching/projects.pr.98/sergei/figure/figure2.gif
19
20. Résultats – Annotation
• Le parasite protozoaire Plasmodium falciparum causant
la forme la plus sévère de malaria
• Annotation de protéines prédites
• S’il n’y a pas d’orthologue, on peut envisager des
thérapies ciblées
http://upload.wikimedia.org/wikipedia/commons/f/fc/Plasmodium_falciparum_01.png
20
21. Résultats – Annotation
• 175 protéines sans numéro EC se sont retrouvées
dans des groupes avec au moins une séquence
annotée
• Certaines de ces protéines étaient connues, mais
d’autres étaient seulement prédites
• Plusieurs (137) annotations prédites ont été confirmées
• L’absence de gènes animaux dans des regroupements
est aussi intéressant (traitement)
21
22. Discussion – Défis
Considérations Techniques
• Génome eucaryotes ont un haut taux de
duplication
• Paralogues récents (même fonction)
• Paralogues anciens (fonction divergente)
• Alignements sensibles à l’architecture en
domaines des protéines
22 http://www.endocytosis.org/EHDs/EHD2_Dimer.gif
23. Discussion – Défis
Considérations Techniques (suite)
23
• Génomes incomplets
• L’approche RBH peut identifier des substituts
• Le clustering dans le graphe permet d’éliminer ces
faux positifs
24. Conclusions (de l’article)
• Fonctionne aussi bien que InParanoid pour 2
24
espèces
• Forme des groupes cohérents avec EGO pour 3
espèces
• Perspectives pour l’annotation de protéines prédites
• Identification de cibles thérapeutiques spécifiques
25. Améliorations
• Pour la création du graphe initial
• Intégrer la structure tri-dimensionnelle
• Approche basée sur les domaines protéiques
• Normalization dans la matrice
• Algorithme de partitionnement
25
26. Proteinortho
• Création du graphe basé sur une fraction f du score
26
maximal
• BLAST sur des protéines séparées (versus BDD
agrégées)
• Permet d’éviter la normalisation des poids du
graphe
• Facile à paralléliser
27. Proteinortho
• Partitionnement spectral (au lieu de MCL)
• Calcul des eigenvecteurs et eigenvaleurs (휆) de la
matrice laplacienne (L)
• Le eigenvecteur de la deuxième plus petite
eigenvaleure (vecteur de Fiedler) forme la division
optimale du graphe
• Itération du partitionnement tant qu’il reste des
composantes de faible connectivité
27
28. Conclusion
Modèle générique des approches par séquence:
• Développements algorithmiques
possibles
• Meilleure identification de
séquences similaires
• Meilleur regroupement
28
Séquences
BLAST
Création du graphe
Partitionnement
Groupes d’orthologues
29. Conclusion
29
• Projet proposé
• Remplacer l’alignement par des techniques d’analyse de séquence
• Remplacer le partitionnement du graphe par une partitionnement
vectoriel
http://nbviewer.ipython.org/github/legaultmarc/genometools/blob/master/demos/Sequence%20analysis.ipynb