SlideShare ist ein Scribd-Unternehmen logo
1 von 31
OrthoMCL: Identification of Ortholog Groups for 
Eukaryotic Genomes Li et al. Genome Res. (2003) 
Présenté par Marc-André Legault
Introduction – Orthologie 
2 
https://genomevolution.org/wiki/index.php/Ortholog 
• Les orthologues 
partagent un rôle 
fonctionnel 
• Les paralogues 
récents aussi
Introduction – Reciprocal Best Hits 
Espèce 1 Espèce 2 
Gène A Gène A’ 
Gène B’ 
Gène C’ 
3 
Et vice versa… 
5 
1 
2
Introduction – Reciprocal Best Hits 
Espèce 1 Espèce 2 
Gène A Gène A’ 
4 
5 
Gène B 
Gène C 
2 
1 
• Alignement A – A’ 
est optimal dans les 
deux directions 
• Qu’arrive-t-il avec 
des paralogues 
(récents)?
Introduction – Reciprocal Best Hits 
Espèce 1 Espèce 2 
Gène A Gène A’ 
5 
5 
Paralogue A 
Gène B 
6 
1 
• Le hit n’est plus 
réciproque! 
• Possibilité de faux 
positifs et faux 
négatifs 
• Dépend de BLAST
Introduction – Reciprocal Best Hits 
• RBH fonctionne bien dans les cas simples 
6 
• Génomes eucaryotes: 
Redondance fonctionnelle 
Structures à plusieurs domaines 
Séquençage incomplet
OrthoMCL – Objectifs 
• Ajouter les paralogues récents aux groupes 
7 
d’orthologues 
• Prendre plusieurs espèces en charge de façon 
simultanée
OrthoMCL – Méthodes 
• Utilisation de WU-BLASTP pour chaque gène 
• Construction du graphe pondéré par le score 
8 
d’alignement 
• Les paralogues potentiels sont ajoutés ssi. ils ont un 
meilleur score que n’importe quelle paire 
d’orthologues
OrthoMCL – Méthodes 
• Différence entre les scores de paralogues récents 
(plus similaires) et d’orthologues 
• Différence en comparant différentes espèces 
• Éviter des biais à l’étape du partitionnement 
9
OrthoMCL – Markov Cluster Algorithm 
• Approches de 
10 
partitionnement (clustering) 
• Non supervisé 
• Trouver des regroupements 
d’éléments similaires 
Exemple de clustering vectoriel 
doi:10.1186/gb-2012-13-7-r64
OrthoMCL – Markov Cluster Algorithm 
• Marche aléatoire dans le graphe 
• La marche passe plus des temps à 
11 
l’intérieur des clusters 
https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdf 
http://micans.org/mcl/ani/mcl-animation.html
OrthoMCL – Markov Cluster Algorithm 
• La marche dans le graphe peut être représentée par une chaine de 
12 
Markov 
• La marche se fait par exponentiation de la matrice (expansion) 
• Les noeuds d’un même cluster auront de plus grands poids 
• MCL utilise l’opération de r-inflation pour renforcer cet effet 
https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdf 
La matrice est ensuite 
normalisée par colonne
OrthoMCL – Résumé de l’algorithme 
13
Résultats – Comparaison des méthodes 
• InParanoid: Algorithme similaire, mais qui peut 
traiter seulement des paires d’espèces 
• N’exige pas que les alignements entre parangonnes 
soient meilleurs que pour les orthologues 
14
Résultats – Comparaison des méthodes 
• Identification des orthologues entre le ver et la 
15 
drosophile 
• Environ 30% des séquences regroupées (sur 33 062) 
• Méthodes relativement cohérentes entre elles 
OrthoMCL 0.62 10.23 1.13 
InParanoid 
Les valeurs sont des milliers de séquences
Résultats – Comparaison des méthodes 
• Identification des orthologues entre le ver et la 
16 
drosophile et la levure 
• Comparaison avec EGO (capable de gérer des triplets 
d’espèces) 
• 35% des séquences classées par OrthoMCL vs. 13% 
pour EGO 
OrthoMCL 9.14 4.72 0.57 EGO
Résultats – Comparaison des méthodes 
• Étendre un ensemble: Lorsqu’un groupe d’orthologues 
est un sous-ensemble d’un groupe identifié par l’autre 
méthode considérée. 
• 70 groupe OrthoMCL étendus par EGO 
• 2038 groupes EGO étendus par OrthoMCL 
• Suggère une plus grande sensibilité de OrthoMCL 
17 
snb-1 
Syb 
SNC1 
snb-1 Syb 
SNC1 
n-syb 
EGO 
OrthoMCL
Résultats – Relation avec la fonction 
• Utilisation d’enzymes avec un numéro EC 
• EC (Enzyme Commission Number): Classification 
systématique de la fonction des enzymes 
e.g. EC 3.4.11.4 
• 3 Hydrolases 
• 4 … agissant sur des liens peptidiques 
• 11 … clivant l’acide aminé terminal 
• 4 … d’un tri-peptide 
18
Résultats – Relation avec la fonction 
• 7 protéomes, 3562 séquences avec numéro EC 
• 88% des groupes avec au moins 2 séquences 
annotées avaient la même annotation 
• Suggère que OrthoMCL est un bon candidat pour 
l’annotation fonctionnelle 
http://cgm.cs.mcgill.ca/~godfried/teaching/projects.pr.98/sergei/figure/figure2.gif 
19
Résultats – Annotation 
• Le parasite protozoaire Plasmodium falciparum causant 
la forme la plus sévère de malaria 
• Annotation de protéines prédites 
• S’il n’y a pas d’orthologue, on peut envisager des 
thérapies ciblées 
http://upload.wikimedia.org/wikipedia/commons/f/fc/Plasmodium_falciparum_01.png 
20
Résultats – Annotation 
• 175 protéines sans numéro EC se sont retrouvées 
dans des groupes avec au moins une séquence 
annotée 
• Certaines de ces protéines étaient connues, mais 
d’autres étaient seulement prédites 
• Plusieurs (137) annotations prédites ont été confirmées 
• L’absence de gènes animaux dans des regroupements 
est aussi intéressant (traitement) 
21
Discussion – Défis 
Considérations Techniques 
• Génome eucaryotes ont un haut taux de 
duplication 
• Paralogues récents (même fonction) 
• Paralogues anciens (fonction divergente) 
• Alignements sensibles à l’architecture en 
domaines des protéines 
22 http://www.endocytosis.org/EHDs/EHD2_Dimer.gif
Discussion – Défis 
Considérations Techniques (suite) 
23 
• Génomes incomplets 
• L’approche RBH peut identifier des substituts 
• Le clustering dans le graphe permet d’éliminer ces 
faux positifs
Conclusions (de l’article) 
• Fonctionne aussi bien que InParanoid pour 2 
24 
espèces 
• Forme des groupes cohérents avec EGO pour 3 
espèces 
• Perspectives pour l’annotation de protéines prédites 
• Identification de cibles thérapeutiques spécifiques
Améliorations 
• Pour la création du graphe initial 
• Intégrer la structure tri-dimensionnelle 
• Approche basée sur les domaines protéiques 
• Normalization dans la matrice 
• Algorithme de partitionnement 
25
Proteinortho 
• Création du graphe basé sur une fraction f du score 
26 
maximal 
• BLAST sur des protéines séparées (versus BDD 
agrégées) 
• Permet d’éviter la normalisation des poids du 
graphe 
• Facile à paralléliser
Proteinortho 
• Partitionnement spectral (au lieu de MCL) 
• Calcul des eigenvecteurs et eigenvaleurs (휆) de la 
matrice laplacienne (L) 
• Le eigenvecteur de la deuxième plus petite 
eigenvaleure (vecteur de Fiedler) forme la division 
optimale du graphe 
• Itération du partitionnement tant qu’il reste des 
composantes de faible connectivité 
27
Conclusion 
Modèle générique des approches par séquence: 
• Développements algorithmiques 
possibles 
• Meilleure identification de 
séquences similaires 
• Meilleur regroupement 
28 
Séquences 
BLAST 
Création du graphe 
Partitionnement 
Groupes d’orthologues
Conclusion 
29 
• Projet proposé 
• Remplacer l’alignement par des techniques d’analyse de séquence 
• Remplacer le partitionnement du graphe par une partitionnement 
vectoriel 
http://nbviewer.ipython.org/github/legaultmarc/genometools/blob/master/demos/Sequence%20analysis.ipynb
Questions 
30
31

Weitere ähnliche Inhalte

Empfohlen

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Empfohlen (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

OrthoMCL Presentation (French)

  • 1. OrthoMCL: Identification of Ortholog Groups for Eukaryotic Genomes Li et al. Genome Res. (2003) Présenté par Marc-André Legault
  • 2. Introduction – Orthologie 2 https://genomevolution.org/wiki/index.php/Ortholog • Les orthologues partagent un rôle fonctionnel • Les paralogues récents aussi
  • 3. Introduction – Reciprocal Best Hits Espèce 1 Espèce 2 Gène A Gène A’ Gène B’ Gène C’ 3 Et vice versa… 5 1 2
  • 4. Introduction – Reciprocal Best Hits Espèce 1 Espèce 2 Gène A Gène A’ 4 5 Gène B Gène C 2 1 • Alignement A – A’ est optimal dans les deux directions • Qu’arrive-t-il avec des paralogues (récents)?
  • 5. Introduction – Reciprocal Best Hits Espèce 1 Espèce 2 Gène A Gène A’ 5 5 Paralogue A Gène B 6 1 • Le hit n’est plus réciproque! • Possibilité de faux positifs et faux négatifs • Dépend de BLAST
  • 6. Introduction – Reciprocal Best Hits • RBH fonctionne bien dans les cas simples 6 • Génomes eucaryotes: Redondance fonctionnelle Structures à plusieurs domaines Séquençage incomplet
  • 7. OrthoMCL – Objectifs • Ajouter les paralogues récents aux groupes 7 d’orthologues • Prendre plusieurs espèces en charge de façon simultanée
  • 8. OrthoMCL – Méthodes • Utilisation de WU-BLASTP pour chaque gène • Construction du graphe pondéré par le score 8 d’alignement • Les paralogues potentiels sont ajoutés ssi. ils ont un meilleur score que n’importe quelle paire d’orthologues
  • 9. OrthoMCL – Méthodes • Différence entre les scores de paralogues récents (plus similaires) et d’orthologues • Différence en comparant différentes espèces • Éviter des biais à l’étape du partitionnement 9
  • 10. OrthoMCL – Markov Cluster Algorithm • Approches de 10 partitionnement (clustering) • Non supervisé • Trouver des regroupements d’éléments similaires Exemple de clustering vectoriel doi:10.1186/gb-2012-13-7-r64
  • 11. OrthoMCL – Markov Cluster Algorithm • Marche aléatoire dans le graphe • La marche passe plus des temps à 11 l’intérieur des clusters https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdf http://micans.org/mcl/ani/mcl-animation.html
  • 12. OrthoMCL – Markov Cluster Algorithm • La marche dans le graphe peut être représentée par une chaine de 12 Markov • La marche se fait par exponentiation de la matrice (expansion) • Les noeuds d’un même cluster auront de plus grands poids • MCL utilise l’opération de r-inflation pour renforcer cet effet https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdf La matrice est ensuite normalisée par colonne
  • 13. OrthoMCL – Résumé de l’algorithme 13
  • 14. Résultats – Comparaison des méthodes • InParanoid: Algorithme similaire, mais qui peut traiter seulement des paires d’espèces • N’exige pas que les alignements entre parangonnes soient meilleurs que pour les orthologues 14
  • 15. Résultats – Comparaison des méthodes • Identification des orthologues entre le ver et la 15 drosophile • Environ 30% des séquences regroupées (sur 33 062) • Méthodes relativement cohérentes entre elles OrthoMCL 0.62 10.23 1.13 InParanoid Les valeurs sont des milliers de séquences
  • 16. Résultats – Comparaison des méthodes • Identification des orthologues entre le ver et la 16 drosophile et la levure • Comparaison avec EGO (capable de gérer des triplets d’espèces) • 35% des séquences classées par OrthoMCL vs. 13% pour EGO OrthoMCL 9.14 4.72 0.57 EGO
  • 17. Résultats – Comparaison des méthodes • Étendre un ensemble: Lorsqu’un groupe d’orthologues est un sous-ensemble d’un groupe identifié par l’autre méthode considérée. • 70 groupe OrthoMCL étendus par EGO • 2038 groupes EGO étendus par OrthoMCL • Suggère une plus grande sensibilité de OrthoMCL 17 snb-1 Syb SNC1 snb-1 Syb SNC1 n-syb EGO OrthoMCL
  • 18. Résultats – Relation avec la fonction • Utilisation d’enzymes avec un numéro EC • EC (Enzyme Commission Number): Classification systématique de la fonction des enzymes e.g. EC 3.4.11.4 • 3 Hydrolases • 4 … agissant sur des liens peptidiques • 11 … clivant l’acide aminé terminal • 4 … d’un tri-peptide 18
  • 19. Résultats – Relation avec la fonction • 7 protéomes, 3562 séquences avec numéro EC • 88% des groupes avec au moins 2 séquences annotées avaient la même annotation • Suggère que OrthoMCL est un bon candidat pour l’annotation fonctionnelle http://cgm.cs.mcgill.ca/~godfried/teaching/projects.pr.98/sergei/figure/figure2.gif 19
  • 20. Résultats – Annotation • Le parasite protozoaire Plasmodium falciparum causant la forme la plus sévère de malaria • Annotation de protéines prédites • S’il n’y a pas d’orthologue, on peut envisager des thérapies ciblées http://upload.wikimedia.org/wikipedia/commons/f/fc/Plasmodium_falciparum_01.png 20
  • 21. Résultats – Annotation • 175 protéines sans numéro EC se sont retrouvées dans des groupes avec au moins une séquence annotée • Certaines de ces protéines étaient connues, mais d’autres étaient seulement prédites • Plusieurs (137) annotations prédites ont été confirmées • L’absence de gènes animaux dans des regroupements est aussi intéressant (traitement) 21
  • 22. Discussion – Défis Considérations Techniques • Génome eucaryotes ont un haut taux de duplication • Paralogues récents (même fonction) • Paralogues anciens (fonction divergente) • Alignements sensibles à l’architecture en domaines des protéines 22 http://www.endocytosis.org/EHDs/EHD2_Dimer.gif
  • 23. Discussion – Défis Considérations Techniques (suite) 23 • Génomes incomplets • L’approche RBH peut identifier des substituts • Le clustering dans le graphe permet d’éliminer ces faux positifs
  • 24. Conclusions (de l’article) • Fonctionne aussi bien que InParanoid pour 2 24 espèces • Forme des groupes cohérents avec EGO pour 3 espèces • Perspectives pour l’annotation de protéines prédites • Identification de cibles thérapeutiques spécifiques
  • 25. Améliorations • Pour la création du graphe initial • Intégrer la structure tri-dimensionnelle • Approche basée sur les domaines protéiques • Normalization dans la matrice • Algorithme de partitionnement 25
  • 26. Proteinortho • Création du graphe basé sur une fraction f du score 26 maximal • BLAST sur des protéines séparées (versus BDD agrégées) • Permet d’éviter la normalisation des poids du graphe • Facile à paralléliser
  • 27. Proteinortho • Partitionnement spectral (au lieu de MCL) • Calcul des eigenvecteurs et eigenvaleurs (휆) de la matrice laplacienne (L) • Le eigenvecteur de la deuxième plus petite eigenvaleure (vecteur de Fiedler) forme la division optimale du graphe • Itération du partitionnement tant qu’il reste des composantes de faible connectivité 27
  • 28. Conclusion Modèle générique des approches par séquence: • Développements algorithmiques possibles • Meilleure identification de séquences similaires • Meilleur regroupement 28 Séquences BLAST Création du graphe Partitionnement Groupes d’orthologues
  • 29. Conclusion 29 • Projet proposé • Remplacer l’alignement par des techniques d’analyse de séquence • Remplacer le partitionnement du graphe par une partitionnement vectoriel http://nbviewer.ipython.org/github/legaultmarc/genometools/blob/master/demos/Sequence%20analysis.ipynb
  • 31. 31