These_Maria_Sorokina

THESE DE DOCTORAT
DE L’UNIVERSITE PARIS-SACLAY,
préparée à l’Université d’Evry Val d’Essonne
ÉCOLE DOCTORALE N° 577
Structure et dynamique des systèmes vivants
Spécialité de doctorat : Sciences de la Vie et de la Santé
Discipline: Bioinformatique
Par
Maria Sorokina
Découverte et exploration des modules conservés de
transformations chimiques dans le métabolisme
Numéro national de thèse : 2016SACLE003
Thèse présentée et soutenue publiquement à Evry, le 3 février 2016 :
Composition du Jury :
M. Jean-Loup Faulon DR (INRA) Président
Mme. Christine Froidevaux PR (Université Paris-Saclay) Rapporteur
M. Fabien Jourdan CR1 (INRA) Rapporteur
M. Daniel Kahn DR (INRA) Rapporteur
M. Ludovic Cottret
M. Bernard Labedan
IR (INRA)
DR Emérite (CNRS)
Examinateur
Invité
Mme. Claudine Médigue DR (CNRS) Directrice de thèse
M. David Vallenet CR (CEA) Co-directeur de thèse

« Le développement embryonnaire est la chose la plus difficile que vous ne puissiez jamais faire. Pour
devenir embryon, vous avez dû vous construire à partir d’une seule cellule, respirer avant d’avoir des
poumons, digérer avant d’avoir un intestin, construire des os alors que vous étiez flasque et organiser le
déploiement de vos neurones avant de savoir comment penser. Une des différences essentielles entre un
être vivant et la machine est bien là : on n’exige jamais d’une machine de fonctionner avant d’avoir été
construite, au contraire de l’être qui doit pouvoir fonctionner tout en se construisant. »
Scott F. Gilbert, Developmental Biology, 7th edition

REMERCIEMENTS
Ces trois années de thèse ont été très riches de tout point de vue pour moi, à la fois du point de vue
scientifique que personnel. J’ai, certes, appris énormément sur le métabolisme et les diverses techniques
computationnelles, mais j’ai surtout beaucoup appris sur moi même. J’ai beaucoup évolué aussi, j’ai
« grandi » scientifiquement et émotionnellement.
Beaucoup de personnes que j’ai côtoyées au cours de mon expérience au Génoscope, le Centre National
de Séquençage, ont contribué au bon déroulement de ma thèse et ç mon évolution personnelle. Ainsi, en
premier lieu, je voudrais remercier David, pour avoir été présent, même dans les moments les plus
difficiles. Ça a été très agréable de travailler avec toi, malgré le fait que tous les deux on soit assez têtus.
On arrivait toujours à un consensus, et de ces débats naissaient toutes ces bonnes idées ! Aller en
conférence avec toi est toujours une garantie de qualité et de rencontres intéressantes (et parfois insolites).
Merci aussi à Claudine de m’avoir accueilli à bras ouverts dans son laboratoire, alors que je débarquais en
disant « Bonjour, je voudrais faire ma thèse chez vous, est-ce que je peux faire mon stage de M2 chez vous
aussi ?»
Mes collègues de bureau Karine et Mark, merci d’avoir été à mes côtés au cours de ces années ! On a
partagé des fous rires, des discussions scientifiques et et d’autres loin d’être scientifiques, du thé, du
chocolat… Vous avez contribué à mon bien-être au Génoscope, et avez accepté la décoration un peu
excentrique de mon bureau, et ça, ça me fait chaud au cœur.
Je remercie mes rapporteurs, Christine Froidevaux, Fabien Jourdan et Daniel Kahn, pour leurs remarques
pertinentes et conseils extrêmement utiles. Christine, depuis que je t’ai rencontrée en master, tu fais partie
de mes modèles scientifiques féminins. Merci aussi aux autres membres de mon jury, Ludovic Cottret,
Jean-Loup Faulon et Bernard Labedan. Jean-Loup, un grand merci pour tes précieux conseils sur les RMS
et tes encouragements tout au long de ma thèse.
Un grand merci à Olivier Lespinet – pour m’avoir accueilli dans son équipe alors que je n’étais qu’en L2 et
pour m’avoir donné cette envie de faire de la bioinformatique. C’est en grande partie grâce à toi que j’ai
continué dans cette voie et que j’ai eu envie de faire de la recherche !
Je voudrais aussi remercier tous les professeurs de mon master, le master BIBS. Si déjà en licence je savais
que je voulais faire de la bioinformatique, la passion que vous m’avez transmise, chacun à votre manière,
pour les différents domaines de cette vaste discipline m’ont conforté dans cette voie.
Merci à tous mes collègues du 3ème étage ! Un merci particulier à Alexandre : nos pauses thé de 18h à
refaire le monde étaient un pur plaisir. J’espère que tu es heureux à l’EBI, et que tu la feras, un jour, cette
thèse ! Merci aussi à Alexis, pour ta présence, tes encouragements, les pauses et les corrections de mon
manuscrit ! Merci à mes « consultants techniques » Adrien et Jonathan (aka Jonjon), pour votre présence
quand j’avais des questions bêtes sur Java ou Maven ou quand je renversais de la soupe aux champignons
sur mon ordinateur portable… David Rrrrr merci pour ta bonne humeur et pour les discussions autour du
métal et des Legos. Merci aussi à Franck, Mr Root, pour ta gentillesse et pour toutes les installations de
logiciels quand j’en avais besoin ! Live long and prosper !
Une pensée aussi pour Coralie, même si tu es loin, ta présence et ton écoute sont essentielles pour moi !
Merci de m’avoir aidé à traverser tellement de difficultés !
Merci aussi aux autres copines du master BIBS, Marie, Mélanie, Siva, Laura et Adeline – même après le
master, on a passé vraiment de chouettes moments ensemble !

Les meilleurs – Sarah et Mario. Nos déjeuners, nos voyages, nos soirées… Tout ce que nous avons
partagé et que nous allons encore partager dans les années à venir est tellement important pour moi ! Cette
amitié est une des meilleures choses que j’ai trouvés au cours de ma thèse, et je sais qu’elle va durer encore
très longtemps ! Nos séances de sport avec toi, Sarah, vont beaucoup me manquer.
Je remercie aussi ma famille, merci de m’accepter telle que je suis, avec mes défauts et mes qualités, avec
mes hauts et mes bas. Merci d’avoir toujours été là pour moi ! Vous m’avez, dès le plus jeune âge, dit que
je devrais devenir une biologiste, vu mon intérêt pour la nature qui m’entoure. Bon, je suis devenue une
« computational biologist » et pas une biologiste-naturaliste, et c’est très bien comme ça !
Le mot qui pourrait résumer ma thèse est « changement ». Le métabolisme est changement. Ma vie a
beaucoup changé. Le monde a beaucoup changé au cours de ces années. Pour terminer ces
remerciements, je voudrais citer Mr. Spock :
« Change is the essential process of all existence » (Star Trek : Let that be your last batterfield)

1
Table des matières
TABLE DES MATIERES 1
ABREVIATIONS 5
INTRODUCTION 7
La démarche suivie dans cette thèse 13
CONTEXTE BIOLOGIQUE ET METHODOLOGIQUE 16
I. Le métabolisme 17
I.1 Qu’est-ce qu’est le métabolisme ? 17
I.2 Les acteurs du métabolisme 19
I.2.1 Métabolites 19
I.2.2 Réactions 26
I.2.3 Enzymes 27
I.2.4 Cofacteurs 29
I.2.5 Voies métaboliques 30
I.3 Evolution du métabolisme 33
I.3.1 Evolution des enzymes 33
Divergence des fonctions enzymatiques - enzymes promiscuitaires 33
Isoenzymes 35
Convergence évolutive de fonctions enzymatiques 35
I.3.2 Grandes théories sur l’évolution des voies métaboliques 36
Invention de novo des voies métaboliques 36
Synthèse rétrograde et synthèse progressive 36
Spécialisation d’enzymes multifonctionnelles 37
Duplication de voies métaboliques entières 37
Recrutement enzymatique ou modèle d’évolution en « patchwork » 38
Origine semi-enzymatique des voies métaboliques 38
II. Représentation du métabolisme 39
II.1 Ressources de données métaboliques 42
II.1.1 Grandes bases de données sur le métabolisme 42
BioCyc & MetaCyc 42
KEGG 43
Comparaison des bases de données MetaCyc et KEGG 43
BRENDA 44
RHEA 45
Reactome 45
UniPathway 45
II.1.2 Bases de données de composés chimiques 46
ChEBI 46
PubChem 46
II.2 Classification des activités enzymatiques 47
II.3 Théorie des graphes – quelques définitions et vocabulaire 50
II.4 Réseaux métaboliques 53
II.4.1 Réseau de métabolites 54
II.4.2 Réseau de réactions 54
II.4.3 Réseau d’enzymes 54

2
II.4.4 Graphe biparti et hypergraphe des métabolites 55
II.4.5 Composés ubiquitaires et réseaux « petit-monde » 56
II.5 Analyse topologique de réseaux métaboliques 58
II.5.1 Analyses topologiques classiques 58
II.5.2 Centralités 60
Centralités de distances et de voisinage 60
Centralités des plus courts chemins 61
Centralités basées sur les processus aléatoires 62
Feedback 63
Centralités sur les arêtes 64
II.6 Modularité dans le métabolisme 65
III. Des génomes aux réseaux métaboliques 66
III.1 Annotation fonctionnelle des génomes 67
III.1.1 Liens phylogénétiques et similarité de séquences 68
III.1.1.1 Liens phylogénétiques entre les gènes 68
III.1.1.2 Annotation fonctionnelle basée sur la similarité de séquences 71
III.1.2 La base de données de protéines UniProt 71
III.1.3 Domaines fonctionnels et familles de protéines 72
Pfam 73
InterPro 74
PRIAM 74
III.1.4 Contexte génomique pour l’annotation fonctionnelle 74
III.1.5 Analyse de la structure des protéines 75
III.1.6 Systèmes d’annotation à base de règles 77
III.1.7 Systèmes d’annotation communautaire 77
III.1.8 Cas des protéines multifonctionnelles 78
III.2 Contexte génomique 79
III.2.1 Clusters de gènes 80
III.2.1.1 Opérons 80
Méthodes de prédiction des opérons 80
III.2.1.2 Synténies conservées 82
III.2.2 Profils phylogénétiques 83
III.2.3 Rosetta stone (fusions/fissions de gènes) 83
III.3 Reconstruction de réseaux et modèles métaboliques 84
Etape 1 : Reconstruction automatisée à partir d’un génome complet 84
Etape 2 : Curation de la reconstruction automatique 85
Etape 3 : Conversion du réseau métabolique reconstruit en modèle informatique 86
Etape 4 : Utilisation de modèles métaboliques et intégration des données ‘omiques’ 87
III.4 Lacunes dans les connaissances enzymatiques 88
IV. Méthodes pour l’exploration du métabolisme 90
IV.1 Comment encoder une réaction enzymatique ? 90
IV.1.2 Reaction Pairs et Reaction Class de KEGG 91
IV.1.3 Signatures moléculaires de réactions (RMS) 92
IV.1.4 Cartographie des atomes (Atom Mapping) 94
IV.1.5 EC-BLAST et autres méthodes basées sur la comparaison de fingerprints moléculaires 94
IV.1.6 Mécanisme réactionnel enzymatique 96
IV.1.7 Description des réactions avec MOLMAP 96
IV.2 Méthodes pour détecter des protéines pour les enzymes orphelines 97
IV.3 Recherche de chemins et de motifs dans le réseau métabolique 99
IV.3.1 Recherche de voies métaboliques 99
IV.3.1.1 Recherche de sous-graphes ou chemins 99
IV.3.1.2 Rétro(bio)synthèse 100
IV.3.1.3 Alignement de voies métaboliques 102
IV.3.2 Motifs dans le métabolisme & modules de réactions 103
IV.3.2.1 Motifs dans le métabolisme 104
IV.3.2.2 Modules dans le métabolisme 105
IV.4 Visualisation des réseaux 107
Limites : Réactions métaboliques non-enzymatiques 108

3
CHAPITRE I 111
ACTUALISATION DES CONNAISSANCES SUR LES ACTIVITES
ENZYMATIQUES ORPHELINES DE SEQUENCES 111
Profiling the orphan enzymes. Sorokina et al. 2014 113
Conclusion du Chapitre I 114
CHAPITRE II 116
CONSTRUCTION D’UN MODELE REDUIT DU METABOLISME POUR
L’IDENTIFICATION DE MODULES CONSERVES 116
A new network representation of the metabolism to detect chemical transformation modules. Sorokina et al.
2015 121
Conclusion du Chapitre II 122
CHAPITRE III 124
ASSOCIATION DE CONTEXTES GENOMIQUES AVEC DES MODULES
CONSERVES DE TRANSFORMATIONS CHIMIQUES 124
I. Prédiction des directons dans les génomes bactériens 126
II. Projection des directons sur le réseau de signatures moléculaires de réactions 129
III. Etude de cas : identification de contextes génomiques et métaboliques pour les enzymes Baeyer-
Villiger Monooxygénases 133
III.1 Comment encoder une réaction de monooxygénation de type BV ? 134
III.2 Identification des contextes génomiques des BVMOs 136
III.3 Identification des contextes métaboliques des BVMOs 138
CONCLUSIONS ET PERSPECTIVES 149
Conclusions 149
Perspectives 152
REFERENCES 158
ANNEXE 175

5
Abréviations
ADN : Acide Désoxyribonucléique
ARN : Acide Ribonucléique
ARNm : Acide Ribonucléique messager
ARNr : Acide Ribonucléique ribosomique
ARNt : Acide Ribonucléique de transfert
BV : réaction d’oxydation de type Baeyer-Villiger
BVMO : Baeyer-Villiger Monooxygénase
CDS : (angl. CoDing Sequence) séquence codante
CoA : Coenzyme A
DAG : (angl. Directed Acyclic Graph) Graphe Orienté Acyclique
DUF : (angl. Domain of Unknown Function) Domaine de fonction inconnue
EBI : European Bioinformatics Institute
EC number : Enzyme Commission number
ENA : European Nucleotide Archive
FAD : Flavine-Adénine Dinucléotide
FBA : (angl. Flux Balance Analysis) Analyse de balance des flux
FMN : Flavine Mononucléotide
InChi : IUPAC International Chemical Identifier
IUBMB : International Union of Biochemistry and Molecular Biology
IUPAC : International Union of Pure and Applied Chemistry
MOLMAP : MOLecular Map of Atom-level Properties
NAD(H) : Nicotinamide Adénine Dinucléotide (forme réduite)
NADP(H) : Nicotinamide Adénine Dinucléotide Phosphate (forme réduite)
NGS : (angl. Next Generation Sequencing) Technologies de Séquençage Nouvelle Génération
NISE : (angl. Non-Homologous Isofunctional Enzymes) Enzymes isofonctionnelles non-
homologues
PGDB : Pathway/Genome Data Base
RMS : Signature Moléculaire de Réaction
SDF : Structure-Data Format
SMILES : Simplified Molecular-Input Line-Entry System
XNA : (angl. Xeno nucleic acid) Acide Xénonucléique

7
Introduction
Le métabolisme est un des aspects les plus basiques de la vie. Il s'agit d'un système complexe, qui
implique des enzymes, la régulation de leur expression et leurs interactions, ayant pour objectif de
produire, via la catalyse de réactions biochimiques, toutes les substances chimiques (métabolites)
nécessaires au maintien de la vie dans les cellules. L’avènement de la biochimie expérimentale
dans les années 1950 a permis de découvrir la grande partie des activités enzymatiques connues
actuellement. De nos jours, la découverte de nouvelles activités enzymatiques a beaucoup ralenti.
De plus, environ 30% des activités enzymatiques connues, au moment de la rédaction de cette
thèse, sont orphelines de séquence [1–8], c’est à dire que les enzymes qui les catalysent sont
inconnues. Aussi, l’expérimentation in vivo démontre que les organismes, selon les conditions,
peuvent adopter des comportements qui ne peuvent pas être expliqués par les connaissances
actuelles sur le métabolisme, ce qui suggère que beaucoup d’activités enzymatiques sont encore à
découvrir. Dans les années 2000, l’arrivée des nouvelles technologies de séquençage et le
séquençage des génomes complets ont permis d’obtenir un nombre colossal de séquences d’acide
désoxyribonucléique (ADN). Cependant, malgré cette quantité de données brutes, il est très
difficile de découvrir de nouvelles activités enzymatiques à partir des séquences seules, et
parallèlement, une très grande partie (plus d'un tiers chez Escherichia coli K-12 MG1655, un des
organismes les plus étudiés et les mieux connus [9, 10]) demeurent de fonction inconnue, sans
parler des nombreuses annotations erronées dans les banques de séquences [11]. Sans connaître
l’enzyme qui catalyse une réaction d’intérêt, il est compliqué de maîtriser et de reproduire cette
réaction au besoin, et, sans connaître la fonction d’une protéine, on peut passer à côté d’une
activité enzymatique nouvelle qui peut être intéressante. Les conséquences de cette double lacune
dans les connaissances fondamentales sur le fonctionnement du vivant sont nombreuses et
touchent, également, beaucoup de domaines appliqués dont l’ingénierie métabolique, la
pharmacologie, la médecine, l’industrie agro-alimentaire ou encore l’écologie.
Deux axes principaux de recherche pour résoudre ces lacunes sur la connaissance du
métabolisme peuvent être identifiés en observant la littérature. Le premier axe est sur le
développement des techniques autour de l'annotation fonctionnelle des protéines, c'est à dire la
prédiction de la fonction d’une protéine à partir de sa séquence et de données connexes. Le

8
deuxième axe de recherche consiste à résoudre les "trous" dans le métabolisme qui
correspondent à des réactions catalysées dont les enzymes sont inconnues (enzymes orphelines
de séquence) ou à des réactions inconnues, à découvrir via l'exploration des réseaux
métaboliques, qui permettent de produire des métabolites d'intérêt.
L'étude des génomes a commencé dans les années 1990 avec en 1995 le premier séquençage d'un
organisme procaryote, Haemophilus influenzae Rd KW20. Vingt ans plus tard, près de cinquante
mille génomes complets (981 archées, 41001 bactériens et 6481 eucaryotes) sont disponibles dans
les bases de données (source Genomes Online, https://gold.jgi-psf.org), et le séquençage de
beaucoup de génomes et métagénomes est en cours de route. L'annotation fonctionnelle est le
processus d'assignation d'une fonctionnalité moléculaire et/ou biochimique à une séquence
d’ADN et/ou polypeptidique. D'après une étude [12], une fonction peut être potentiellement
associée par homologie pour environ 70% des gènes d'un organisme. Pour cela, les outils de
recherche de similarité entre séquences comme BLAST, FASTA et HMMER [13–17] sont
communément utilisés. Les 30% restants de gènes sont soit homologues à un gène de fonction
inconnue, soit ne ressemblent à aucune autre séquence précédemment élucidée. Ces pourcentages
sont très variables suivant les organismes étudiés et dépendent de leur proximité phylogénétique
avec des organismes expérimentalement étudiés. Dans la base de données UniProt [18], les
protéines de fonction inconnue sont référencées avec des termes comme "hypothetical",
"uncharacterized", "unknown" ou encore "putative" et représentent plus de 42% des 50 millions
de protéines publiées.
Plusieurs méthodes ont été développées pour essayer d'assigner une fonction aux nouvelles
séquences ou d'améliorer la qualité de l'annotation des séquences déjà connues. Parmi ces
méthodes, on trouve de la prédiction de fonction à partir du contenu en domaines structuraux et
fonctionnels d’une protéine [19], en s'aidant des informations sur la structure des protéines [20],
en créant des systèmes à bases de règles [21] ou encore en créant un réseau mondial
d’annotateurs experts [22]. La curation humaine a aussi une place importante dans les projets
d’annotation, notamment grâce aux efforts de SwissProt [23]. Ce genre d'études et de méthodes a
apporté énormément à l’amélioration de la qualité des annotations des gènes et des protéines
qu'ils encodent. Cependant, elles ne permettent pas de trouver la fonction d’un gène si aucune
caractérisation expérimentale directe ou indirecte n’est disponible (on parle alors de gènes
orphelins de fonction [24]).

9
Parallèlement aux efforts liés à l'annotation fonctionnelle des gènes et des protéines, des
approches, plus orientées sur l’analyse de réseaux, sont développées pour en découvrir plus sur le
métabolisme du point de vue biochimique, notamment en résolvant le problème des trous
("gaps" en anglais) dans le métabolisme et celui d’activités enzymatiques inconnues. L’approche
utilisée pour appréhender ce problème est d’étudier la structure des réseaux métaboliques,
notamment en identifiant une logique dans les enchaînements de transformations chimiques de
métabolites, que l’on appelle communément "voies métaboliques".
En 2005, Lacroix et al. [25] mettent en place une méthode de recherche de motifs fonctionnels
dans les réseaux métaboliques et introduisent le terme de "motif réactionnel". Pour la première
fois, ce terme n’est pas basé uniquement sur les caractéristiques topologiques du réseau, mais
aussi sur la nature fonctionnelle des composantes de ce motif. Malgré des preuves exactes du bon
fonctionnement de la méthode, elle se limite à la recherche des motifs fréquents dans les réseaux
métaboliques organisme-centrés, et ne permet pas la découverte de modules qui permettront de
remplir les trous dans ces réseaux, ni d’associer des protéines enzymatiques à ces motifs.
En 2013, Barba et al. [26] ont identifié le fait que l’enchaînement des réactions constituant les
voies de dégradation des purines et pyrimidines présente la même biochimie, ainsi que le fait que
ces réactions sont catalysées par des enzymes homologues. Ceci a permis d’introduire la notion
de module réactionnel, comme étant une succession de transformations enzymatiques catalysées
par des protéines homologues. Ils ont aussi démontré, grâce à l’expérimentation biochimique, que
le module découvert a une capacité prédictive et renferme une voie de catabolisme des purines
encore inconnue. Cependant, cette étude ne permet pas de généraliser l’approche de découverte
de modules conservés du métabolisme et de l’appliquer d’une façon systématique et automatique
afin de découvrir de nouvelles voies métaboliques.
Toujours en 2013, Muto et al. [27] publient les résultats de leur recherche systématique de
modules réactionnels dans la base de données KEGG [28]. A partir de l’analyse des motifs de
transformation structurale des composés chimiques pour toutes les voies métaboliques présentes
dans cette base de données, ils ont mis en évidence l’architecture modulaire du métabolisme, ainsi
que le caractère conservé de ces modules au travers des voies métaboliques en les alignant.
Cependant, le lien entre ces modules réactionnels et les protéines permettant de catalyser les
réactions comprises dans ces modules n’est pas fait, la méthode ne peut s’appliquer à d’autres
donnés que celles présentes dans KEGG.

10
Ces études mettent en évidence la logique modulaire des réseaux métaboliques et on peut voir
que l’idée de prédire des nouvelles activités enzymatiques en explorant cette modularité
commence à apparaître. Cependant, l’étude de Barba et al. ne permet pas de généraliser
l’approche au métabolisme entier, et celles de Lacroix et al. et de Muto et al. ne permettent pas de
faire le lien entre les modules réactionnels et les familles de protéines qui catalysent ces réactions.
De plus, la méthode de Muto et al. ne permet pas de découvrir des modules réactionnels
chevauchant plusieurs voies métaboliques, point plutôt crucial pour découvrir des enchainements
nouveaux d’activités enzymatiques et nécessite une post-curation experte pour valider les
modules trouvés.
C’est dans ce contexte de double problématique de gènes de fonction inconnue et d’activités
enzymatiques inconnues que l'étude à l'origine de cette thèse a été développée. Le travail a
consisté à définir des modules de transformations chimiques dans le métabolisme, à identifier les
plus conservés d'entre eux et à les explorer en les associant à des modules génomiques (comme
les opérons, par exemple) de fonction pas ou peu connue.
Toutefois, avant de développer cette méthode, une étude étendue a été réalisée sur les activités
enzymatiques orphelines de séquences aussi appelées "enzymes orphelines". Il s'agit d'activités
enzymatiques démontrées expérimentalement comme étant présentes dans un organisme donné,
mais dont la séquence codant pour l'enzyme catalysant cette activité est inconnue. En effet,
depuis 2007 [5], il n'y a pas eu de mise à jour sur ce phénomène qui touche pourtant entre 20 et
30% [7, 8] des activités enzymatiques connues. Le concept d'enzyme orpheline locale a aussi été
introduit : une activité enzymatique non-orpheline dans un clade donné mais orpheline dans un
autre. Ce concept met à jour les difficultés rencontrées par l'annotation fonctionnelle
automatique et met en avant les "NISE" - "Non-Homologous Isofunctionnal Enzymes" : des
enzymes non-homologues mais ayant la même activité catalytique. Cette étude a fait l’objet d'une
publication [8] et est décrite dans le premier chapitre de ce manuscrit.
Un travail plus méthodologique a ensuite été réalisé et constitue l’objet principal de cette thèse.
La démarche a consisté en l'exploration du métabolisme au travers de modules conservés de
transformations chimiques via la construction d’un modèle compressé de tout le métabolisme
connu qui regroupe des réactions entre elles selon leur type de transformation chimique. Pour
cela, un réseau de réactions représentant un modèle global du métabolisme a été construit à partir

11
des données sur les réactions et les voies métaboliques présentes dans les bases de données
publiques. Au préalable, une classification des réactions en fonction de leur type de
transformation chimique a été réalisée en utilisant les signatures moléculaires des réactions (RMS)
[29]. En regroupant les nœuds des réactions partageant le même type de transformation chimique
en un seul nœud, un réseau de RMS a été crée. Dans ce réseau, les nœuds représentent un type de
transformation chimique, regroupant ainsi toutes les réactions enzymatiques effectuant ce type de
transformation, et les arêtes reprennent tous les liens existants dans le réseau original de
réactions. Ce réseau de RMS contient l’information sur toutes les réactions connues à partir
desquelles il a été construit, mais aussi l’information sur les réactions encore inconnues, qu’il est
possible de déduire à partir de leur type de transformation chimique et de leur contexte dans ce
réseau. Ainsi, le réseau de RMS est une représentation globale et condensée des connaissances
actuelles sur le métabolisme et possède en plus un potentiel prédictif de nouveaux modules
réactionnels. Si on émet l’hypothèse de la modularité du métabolisme, c'est à dire que les
réactions forment des blocs conservés au cours de l'évolution, le modèle réduit de
transformations chimiques est aussi modulaire et contient des blocs conservés de transformations
chimiques. L’étape suivante consiste donc à identifier les différents types de conservation
d’enchaînements (ou chemins) de transformations chimiques dans ce réseau de RMS. Ensuite,
des métriques de conservation d'un chemin/module de RMS sont définies, basées sur la
conservation des motifs de transformations chimiques entre les voies métaboliques connues, la
conservation de ces motifs au travers de tout le métabolisme, leur conservation du point de vue
enzymatique dans la taxonomie ou encore du point de vue topologique du réseau. L’ensemble
des chemins possibles a été extrait à partir du réseau de RMS et un certain nombre s’est révélé
être très conservé. Cette méthode a fait l’objet d'une publication [30] et est décrite dans le
deuxième chapitre de cette thèse. Une partie de ces chemins conservés est identifiée, car ils
correspondent à des voies métaboliques connues, mais beaucoup de chemins ne correspondent à
rien de connu jusqu’ici, et nécessitent un effort d’identification.
Par conséquent, dans la troisième partie de ce manuscrit, est décrit le processus d’identification
de modules conservés dans le métabolisme de transformations chimiques pour l’annotation des
blocs génomiques fonctionnels tels que les opérons (unités génomiques fonctionnelles, présentes
essentiellement chez les bactéries et archées, contenant un ensemble de gènes co-transcrits et
contrôlés par un même promoteur) de fonction peu ou pas connue. Les gènes, qui encodent des
enzymes et qui sont retrouvés dans ce type de structures génomiques, sont souvent impliqués
dans les mêmes fonctions cellulaires, assimilables aux voies métaboliques. Un exemple classique

12
est l’opéron histidine, contenant généralement huit gènes qui codent des enzymes catalysant les
étapes successives de la biosynthèse de cet acide aminé, lorsque celui ci devient déficient dans
l’organisme. C’est la méthodologie de la mise en relation d’un contexte génomique avec un
contexte métabolique relâché, représenté par le réseau de signatures moléculaires de réactions, qui
est décrite dans le troisième chapitre du présent manuscrit. Un exemple d’application de cette
méthode est ensuite présenté sous la forme d’une étude de cas appliquée à une famille d’enzymes
d’intérêt industriel, les Baeyer-Villigerases monooxygénases (BVMOs). Le contexte génomique
des enzymes de cette famille est calculé à l’aide d’une méthode simple de prédiction d’opérons,
pour ensuite identifier leur contexte métabolique, c’est à dire prédire les voies métaboliques dans
lesquelles elles pourraient être impliquées. Cinq types d’opérons contenant une BVMO ont pu
être repérés en fonction des transformations chimiques catalysées par les enzymes codés par ces
opérons. Chacun de ces types correspond à un module différent de RMS, dont certaines
transformations chimiques n’étaient pas encore connues pour participer dans des voies
métaboliques impliquant des BVMO. L’application de cette méthode, bien que nécessitant pour
l’instant une intervention humaine pour valider les prédictions, s’est donc révélée efficace pour
découvrir de nouvelles voies métaboliques et annoter des gènes dans les opérons qui ont pu y
être associés.
Ce manuscrit présente les résultats obtenus au cours de trois années de travail. Il est introduit par
un état de l’art étendu sur le contexte biologique et méthodologique de cette thèse. Il est ensuite
organisé en trois chapitres, dont les deux premiers sont sous la forme d’articles publiés dans des
revues scientifiques internationales. La discussion de ces résultats, ainsi que les perspectives,
qu’elles soient des améliorations possibles des méthodes décrites, la poursuite des
développements ou les possibilités d’applications pratiques, concluent ce manuscrit.

13
La démarche suivie dans cette thèse
« La séparation des savoirs, la spécialisation en domaine isolé nuit considérablement au développement de la
recherche. »
Historien scientifique Jacques Le Goff.
Cette citation reflète la tendance actuelle au mélange des disciplines et à la nécessité pour les
scientifiques de se spécialiser dans plusieurs sciences, comme c’est le cas des bioinformaticiens,
qui utilisent l’informatique pour résoudre des problèmes biologiques. Mais la recherche
scientifique nécessite un entremêlement des domaines encore plus important, d’autant que
certains sont plus avancés que d’autres sur certains aspects. Par exemple, en sociologie, où
l’informatique est de plus en plus utilisée aussi, les méthodes d’analyse de réseaux sociaux sont
très développées, tendance liée notamment à l’explosion des réseaux sociaux ces dernières
années. Or, en bioinformatique, les méthodes d’analyse de réseaux, qu’ils soient génétiques,
protéiques ou métaboliques ne font que commencer à émerger. Il est donc intéressant d’étudier
les méthodes d’analyse de réseaux propres à la sociologie pour pouvoir éventuellement les
appliquer dans l’analyse de réseaux biologiques. Un autre exemple serait la gestion de très grandes
quantités de données, communément appelées « big data ». En biologie, avec l’avènement de
technologies comme le séquençage, la spectrométrie de masse ou l’imagerie, la quantité de
données est très importante et il faut développer des techniques de stockage et d’analyse efficaces
et adaptées. Le concept du « big data » est aussi présent dans d’autres domaines, en
astrophysique, en finances, en linguistique ou en informatique « pure », et pour l’instant il n’y a
que très peu de dialogue et d’échanges entre ces différentes disciplines pour faire avancer une
cause à priori commune.
Pendant ma thèse je me suis efforcée de sortir des domaines que j’ai exploré pendant mes études
universitaires, qui sont la biologie moléculaire et l’informatique, pour m’intéresser à des
techniques utilisées dans des domaines voisins, comme la biochimie, la chimie et la
chemoinformatique, ainsi qu’à des domaines plus éloignés, comme la sociologie pour ses
méthodes efficaces d’analyse de réseaux.

14
Cette thèse est avant tout un travail exploratoire. Nous sommes partis d’une hypothèse principale
qui est que les modules (ou les enchaînements) de transformations chimiques sont conservés au
cours de l’évolution du métabolisme et, comme c’est le cas pour de nombreux travaux de
recherche, nous ne savions pas du tout où, ni comment, cette hypothèse allait nous emmener. Il y
a eu beaucoup de tâtonnements, notamment pour trouver une façon à la fois efficace et correcte
de regroupement des réactions biochimiques selon le type de transformation chimique qu’elles
réalisent. Il a aussi fallu choisir la bonne source d’information sur le métabolisme, ainsi que de
décider si le travail allait se porter sur le métabolisme d’un organisme donné, d’un groupe
d’organismes ou sur le métabolisme « en général », et dans chacun des cas, la structure de
données à utiliser. Ensuite, il a fallu définir des mesures de conservation des modules dans le
réseau de transformations chimiques obtenu à partir d’un réseau de réactions, et pour cela
adopter différents points de vue, biologique d’un côté et informatique de l’autre. Pour ce dernier
point, j’ai dû me plonger dans le monde merveilleux de l’analyse des réseaux, appliqué dans
beaucoup de domaines comme la physique ou la sociologie, mais malheureusement encore peu à
l’interface avec la biologie. Plusieurs méthodes, inspirées d’analyses de réseaux sociaux, ont donc
été testées pour trouver des parties intéressantes dans le réseau de transformations chimiques
avant d’opter pour une méthode de classement des nœuds basée sur la topologie du réseau qui
est utilisée par le fameux moteur de recherche Google. Chez les procaryotes, les modules
génomiques, comme les opérons, sont souvent associés à une même fonction cellulaire, or, les
méthodes de prédiction des opérons sont nombreuses et parfois complexes à appliquer, il a donc
fallu appliquer une méthode de prédiction d’opérons, qui soit à la fois simple, relativement
efficace et surtout qui puisse être exécutée sur n’importe quel génome procaryote. La projection
de ces blocs génomiques sur le réseau de transformations chimiques a été la finalisation de tous
les paris faits sur les techniques sélectionnées et les approches inventées pour valider l’hypothèse
du départ.
La démarche scientifique menée au cours de cette thèse a ainsi été d’intégrer le plus large éventail
possible de ressources, méthodes et informations tout en gardant le cap sur le but final fixé
initialement : explorer le métabolisme.

16
Contexte biologique et
méthodologique
Ce chapitre a pour but d’introduire les concepts biologiques et informatiques utilisés pendant
cette thèse et d’effectuer un état des lieux sur les domaines relatifs. Il est constitué de cinq parties.
Le métabolisme, ses différents acteurs et les théories sur son évolution sont présentés dans la
première partie. Dans la deuxième partie sont passées en revue les différentes façons de
représenter et d’explorer le métabolisme du point de vue informatique, ainsi que les différentes
ressources et bases de données publiques où l’on peut trouver toutes les connaissances actuelles
sur le sujet. La troisième partie est consacrée aux apports de la génomique pour la
compréhension du métabolisme d’un organisme, notamment l’annotation fonctionnelle des
génomes, le contexte génomique, la reconstruction des réseaux métaboliques à partir de génomes
complets ainsi que les lacunes dans les connaissances enzymatiques. Dans la partie suivante sont
présentées différentes méthodes pour l’exploration du métabolisme, avec les différentes façons
d’encoder les réactions pour un traitement automatique plus efficace, des méthodes pour combler
les trous dans les connaissances métaboliques, ainsi que les différentes façons d’explorer la
modularité des réseaux métaboliques et découvrir ainsi de nouvelles voies métaboliques. La
dernière partie de ce chapitre présente les limites de nos connaissances sur le métabolisme,
notamment des aspects non-enzymatiques de celui-ci.

17
I. Le métabolisme
La vie est un concept difficile à définir. Il y a plusieurs façons différentes de penser à la vie, et,
pour compliquer les choses encore plus, il y a de multiples définitions académiques. On peut
penser à la vie comme à « la chair et le sang », ou comme à une machine ou un automate. On
peut aussi penser aux briques élémentaires – les molécules de la vie, ou encore, à l’information
contenue dans celles-ci. Plusieurs définitions scientifiques plus ou moins précises existent. Leslie
Orgel [31] par exemple, a défini une entité vivante avec le terme « CITROENS » (Complex,
Information-Transforming Reproducing Object that Evolves by Natural Selection – des objets complexes
ayant la capacité de transformer l’information et de se reproduire tout en évoluant par sélection
naturelle). Norman Horowitz, un des premiers généticiens à travailler sur les théories de
l’évolution du métabolisme et après avoir travaillé sur la recherche de la vie dans le système
solaire, donne une définition de la vie basée sur la génétique. Selon lui, être en vie équivaut à
posséder des propriétés génétiques, qui sont notamment l’autoréplication, la catalyse et la
mutabilité [32]. De plus en plus de scientifiques, cependant, déclarent que l’on ne peut pas encore
définir ce qu’est la vie, car on n’en sait pas encore suffisamment sur sa nature, mais qu’on peut
toutefois prédire ce qu’est vivant ou non sans avoir une définition générale. La plupart des
définitions de ce que c’est qu’un organisme vivant, bien que différentes sur certains points, se
rejoignent sur le fait que transformer la matière par des réactions chimiques est nécessaire à la
création et au maintien de la vie. L’ensemble de ces réactions, souvent catalysées par des
protéines produites par l’organisme (ou par des protéines « empruntées » à d’autres organismes
comme c’est le cas des virus), ainsi que les petites molécules organiques qu’elles transforment,
s’appelle le métabolisme et est au cœur de cette thèse.
I.1 Qu’est-ce qu’est le métabolisme ?
Le métabolisme est l’ensemble de processus biochimiques à travers lesquels les organismes
vivants se maintiennent en vie, se développent, se reproduisent et interagissent avec
l’environnement. Par ailleurs, le terme « métabolisme », qui est retrouvé dans beaucoup de
langues différentes, vient du grec « µεταβολή » (metabôlé) et signifie changement ou
transformation. Les transformations chimiques opérées dans les organismes vivants concernent

18
principalement des petites molécules appelées métabolites qui sont modifiées par des réactions
chimiques. Ces réactions peuvent avoir lieu à l’intérieur des cellules comme à l’extérieur de celles-
ci (c’est le cas notamment des réactions permettant la digestion, le transport ou la communication
entre cellules). Le métabolisme se repose sur des réactions biochimiques catalysées la plupart du
temps par des protéines possédant la propriété de faciliter des réactions qui leur sont spécifiques.
Ces protéines sont communément appelées des enzymes.
Les réactions métaboliques peuvent être classées en deux grandes catégories : l’anabolisme et le
catabolisme. L’anabolisme regroupe des réactions de biosynthèse, qui permettent de convertir
des nutriments en briques élémentaires ainsi que d’assembler ces briques élémentaires en
composants cellulaires comme les protéines, les acides nucléiques, les polysaccharides de stockage
énergétique et les lipides. Le catabolisme représente l’ensemble des réactions de dégradation de
ces composants cellulaires en petites molécules. Les réactions cataboliques permettent d’obtenir
de l’énergie à partir de la dégradation de nutriments ou de dégrader des macromolécules en
briques élémentaires pour ensuite reconstruire d’autres composants cellulaires.
Le catabolisme et l’anabolisme interviennent aussi dans d’autres fonctions cellulaires telles que la
détoxification (dénaturation des molécules toxiques pour la cellule), la signalisation, la
communication chimique entre les cellules, ou encore la réparation des structures subcellulaires.
La diversité du métabolisme est remarquable. C’est cette diversité qui permet à certaines bactéries
et archées de survivre dans des environnements extrêmes, aux bactéries et aux plantes de
produire l’oxygène dont dépend la survie de beaucoup d’autres organismes vivants, à tous les
êtres vivants de se défendre des intrusions des autres ou, au contraire, de créer des symbioses en
mettant en commun leurs capacités métaboliques.
Les compétences biochimiques des organismes sont utilisées par l’homme depuis très longtemps.
Depuis leur utilisation pour la fabrication du pain, de bière et de vin par fermentation, l’utilisation
des capacités métaboliques des être vivants s’est étendue à de nombreux autres domaines, comme
la santé avec notamment la production d’antibiotiques et l’industrie énergétique avec la synthèse
de carburants par des bactéries et des algues.
Dans la section suivante seront décrites les définitions des entités et des notions étroitement liées
au métabolisme.

19
I.2 Les acteurs du métabolisme
Le métabolisme est un concept qui rassemble de nombreux acteurs et de notions de nature
différente. Il existe un grand nombre de façons de percevoir et de représenter le métabolisme. Ici,
n’est présentée qu’une seule de ces façons, la plus commune en biologie et en biochimie. Seront
ainsi décrits, dans cette section, les entités et les notions sans lesquelles il est impossible de décrire
le métabolisme, c’est à dire, les métabolites, les réactions, les enzymes et les cofacteurs.
I.2.1 Métabolites
Les petites molécules (généralement de poids moléculaire inférieur à 1000 Da), synthétisées ou
dégradées dans une cellule, sont communément appelées métabolites. Ces molécules peuvent
provenir de l’extérieur de l’organisme, dans ce cas on les appelle nutriments (prise de nourriture)
ou xénobiotiques (composés étrangers, non nutritifs pour l’organisme et qui peuvent être
toxiques, comme les médicaments par exemple), ou être fabriquées par l’organisme et voyager
entre les différents compartiments cellulaires, être excrétés dans l’environnement, ou encore être
transférés entre les cellules (dans les organismes multicellulaires par exemple). La plupart des
métabolites sont ce que l’on appelle communément « composés chimiques organiques » à cause
de la présence quasi-systématique d’atomes de carbone. En plus du carbone, les métabolites sont
composés d’oxygène, d’hydrogène, d’azote et de souffre. Des atomes métalliques, comme le fer,
le magnésium ou le calcium sont beaucoup plus rares, mais tout aussi essentiels, les carences en
ces atomes peuvent s’avérer létales pour l’organisme. Les atomes de carbones de molécules
organiques peuvent être marqués très facilement de façon radioactive, ce qui permet de suivre les
échanges de matière au sein de l’organisme.
Figure 1. Structures de l’acide acétiques, du glycoaldehyde et du
méthyl formate. Ces composés chimiques ont la même formule
chimique (C2H4O2) mais des structures différentes.

20
Le métabolome est l’ensemble des métabolites dans un organisme donné à un temps donné. Il
est donc constitué d’un grand nombre de molécules organiques appartenant à diverses classes
comme les acides aminés, les peptides, les lipides, les nucléotides ou les sucres. Le nombre total
de métabolites est estimé entre 200000 et 1000000 d’après [33].
La métabolomique est l’étude du métabolome dans des conditions biologiques données, et
s’emploie à identifier et quantifier les métabolites d’un organisme. Le métabolome d’un même
organisme peut être très différent selon l’environnement, de son état de stress, de l’âge, d’une
modification génétique, etc.. Deux techniques principales permettent de nos jours d’obtenir un
métabolome : la résonnance magnétique nucléaire et la spectrométrie de masse [34]. Les deux
doivent cependant être combinées pour obtenir un métabolome relativement complet, car aucune
n’est capable de d’identifier tous les types de métabolites. Le traitement automatique de ces
données est un des plus gros défis actuels en bio- et chemo-informatique [34].
Figure 2. Identifiants IUPAC de l’acide acétique, de la L-lysine et du Coenzyme A. Pour certaines molécules, plusieurs
identifiants officiels sont possibles. Lorsqu’il s’agit de grosses molécules ces identifiants deviennent compliqués à
utiliser pour un humain.
Un composé chimique possède une structure chimique unique et bien définie. La formule brute
d’un composé chimique n’indique que sa composition en atomes et ne reflète pas sa structure,
ainsi, deux composés chimiques distincts peuvent avoir la même formule brute (par exemple la

21
formule brute C2H4O2 décrit l’acide acétique, le glycoaldehyde et le methyl formate, des composés
chimiques ayant une structure pourtant différente Figure 1). L’identification des molécules se fait
de plusieurs façons. Tout d’abord, il y a les numéros CAS (Chemical Abstracts Service Registry
Numbers [35]) qui sont des identifiants numériques uniques assignés à chaque molécule décrite
dans la littérature scientifique. Par exemple, l’identifiant CAS de l’acide acétique est 64-19-7.
Ensuite, il y a la nomenclature IUPAC (International Union of Pure and Applied Chemistry),
qui est une méthode systématique de nommage de composés chimiques organiques [36]. Dans
l’idéal selon cette nomenclature, chaque composé chimique devrait avoir un nom tel qu’une
structure 2D non-ambiguë puisse être crée. Par exemple, le nom IUPAC de l’acide acétique est
« acetic acid ». Cependant, les identifiants IUPAC sont rarement utilisés par la communauté de
biologistes car les noms pour les grandes molécules peuvent devenir très rapidement très
compliqués (Figure 2). Il en résulte des problèmes d’identification des composés chimiques,
notamment donner le même nom à des structures différentes ou des noms différents à la même
structure. Il existe donc plusieurs façons informatiques d’encoder la structure 2D des molécules
chimiques pour lever les ambiguïtés.
La première façon d’encode la structure 2D est celle des fichiers molfile (MDL molfile format).
C’est un format de fichier crée par la société MDL (maintenant devenu Symyx qui a fusionné
avec Accelrys : http://accelrys.com ; Accelrys ayant récemment été racheté par Dassault
Systèmes), et contient l’information sur les atomes, les liaisons entre les atomes, la connectivité et
les coordonnées spatiales pour une molécule (Figure 3). Les fichiers SDF (Structure-Data File)
Figure 3. Fichier MOLFILE de l’aldehydo-D-glucose-6-phosphate. Les fichiers MOLFILE décrivent les
coordonnées tridimensionnelles des atomes de la molécule.

22
utilisent le format molfile. Dans ces fichiers, il y a plusieurs composés chimiques au format
molfile séparés par des lignes de quatre caractères dollar ($$$$). Une des particularités du format
SDF est qu’on peut y inclure des données supplémentaires associées aux molécules, comme les
identifiants officiels des molécules, leurs identifiants dans différentes bases de données ou des
commentaires de l’utilisateur.
Figure 4. Descripteurs moléculaires de l’aldehydo-D-glucose-6-phosphate. (a) SMILES, (b) InChi, (c) InChi Key.
Une autre façon d’encoder la structure bidimensionnelle des composés chimiques est le format
SMILES (Simplified Molecular-Input Line-Entry System [37, 38]). C’est une notation linéaire
décrivant la structure de la molécule en utilisant des courtes chaines de caractères ASCII. Le
concept de génération d’une entrée SMILES est assez simple : il faut casser les éventuels cycles
pour ensuite décrire les branches à partir du squelette carboné de la molécule (Figure 4a).
Cependant, une même molécule peut être décrite par plusieurs signatures SMILES valables (par
exemple CCO, OCC et C(O)C spécifient correctement la structure de l’éthanol). Ainsi, des
algorithmes de canonisation de SMILES ont été créés pour assurer un code SMILES unique pour
une structure donnée indépendamment de l’ordre des atomes considéré dans la structure
dessinée. De ce fait, un SMILES officiel est unique pour chaque structure grâce à cette étape de
canonisation, c’est le SMILES canonique (Canonical SMILES). Pour une molécule donnée, il
peut aussi y avoir un SMILES isomérique, qui est une chaine de caractères contenant
l’information sur la conformation des doubles liaisons et la chiralité.

23
La dernière façon standard de représenter une structure chimique est le code InChI [39] (IUPAC
International Chemical Identifier - http://www.iupac.org/inchi). C’est un identifiant textuel pour
les composés chimiques basé sur plusieurs types d’information : les atomes, la connectivité
interatomique, l’information sur les tautomères, les isotopes, la stéréochimie et sur les charges
électroniques. C’est un identifiant unique à chaque molécule indépendamment de la façon dont
celle-ci est dessinée (contrairement, notamment, aux fichiers molfile et aux codes SMILES qui
varient en fonction de la façon dont la molécule est dessinée). Depuis 2009, est disponible un
logiciel générant des InChI standardisés, à partir desquels il est possible de générer des clés
uniques InChI Keys (Figure 4b et c). La standardisation des InChi simplifie leur comparaison du
point de vue informatique et permet une uniformisation des données à travers les ressources
publiques.
La conception et l’utilisation de descripteurs moléculaires (méthodes pour décrire toutes sortes
d’informations chimiques et topologiques d’une molécule chimique) est une branche à part
entière de la chemo-informatique (on pourra notamment consulter le livre [40] pour constater
l’étendue du domaine). Contrairement aux identifiants moléculaires présentés précédemment, les
descripteurs moléculaires sont utilisés pour calculer des propriétés chimiques (QSPR – quantitative
structure-property relationship – relation quantitative structure-propriété) ou d’activité chimique
(QSAR – quantitative structure-activity relationship – relation quantitative structure-activité). Les
descripteurs moléculaires peuvent être classifiés en cinq catégories, selon les dimensions qu’ils
couvrent : 0D (nombre de liens, poids moléculaire, nombre d’atomes), 1D (comptages de
fragments moléculaires, liens hydrogène, surface polaire, etc), 2D (rassemblant les descripteurs
Figure 5. Fullerène. Cette molécule sphérique est composée de cycles de carbone et est généralement complexe à décrire
d’une façon systématique avec des descripteurs moléculaires.

24
topologiques), 3D (contenant les descripteurs géométriques et les informations sur les propriétés
de surface) et 4D (contenant les coordonnées 3D ainsi que les informations de conformation).
Deux descripteurs moléculaires seront décrits ici : les descripteurs moléculaires de signatures
stéréo [41] calculés par le logiciel MolSig (http://molsig.sourceforge.net) et les descripteurs
KEGG Chemical Function and Substructure (KCF-S) [42].
L’algorithme MolSig [41], générateur des descripteurs moléculaires de signatures stéréo (MS),
tient compte de la conformation stéréochimique des molécules en plus de leur topologie. Il
permet de générer des MS pour des structures stéréochimiques complexes comme par exemple
les fullerènes (Figure 5) et est efficace du point de vue computationnel. Cette méthode considère
une molécule comme un graphe où les atomes sont des nœuds et les liens entre les atomes des
arêtes et calcule un sous-graphe d’un diamètre donné centré sur chacun des atomes de la
molécule. Le formalisme SMILES est utilisé pour décrire les sous-graphes pour chaque atome.
L’algorithme prend en entrée un fichier molfile. La signature moléculaire obtenue est une
représentation sur plusieurs lignes, avec une sous-structure par ligne et le nombre de fois où cette
sous-structure est rencontrée dans la molécule (un exemple de MS est présenté en Figure 6).
Figure 6. Signature moléculaire de hauteur 1 de l’aldehydo-D-glucose-6-phosphate calculée avec le logiciel MolSig.

25
Les KEGG Chemical Function and Substructure (KCF-S [42]) étend le format KCF en y
ajoutant sept attributs décrivant des sous-structures biochimiques. Le format KCF comporte
trois sections, « ENTRY », « BOND » et « ATOM ». ENTRY indique l’identifiant KEGG (base
de données métaboliques, cf. section II) de l’entrée ainsi que son type. Dans la section ATOM
sont présentés les numérotations des atomes, les « KEGG atom types » (les types d’atomes selon
le formalisme KEGG) pour les étiquettes sur les atomes, l’espèce chimique de chaque atome
(« C » pour carbone par exemple) ainsi que leurs coordonnées 2D. La section BOND décrit la
numérotation des liens, les numérotations des deux atomes impliqués dans le lien ainsi que la
configuration stérique du lien (Figure 7). Le descripteur moléculaire KCF-S étend cette
représentation de la molécule en y ajoutant les attributs suivants : TRIPLET, VICINITY, RING,
SKELETON, INORGANIC. La conversion en KCF et KCF-S se fait à partir d’un fichier
molfile.
Ces deux exemples de descripteurs moléculaires ajoutent des informations sur les sous-structures
moléculaires aux coordonnées spatiales de chaque atome, présentes dans un simple fichier
molfile. Ceci permet de réaliser des manipulations plus complexes sur les molécules, notamment
de suivre leurs implications dans les réactions ainsi que la façon dont les réactions les
transforment.

26
I.2.2 Réactions
Les métabolites sont transformés au cours des réactions biochimiques. Les molécules
transformées au cours d’une réaction sont appelées substrats et les molécules résultantes d’une
réaction sont des produits. Une réaction est souvent représentée par son équation bilan, dans
laquelle sont décrites les formules chimiques des produits et des substrats, leurs relations, la
direction de la réaction ainsi que sa stœchiométrie, c’est à dire la proportion de molécules
nécessaire au maintien du principe de conservation de la masse (« Rien ne se perd, rien ne se crée,
tout se transforme » d’après Antoine de Lavoisier, un des pères de la chimie moderne). Ainsi, au
cours d’une réaction les molécules échangent des atomes ou des groupes d’atomes. La
transformation chimique opérée pendant une réaction, c’est à dire la façon dont l’échange
d’atomes ou de groupes d’atomes se produit, peut être la même pour des réactions agissant sur
des molécules différentes. On dit alors que ces réactions réalisent le même type de
transformation chimique.
Figure 7. Descripteur moléculaire KEGG Chemical Function and Substructure (KCF-S) (image extraite de
Kotera et al. [42]).

27
La vitesse d’une réaction biochimique dépend de la nature des composés chimiques et de
l’environnement réactionnel (température, pression, PH, concentration des substrats, présence
d’un catalyseur de la réaction). Un catalyseur de réaction est une entité qui ne fait pas partie des
substrats ni des produits de la réaction, qui n’est pas directement altéré par cette dernière mais qui
augmente la vitesse de la transformation chimique. Dans une cellule, les catalyseurs sont
principalement des protéines ou des complexes protéiques, communément appelés enzymes,
mais ils peuvent aussi être des complexes hétérogènes protéine-ARN, voire des molécules seules
d’ARN non-codant à capacité catalytique, appelées ribozymes. Une réaction pouvant être
réalisée dans les deux sens est dite réversible (les produits peuvent être des substrats de la
réaction). En théorie, toute réaction est réversible mais dans des conditions physiologiques un
sens de réaction est souvent privilégié. Une réaction peut même être considérée comme
irréversible quand il n’y a pas de catalyseur dans le milieu cellulaire permettant à la transformation
chimique de se faire dans l’autre sens (par exemple une décarboxylation – Figure 8).
I.2.3 Enzymes
Les enzymes sont généralement des protéines ou des complexes protéiques ayant la capacité de
catalyser des réactions biochimiques plus ou moins spécifiques. Dans la langue française, le
masculin et le féminin sont acceptés pour le terme « enzyme », ce qui peut provoquer une
confusion sur les bancs universitaires, chaque professeur ayant une préférence pour l’un ou pour
l’autre. Dans les ouvrages les plus anciens, c’est le féminin qui domine, mais depuis une dizaine
d’années, il semblerait que le masculin a de plus en plus de succès. Toutefois, les deux
déterminants sont pour l’instant considérés corrects par l’Académie Française :
http://ptitlien.com/ojz1o). La première enzyme fût isolée en 1833 par Anselme Payen et Jean-
Figure 8. Réaction de décarboxylation du 2-oxoglutarate. Cette réaction est considérée comme irréversible dans le
milieu cellulaire en absence d’un catalyseur.

28
François Persoz [43], elle dégradait l’amidon et a été nommée « diastase », ce qui signifie
« séparation » en grec. Même si cette enzyme a par la suite été renommée en « amylase », la
tendance à donner aux enzymes des noms qui se terminent par le suffixe « ase » date de cette
époque. Le mot « enzyme » vient du grec ancien « zumê » qui signifie « levain », et a été introduit
en 1877 par Wilhelm Kühne qui travaillait sur le processus de fermentation.
Les enzymes sont généralement des protéines, elles sont donc encodées dans le génome et font
suite à l’expression des gènes par le processus de transcription et traduction amenant à la
synthèse de chaines polypeptides composés à partir d’acides aminés. Ces protéines peuvent être
constituées d’un seul polypeptide (protéine monomérique) ou de plusieurs chaines
polypeptidiques (protéine multimérique) encodées par un ou plusieurs gènes. D’autre part, les
protéines sont aussi constituées de domaines protéiques, qui sont des parties d’une ou plusieurs
chaines polypeptidiques ayant des propriétés particulières, par exemple, adopter une structure de
manière autonome ou quasi-autonome du reste de la molécule. Une des branches importantes de
la bioinformatique structurale consiste à effectuer une classification étendue des domaines
structuraux et des protéines en général. Un domaine peut être porteur, par exemple, de la
fonction de catalyse (c’est à dire qu’il contiendra le site catalytique de l’enzyme) et un autre peut
servir à lier le substrat. Les multiples aspects liés à l’assignation de fonctions enzymatiques aux
protéines et aux domaines protéiques sont présentés dans la section III de ce chapitre.
La catalyse est une action qui permet à la réaction de se dérouler dans un milieu dans lequel elle
ne pourrait pas se faire et/ou d’accélérer grandement cette réaction. Les enzymes agissent à faible
concentration (il en faut très peu dans le compartiment cellulaire donné pour que la catalyse
puisse avoir lieu) et ne sont généralement pas modifiées au cours de la réaction. Les enzymes
possèdent des poches catalytiques dans lesquelles les substrats sont stabilisés (différents
mécanismes sont utilisés pour cette stabilisation, comme le rapprochement forcé des substrats,
stabilisation par effet électrostatique ou par l’hydrophobicité, par exemple) afin que la réaction
puisse se produire. La taille et la forme de la poche catalytique de l’enzyme, ainsi que certains
acides aminés clés impliqués directement dans le mécanisme réactionnel, régissent la spécificité de
l’enzyme. En effet, certaines enzymes sont spécifiques d’un substrat donné, d’autres sont plus
généralistes et peuvent transformer plusieurs substrats possédant une même fonction chimique.
Une enzyme peut avoir plusieurs sites catalytiques, soit dans une même poche catalytique soit
dans deux poches catalytiques différentes (situées sur des domaines différents ou non), on parle

29
alors d’enzyme multifonctionnelle. Une enzyme peut aussi changer de fonction catalytique et de
spécificité de substrat en fonction de l’environnement dans lequel elle est présente (température,
PH) ou en fonction de la présence de certains métabolites pouvant provoquer un changement de
conformation spatiale de l’enzyme. Les enzymes du premier cas se nomment les « moonlighting
proteins » et leur étude est assez complexe [44–46]. Les enzymes du deuxième cas appartiennent
à la catégorie des enzymes allostériques [47, 48]. Ces enzymes possèdent au moins un site de
fixation de métabolite distant de la poche catalytique, et la fixation d’un métabolite sur ce site
modifie la conformation structurale de l’enzyme. Ce changement de conformation peut avoir un
effet négatif (le métabolite est alors un inhibiteur) ou positif (métabolite activateur). En
ingénierie enzymatique, l’allostérie est de plus en plus utilisée pour contrôler les enzymes d’intérêt
[49].
I.2.4 Cofacteurs
Les derniers acteurs du métabolisme qui seront décrits ici sont les cofacteurs. Un cofacteur est
une molécule non-protéique qui se fixe sur une enzyme. Ces molécules sont souvent
indispensables à leur bon fonctionnement, ce sont des « molécules d’assistance ». Une enzyme
sans cofacteur et inactive est appelée apoenzyme. L’enzyme avec le cofacteur fixé est
l’holoenzyme. Les cofacteurs peuvent être classifiés en trois catégories : les ions métalliques, les
cofacteurs faiblement liés à l’enzyme et les cofacteurs fortement liés à l’enzyme.
Les ions métalliques permettent principalement le maintien de la structure de l’enzyme. Les ions
les plus fréquents sont les ions fer, cuivre, magnésium, nickel, zinc, manganèse et molybdenium.
Ils se lient d’une façon covalente à l’enzyme. Un ou plusieurs ions de même nature ou de natures
chimiques différentes peuvent être nécessaires à son bon fonctionnement. Les ions métalliques
ne sont pas transformés pendant la réaction enzymatique et n’apparaissent pas dans l’équation de
la réaction.
Les cofacteurs faiblement liés à l’enzyme sont des coenzymes et sont généralement libérés après
la réaction. La liaison à l’enzyme est généralement une liaison hydrogène ou ionique. Ils sont
transformés pendant la réaction enzymatique, sont souvent appelés co-substrats et apparaissent
dans l’équation de la réaction. Les coenzymes sont généralement en excès dans le milieu
cellulaire. Parmi les coenzymes les plus fréquents il y a le nucléotide adénosine monophosphate
(AMP), le nucléotide adénosine triphosphate (ATP), le coenzyme A (CoA), la nicotinamide

30
adénine dinucléotide (NAD) et la nicotinamide adénine dinucléotide phosphate (NADP) et leur
formes réduites NADH et NADPH. Il est d’ailleurs intéressant de préciser que beaucoup de
cofacteurs possèdent dans leur structure l’AMP, ce qui peut refléter une origine évolutive
commune. Une hypothèse [50] suggère que la structure de l’AMP est considérée comme une
sorte de poignée dont les enzymes se servent pour basculer le coenzyme entre les différentes
poches catalytiques. Par ailleurs, la géométrie de la liaison de l’AMP mime d’une façon presque
exacte la géométrie de l’appariement des bases dans l’ADN et l’ARN.
Les cofacteurs fortement liés à l’enzyme, c’est à dire par une liaison covalente, sont appelés
groupements prosthétiques. Ce sont des molécules organiques au centre desquelles sont
souvent trouvés un ou plusieurs atomes métalliques. Les exemples les plus fréquents de
groupements prosthétiques sont l’hème (intervenant dans la plupart des réactions avec de
l’oxygène) et un certain nombre de vitamines.
Tous les acteurs du métabolisme ont pour but de satisfaire des objectifs de la cellule. Ces
objectifs peuvent concerner la production d’énergie, la communication, la défense ou la
construction ou le remplacement d’éléments constituant la structure même de la cellule. Afin
d’atteindre ces objectifs, il est souvent nécessaire d’effectuer plusieurs transformations chimiques
consécutives sur les métabolites. Ces enchainements sont aussi appelés voies métaboliques et
sont présentés dans la section suivante.
I.2.5 Voies métaboliques
Classiquement, on définit une voie métabolique comme un enchainement d’étapes de
transformations de métabolites, ces étapes de transformations étant catalysées la plupart du
temps par des enzymes. Une voie métabolique est caractérisée par un métabolite de départ
(substrat initial) et un métabolite cible (produit final de la voie). Il peut y avoir plusieurs
enchainements de réactions différents qui ont le même substrat initial et le même produit final.
Dans ce cas on dit que la voie métabolique possède plusieurs variants.
En 1999 Harold Morowitz [51] décrit l’ensemble des voies métaboliques connues comme « une
vaste généralisation empirique basée sur un siècle et demi de travail d’une armée de biochimistes
qui se sont efforcés de caractériser toutes les réactions chimiques se déroulant dans les cellules
vivantes ». Ainsi, lorsque l’on veut définir la notion de voie métabolique, il faut garder à l’esprit

31
que celle-ci est une vision humaine pour diviser le réseau métabolique en sous-parties plus faciles
à comprendre, à étudier et à reproduire. C’est avant tout un concept créé pour appréhender une
fonction biologique donnée, car les enzymes et les métabolites sont la plupart du temps en état
libre dans le compartiment cellulaire où ils se trouvent, et la rencontre d’un métabolite et d’une
poche catalytique d’une enzyme peut âtre considérée comme « accidentelle/fortuite ». La
nécessité des organismes d’avoir l’ensemble des enzymes qui catalysent les réactions servant à
obtenir un métabolite essentiel à un moment donné, les « pousse » à co-réguler l’expression des
gènes codant pour ces enzymes. En effet, chez les procaryotes et certains eucaryotes, il existe
une relation entre l’ordre et la co-localisation des gènes sur les chromosomes qui favorise leur co-
expression et, ainsi, l’enchainement en voie métabolique des réactions catalysées par les enzymes
correspondantes [52]. De plus, des similitudes dans la structure des voies métaboliques dans un
organisme et entre les organismes, même éloignés du point de vue taxonomique et intra-
organismes, sont observées [25, 26]. Ainsi, il existe bien une logique conservée au cours de
l’évolution de l’agencement des réactions en voies métaboliques.
Les voies métaboliques peuvent être séparées en deux grands groupes selon qu’elles sont
essentielles ou non à la survie de l’organisme. Les voies essentielles à la survie de l’organisme
composent le métabolisme primaire, comme par exemple, les voies de biosynthèse des acides
aminés ou des nucléotides. Il est généralement très conservé au travers de l’arbre du vivant (un
ensemble de 124 réactions « super-essentielles » communes à tous les organismes a d’ailleurs été
défini [53]). Les voies métaboliques qui ne sont pas indispensables à la survie de l’organisme
composent le métabolisme secondaire. Le métabolisme secondaire varie beaucoup entre
différentes branches taxonomiques, mais aussi en fonction de l’environnement des organismes.
Ce sont notamment les voies du métabolisme secondaires qui permettent la production de
molécules de défense comme les toxines ou les antibiotiques, ou encore des molécules de
communication comme les hormones (Figure 9).

32
Des théories sur l’évolution du métabolisme ont donc émergé dès les débuts de la biochimie pour
tenter d’expliquer cette logique, et sont présentées conjointement avec les théories sur l’évolution
des enzymes dans la section suivante de ce manuscrit.
Figure 9. Exemples de métabolites produits du métabolisme secondaire de la bactérie Streptomyces griseus.

33
I.3 Evolution du métabolisme
L’évolution (du latin « evolutio » - action de dérouler) est le passage progressif d’un état à un autre.
L’évolution biologique se définit comme le changement dans les traits héréditaires des
populations au fil des générations successives [54]. Les processus évolutifs ont des implications à
tous les niveaux de l’organisation biologique, que ce soit au niveau des espèces, des individus, des
cellules ou des molécules. L’évolution du métabolisme peut se définir comme l’acquisition de
nouvelles capacités métaboliques, c’est à dire la capacité de synthétiser et de dégrader de
nouvelles molécules, ou de réaliser ces transformations d’une manière plus efficace. La perte de
certaines parties du métabolisme fait aussi partie de son évolution. Dans cette section nous allons
nous intéresser à deux aspects complémentaires de l’évolution du métabolisme, l’évolution des
enzymes dans un premier temps et l’évolution des voies métaboliques ensuite.
I.3.1 Evolution des enzymes
Les protéines en général, et les protéines enzymatiques en particulier, ont différentes
formes/structures et tailles. Pour réaliser certaines fonctions, les protéines n’ont besoin que d’un
seul domaine, une unité de structure protéique stable. Il existe même des protéines qui n’ont pas
besoin d’être repliées en une structure particulière pour avoir une fonction catalytique, on parle
alors de protéines intrinsèquement non-structurées [55]. D’autres protéines, pour être
fonctionnelles, sont composées de plusieurs domaines reliés entre eux ou même de plusieurs
polypeptides formant un complexe protéique. L’apparition de nouvelles fonctions enzymatiques
dans les organismes se fait principalement via duplication de gènes suivie d’une divergence des
copies par acquisition de mutations qui sont sélectionnées pour être plus viables et/ou favoriser
l’adaptation de l’organisme à un milieu donné en augmentant son efficacité métabolique.
Divergence des fonctions enzymatiques - enzymes promiscuitaires
Les enzymes sont connues pour être des catalyseurs extrêmement spécifiques. Pourtant, l’idée
que beaucoup d’enzymes sont capables de catalyser d’autres réactions et/ou de transformer

34
d’autres substrats en plus de ceux pour lesquels elles ont se sont spécialisées au cours de
l’évolution n’est pas nouvelle [56]. Ces enzymes, qui ne font pas que ce qu’on attend d’elles, sont
appelées enzymes promiscuitaires. Une des premières publications sur une enzyme
promiscuitaire date de 1921 et décrit la pyruvate décarboxylase pour sa capacité à former des
liaisons carbone-carbone entre de nombreuses molécules [57]. Une des grandes hypothèses
actuelles propose que les activités enzymatiques promiscuitaires servent de point de départ pour
l’évolution des organismes et de leur métabolisme. Il existe trois types de promiscuité :
• la promiscuité de substrat, où l’enzyme est capable de catalyser la même transformation
sur d’autres substrats que ceux pour lesquels elle est spécialisée, avec une plus ou moins
bonne efficacité
• la promiscuité de réaction, où l’enzyme a la capacité de catalyser plusieurs
transformations différentes
• la promiscuité de condition, remarquée chez des protéines dont la fonction peut varier
considérablement suivant les conditions physico-chimiques (variation de température,
pH, salinité, ou présence/absence de certaines molécules dans le milieu). Les enzymes
promiscuitaires de condition sont souvent appelées « moonlighting enzymes ».
Le potentiel promiscuitaire des enzymes entraine l’évolution de nouvelles fonctions enzymatiques
au sein de superfamilles structurales [58] et par conséquence, l’émergence de nouvelles familles
ou superfamilles d’enzymes [59, 60]. Chez les organismes procaryotes notamment, leur style de
vie influence les enzymes à être promiscuitaires [61], cette plasticité catalytique favorisant
grandement la survie en cas de changement brutal de l’environnement.
La promiscuité enzymatique, ainsi que le potentiel « d’évolvabilité » promiscuitaire des enzymes
peut être prédite avec des méthodes chémoinformatiques et statistiques [62].
Comme évoqué précédemment, la duplication de gènes est un des principaux facteurs favorisant
l’évolution de la fonction des protéines. La duplication d’un gène codant une enzyme entraine la
présence de deux versions de l’enzyme dans l’organisme. La pression évolutive pour garder la
fonction enzymatique présente initialement dans l’organisme ne s’exerçant que sur une seule des
deux copies, l’autre version peut évoluer en subissant un taux plus important de mutations [63].
Ce mécanisme permet à un organisme d’acquérir de nouvelles enzymes, soit ayant une activité
catalytique innovante et éventuellement bénéfique pour l’organisme [64], soit ayant la même
activité, mais la réalisant avec une efficacité plus ou moins grande. Ce dernier cas concerne les
isoenzymes.

35
Isoenzymes
Les isoenzymes (aussi appelées « isozymes ») sont des enzymes qui ont des séquences d’acides
aminés différentes mais qui catalysent la même réaction biochimique. La différence en séquence
peut être très importante, impliquant une origine évolutive différente des isoenzymes, ou
relativement faible, les isoenzymes étant homologues. Dans le premier cas, la même activité
enzymatique est acquise par convergence évolutive et le cas de ces enzymes isofonctionnelles sera
abordé dans la section suivante.
La présence de deux isoenzymes homologues dans un organisme a pour origine un événement de
duplication de gènes suivi de la différenciation des deux copies. Ces enzymes ont généralement
des modes de fonctionnement différents et/ou des propriétés de régulation différentes. Souvent,
les deux enzymes ont des vitesses d’évolution différentes, la pression de sélection ne s’exerçant
pas de la même manière sur les deux copies. La présence de deux isoenzymes dans un organisme
permet une meilleure adaptation de son métabolisme pour répondre à des besoins différents
suivant des conditions extérieures variables.
Un exemple très étudié d’isoenzymes porte sur l’activité pyruvate kinase chez Escherichia coli. Cette
bactérie, comme beaucoup d’autres, possède deux protéines ayant cette activité catalytique : PykA
et PykF. Ces protéines sont homologues (37% d’identité de séquence en acides aminés), mais
présentent des propriétés physico-chimiques différentes, sont sous un contrôle génétique
différent [65] et ne sont pas interchangeables.
Convergence évolutive de fonctions enzymatiques
Les NISE (Non-homologous Isofunctional Enzymes – des enzymes non-homologues isofonctionnelles)
[66] sont des enzymes qui catalysent les mêmes réactions biochimiques, mais qui ne sont pas
homologues, c’est à dire qu’elles n’ont pas évolué à partir d’un même gène ancestral. La plupart
du temps, elles ont des repliements structuraux différents, preuve d’une convergence évolutive
résultant de la nécessité des organismes à acquérir une fonction précise. On retrouve des NISE
dans des voies métaboliques essentielles comme dans la biosynthèse de la méthionine [67] ou du
coenzyme A (3 types d’enzyme réalisent l’activité pantothenate kinase dont une ne présentant
aucune homologie avec les deux autres types [68]). Un autre exemple pour illustrer les NISE est
l’activité enzymatique cellulase. Pour cette activité, catalysant la réaction de dégradation du
cellulose, il existe six versions différentes de la séquence avec des repliements très différents [66].

36
L’acquisition d’une seule nouvelle fonction enzymatique dans un organisme est rarement
suffisante pour modifier profondément ses capacités métaboliques. Elle se fait de concert avec les
autres activités enzymatiques présentes dans l’organisme et par l’acquisition d’un ensemble
cohérent de fonctions catalysant une succession de réactions pour, par exemple, la dégradation
d’un nouveau composé de l’environnement en un métabolite d’intérêt pour l’organisme. Dans la
section suivante sont décrites les grandes théories sur les mécanismes d’acquisition de nouvelles
voies métaboliques par les organismes.
I.3.2 Grandes théories sur l’évolution des voies métaboliques
Il existe plusieurs grandes théories pour expliquer la façon dont les voies métaboliques sont
apparues et ont évolué. Les modèles correspondants à ces théories sont résumés dans la Figure
10 (partiellement inspirée de Schmidt et. al [69]).
Invention de novo des voies métaboliques
Le modèle le plus simple (voire simpliste) de l’évolution des voies métaboliques est celui de
l’invention de novo (Figure10a). Les voies métaboliques auraient pu apparaître et évoluer
spontanément, sans adapter ou réutiliser des enzymes préexistantes. Par exemple, un certain
nombre de d’ARNt synthétases semblent avoir initialement évolué d’une façon indépendante,
pour ensuite être impliquées dans différentes voies métaboliques comme celle de la traduction
des protéines et la transamidation ARNt-dépendante [70].
Synthèse rétrograde et synthèse progressive
La théorie sur l’évolution rétrograde des voies métaboliques par Norman Horowitz [71] est
historiquement la première a avoir été formulée (1945). Cette hypothèse soutient que la pression
de sélection sur une voie métabolique cible principalement la production fructueuse de son
produit final (Figure 10b). La formation du produit final à partir d’un métabolite intermédiaire
augmente la capacité vitale de l’organisme. Comme ce métabolite final peut dériver de
métabolites de plus en plus éloignés du point de vue chimique, la capacité vitale augmente et la

37
voie métabolique évolue à rebours. Cette rétro-évolution semble être un bon modèle pour la
glycolyse [72] et la voie de biosynthèse du mandelate [73].
Une hypothèse alternative et moins connue que celle de la synthèse rétrograde est celle du
développement des voies de biosynthèse dans le sens avant [74] (aussi connue sous le nom de
celui qui l’a proposée, Sam Granick), où les composés terminaux ne joueraient aucun rôle dans
l’évolution. Granick proposa que la biosynthèse de certains produits terminaux pourrait être
expliquée par une évolution « vers l’avant » à partir de précurseurs relativement simples. Ce
modèle prédit que les composés biochimiques plus simples précèdent l’apparition des plus
compliqués. Par conséquent, les enzymes catalysant les étapes antérieures d’une voie métabolique
sont plus anciennes que celles catalysant les étapes suivantes. Pour que ce modèle puisse
fonctionner, il faudrait que les métabolites intermédiaires soient utiles à l’organisme, car
l’apparition simultanée de plusieurs enzymes catalysant des réactions consécutives est trop
improbable. Cette hypothèse peut fonctionner pour la biosynthèse de l’hème et de la chlorophylle
[74], mais ne fonctionne pas pour de nombreuses voies métaboliques comme la biosynthèse des
acides aminés ou des purines où les métabolites intermédiaires n’ont pas d’utilité apparente et
peuvent même être toxiques.
Spécialisation d’enzymes multifonctionnelles
Les voies métaboliques pourraient aussi évoluer à partir d’enzymes multifonctionnelles [64, 75]
(Figure 10c). A partir d’une enzyme multifonctionnelle catalysant plusieurs réactions consécutives
sur le même métabolite, la voie métabolique aurait pu évoluer avec la duplication et la
diversification de cette enzyme initiale vers des enzymes plus efficaces et plus spécialisées ne
catalysant chacune qu’une seule des étapes dans la voie. Des enzymes multifonctionnelles
actuelles, comme, par exemple, la carbamoyl phosphate synthase, sont utilisées dans de
nombreuses fonctions cellulaires et voies métaboliques, et pourraient être des précurseurs pour
de nouvelles voies métaboliques [76].
Duplication de voies métaboliques entières
De la même façon qu’une seule enzyme peut être dupliquée et se spécialiser, un bloc de gènes
participant à un même processus cellulaire peut aussi être dupliqué et se spécialiser, entrainant
naturellement la création d’une nouvelle voie métabolique [64, 77] (Figure 10d). Ce mécanisme
d’acquisition de nouvelles fonctions peut notamment être identifié en utilisant la génomique
comparative [78–80], notamment en observant une coévolution des opérons et des voies

38
métaboliques. Par exemple, la voie de biosynthèse de l’histidine partage avec celles de la sérine et
du tryptophane plusieurs étapes qui possèdent un même type de transformation chimique et qui
sont catalysées par des enzymes homologues [77, 81]. Il est donc très probable que ces voies
métaboliques proviennent de duplications de voies ancestrales communes.
Recrutement enzymatique ou modèle d’évolution en « patchwork »
Les voies métaboliques pourraient aussi évoluer en « recrutant » des enzymes impliquées dans
d’autres voies métaboliques existantes, résultant en une mosaïque ou un « patchwork » d’enzymes
homologues qui catalysent des réactions dans différentes voies métaboliques [77, 82] (Figure 10e).
De nombreuse familles ou superfamilles d’enzymes catalysent des réactions similaires qui sont
rencontrées dans des voies métaboliques très différentes [83, 84], prouvant la plasticité des
réseaux métaboliques modernes [53]. Le recrutement des enzymes promiscuitaires dans les voies
métaboliques joue ainsi un grand rôle dans l’expansion du métabolisme [85]. Cette « versatilité »
enzymatique a été montrée à maintes reprises dont notamment chez Escherichia coli [86, 87].
Origine semi-enzymatique des voies métaboliques
Dans le but d’expliquer l’origine des toutes premières voies métaboliques, Lazcano et Miller [88]
ont proposé une hypothèse très différente des autres. Il est admis que la plupart des étapes des
voies métaboliques sont catalysées par des enzymes, mais certaines peuvent être naturellement
spontanées dans certaines conditions (température, pression, pH, présence/absence de molécules
particulières dans le milieu). Dans cette hypothèse, des enzymes très généralistes auraient permis
de modifier légèrement l’environnement de métabolites pour permettre aux réactions de se
dérouler spontanément. Il s’agirait alors d’étapes semi-enzymatiques dans les voies métaboliques
qui par la suite seraient remplacées par des étapes complètement enzymatiques au cours de
l’évolution, avec la spécialisation des enzymes (Figure 10f adaptée d’après Lazcano et Miller [88]).
D’après des études récentes [69, 79], le recrutement enzymatique semble être la principale force
motrice pour l’évolution de nouvelles voies métaboliques. La duplication de voies métaboliques
entières aurait aussi une grande importance dans l’évolution du métabolisme moderne. Les autres
hypothèses présentées semblent être des mécanismes évolutifs beaucoup plus rares ou
ancestraux. Il est important de noter également le rôle important du transfert horizontal de gènes
qui permet aux organismes microbiens d’acquérir rapidement de nouvelles compétences
métaboliques par échange de matériel génétique [89].

39
Figure 10. Illustrations des grandes théories de l’évolution des voies métaboliques (adaptées d’après Scmidt et al. [69] et
Lazcano et Miller [88]). (a) Invention de novo des voies métaboliques, (b) Synthèse rétrograde, (c) Spécialisation
d’enzymes multifonctionnelles, (d) Duplication de voies métaboliques entières, (e) Modèle d’évolution en
« patchwork », (f) Modèle semi-enzymatique.

40
II. Représentation du métabolisme
En sciences, comme dans la vie de tous les jours, nous avons besoin de concepts et de structures
définis et communs à tous pour représenter les notions et les objets et communiquer d’une façon
efficace avec les autres individus. Comme nous l’avons vu dans la section précédente, le
métabolisme implique beaucoup d’acteurs de nature différente qui interagissent entre eux. Il est
donc nécessaire de codifier ces acteurs et leurs interactions. La quantité et la complexité des
données du métabolisme nécessitent l’utilisation des ordinateurs pour les intégrer et les
comprendre : c’est l’essence même de la bioinformatique.
Dans cette section seront décrits les différents niveaux et façons de représentation du
métabolisme. Dans un premier temps les différentes ressources de données publiques liées au
métabolisme seront passées en revue. Ensuite seront présentées diverses façons de classifier les
réactions chimiques catalysées par les enzymes : les activités enzymatiques.
Le métabolisme est souvent représenté sous la forme d’un graphe (Figure 11 d’après [90] et[120]).
En effet, ce type de structure permet d’intégrer à la fois des données sur les acteurs du
métabolisme (comme les métabolites, les réactions qui les transforment et les enzymes qui
catalysent ces réactions) et les interactions entre ces acteurs. Les troisième et quatrième parties de
cette section seront donc consacrées aux réseaux métaboliques.
Les études en biologie évolutive ont, à de très nombreuses reprises, démontré que le vivant est
modulaire, c’est à dire qu’il est composé, à tous les niveaux, d’unités conservées, ou modules,
ayant une existence propre et garantissant la cohérence de l’ensemble du système. A l’échelle
macroscopique, on pourra donner l’exemple de la transplantation médicale d’organes : un organe
est donc un des modules du système qu’est le corps d’un individu. A l’échelle microscopique, les
transposons, qui sont des petits morceaux d’ADN qui peuvent changer de place dans le génome
d’un organisme et même être échangés entre les organismes, pourront servir d’exemple de
modularité. La définition et la recherche des modules conservés de réactions dans les réseaux
métaboliques sont au cœur de cette thèse. La modularité du métabolisme et les concepts qui y
sont liés seront donc abordés dans la dernière partie de cette section.

41
Figure 11. Réseau métabolique construit à partir de voies métaboliques des procaryotes et d’eucaryotes (extraite de
www.biochemical-pathways.com).

42
II.1 Ressources de données métaboliques
Dans cette section seront présentées et décrites les différentes sources biologiques de données
publiques disponibles actuellement pour la communauté scientifique. La classification de ces
ressources en catégories bien distinctes est loin d’être évidente, car certaines d’entre elles sont
plutôt généralistes et contiennent beaucoup de types de données différentes (par exemple, des
données sur les molécules, les réactions, les enzymes et les voies métaboliques à la fois) et
d’autres ne contiennent qu’un seul type de données (par exemple uniquement des composés
chimiques).
II.1.1 Grandes bases de données sur le métabolisme
BioCyc & MetaCyc
BioCyc [91] est une collection de bases de données de génomes et de voies métaboliques (PGDB
– Pathway/Genome Data Base) et des outils pour comprendre ces données. MetaCyc [91–93] un des
PGDB de BioCyc, est une base de données curée de voies métaboliques expérimentalement
élucidées issues de tous les domaines du vivant. Au moment de l’écriture de ce manuscrit,
MetaCyc contient des données issues de 2600 organismes différents et 2260 voies métaboliques.
De plus, on y retrouve les métabolites, réactions, enzymes et gènes associés à ces voies
métaboliques. Le but de MetaCyc est de faire une description exhaustive du métabolisme via des
échantillons de voies métaboliques représentatives et expérimentalement élucidées. Les données
contenues dans MetaCyc sont accessibles au travers de son interface web (http://metacyc.org) ou
avec l’outil Pathway Tools [94, 95] qui permet une exploitation plus approfondie des données.
Les données des PGDBs peuvent aussi être utilisées directement en écrivant des programmes en
Java, Perl et Lisp. Les requêtes en Java et en Perl sont exécutées en utilisant les APIs (Application
Progam Interfaces) des systèmes appelés JavaCyc et PerlCyc [96].
Une des dernières nouveautés de MetaCyc est de proposer un atom mapping [97], c’est à dire le
marquage des atomes des molécules impliquées dans une réaction pour suivre leur flux au cours
de la transformation chimique.

43
Ce sont les données issues de MetaCyc qui ont été les plus utilisées pour les travaux présentés
dans cette thèse. Les données sur les voies métaboliques, les réactions et les métabolites ont été
extraites à l’aide de JavaCyc.
KEGG
KEGG [98–102] (Kyoto Encyclopedia of Genes and Genomes) est une des plus anciennes des bases de
données de réactions et de voies métaboliques. Ici, les voies métaboliques sont organisées en
cartes (maps) définies par objectif cellulaire et rassemblant tous les variants connus chez les
différents organismes. Dans cette base de données on retrouve tous les acteurs du métabolisme :
les métabolites (dans la section KEGG LIGAND), les réactions (KEGG REACTION), les
enzymes (KEGG ENZYME) et les voies métaboliques (KEGG PATHWAY et KEGG
MODULE). Il y a en plus des données sur les gènes et les génomes (KEGG GENES et KEGG
GENOME) ainsi que les groupes d’orthologues (KEGG ORTHOLOGY). Les cartes
métaboliques dans KEGG sont subdivisées en modules, qui sont des unités fonctionnelles
utilisées pour l’annotation et l’interprétation biologique des génomes.
Comparaison des bases de données MetaCyc et KEGG
La majeure différence entre KEGG et MetaCyc se trouve au niveau de la définition d’une voie
métabolique – il y a les « cartes » du côté de KEGG qui rassemblent pour tous les génomes
analysés, tous les variants possibles avec le même objectif cellulaire et, du côté de MetaCyc, des
voies métaboliques organisme (ou clade) spécifique. Dans KEGG, les voies métaboliques sont
généralement plus longues que dans MetaCyc (cf. Table 1). Les données dans MetaCyc sont
validées manuellement par des experts (ne travaillant pas nécessairement directement pour
MetaCyc), alors que dans KEGG une partie seulement est expertisée par des spécialistes internes
et les informations de l’autre partie sont inférées automatiquement. Une étude [103] comparant
les deux ressources a été publiée en 2013, et une partie de cette étude est résumée dans la Table 1.

44
Table 1. KEGG versus MetaCyc
Tableau de comparaison des bases de données de ressources métaboliques KEGG et MetaCyc. Adapté d’après [104].
Sont comparées les différentes statistiques sur les composés chimiques, les réactions et les voies métaboliques décrits
dans ces bases de données.
MetaCyc KEGG
Nombre de composés chimiques 11 991 15 161
Composés avec description 1 486 2 997
Longueur moyenne de la description 47,69 6,51
Nombre moyen de réactions associées à un composé 3,59 2,17
Nombre moyen de voies métaboliques par composé 1,78 0,67
Nombre de réactions 10 262 8 879
Nombre de réactions non-équilibrées 532 1 475
Nombre moyen de voies métaboliques associées à une réaction 0,84 0,90
Nombre de voies métaboliques 2 142 416
Nombre moyen de réactions par voie métabolique 5,73 19,10
BRENDA
BRENDA (BRaunschweig ENzyme DAtabase [105, 106]) est une ressource très complète sur les
enzymes, les réactions enzymatiques et les métabolites, contenant des données de très haute
qualité. Depuis peu de temps, on peut y retrouver aussi des informations sur les voies
métaboliques, mais celles-ci sont pour l’instant difficilement exploitables du point de vue
informatique. Les informations de cette base de données sont obtenues manuellement à partir de
la littérature, ainsi qu’en faisant de la fouille de données et de la fouille de texte et en utilisant des
algorithmes de prédiction.
Les données issues de BRENDA ont été particulièrement utiles pour l’étude sur les enzymes
orphelines présentée dans le premier chapitre de cette thèse.

45
RHEA
RHEA [107, 108] est une base de données de réactions non-redondantes annotées manuellement.
Elle est issue d’un projet collaboratif initié par l’EBI (European Bioinformatics Institute) et le
SIB (Swiss Institute of Bioinformatics). Les réactions y sont décrites en utilisant les espèces
chimiques issues de ChEBI (cf. section suivante pour la description de cette ressource), et sont
chimiquement équilibrées au niveau des masses et des charges (les structures chimiques y sont
normalisées au pH 7.3). Des références croisées avec les autres bases de données métaboliques
ainsi que des références bibliographiques sont associées aux réactions quand elles sont
disponibles.
Reactome
Reactome [109] est une base de données publique de réactions et voies métaboliques eucaryotes
(surtout humaines) manuellement validées par des experts. La particularité de cette ressource
consiste dans les très nombreuses références croisées avec les autres bases de données, avec un
accent particulier sur les données d’orthologie entre les espèces eucaryotes.
UniPathway
UniPathway [110] est une ressource pour la représentation et l’annotation de voies métaboliques
totalement validées manuellement par des experts et disponible en libre accès
(http://www.unipathway.org). Elle fournit une représentation explicite des réactions chimiques
spontanées et catalysées par des enzymes ainsi qu’une représentation hiérarchique des voies
métaboliques. Cette hiérarchie utilise des sous-voies linéaires comme des briques basiques pour
reconstruire des voies métaboliques plus grandes et plus complexes. Cette méthode permet ainsi
d’inclure des variants de voies métaboliques espèce-spécifiques plus facilement. Toutes les voies
métaboliques dans UniPathway possèdent des références croisées vers les autres ressources
métaboliques comme KEGG [98] et MetaCyc [111], ainsi que vers les ressources de protéines
comme UniProtKB [18] pour laquelle UniPathway fournit un vocabulaire contrôlé pour
l’annotation des activités enzymatiques et des voies métaboliques.

46
II.1.2 Bases de données de composés chimiques
En plus des ressources contenant plusieurs types d’acteurs du métabolisme, il existe aussi des
bases de données spécialisées uniquement pour les métabolites.
ChEBI
Chemical Entities of Biological Interest [112] (ChEBI) est une base de données non-redondante
de composés chimiques, de groupements chimiques (c’est à dire des parties d’entités chimiques)
et de classes d’entités chimiques annotés manuellement et d’intérêt pour le biologie. Elle est
maintenue par l’EBI. Cette base de données fournit aussi une ontologie chimique qui permet de
décrire les relations entre les molécules et leurs classes chimiques. On n’y trouve que des petites
molécules, donc les molécules (polymères) comme les acides nucléiques, les protéines et les
peptides n’y sont pas inclus. Certaines entrées dans ChEBI peuvent être marquées par trois
étoiles. Cela garantie un niveau de qualité pour l’entrée considérée : la molécule possède un
identifiant unique et stable ainsi qu’un nom unique et non-ambigu. Ces molécules sont aussi
associées à une structure bidimensionnelle, une description, une collection de synonymes incluant
les noms recommandés par l’IUPAC ainsi que des références bibliographiques quand les
molécules ont été citées dans une publication. Cette base de données propose un moteur de
recherche de molécule très performant, on peut y rechercher une molécule par son nom, sa
formule chimique, son identifiant (notamment SMILES ou InChi), sa structure si on dispose d’un
fichier mol, ou même en dessinant la molécule ou une partie de la molécule dans une application
mise à disposition.
PubChem
La base de données de petites molécules PubChem [113] est maintenue par le National Center
for Biotechnology Information (NCBI) aux Etats-Unis d’Amérique. Y sont décrites les molécules
et les complexes moléculaires, des échantillons moléculaires déposés par des chercheurs ainsi que
des molécules issues de bases de données payantes (mais qui ne sont toutefois pas en libre accès).
Le site web inclue un moteur de recherche assez complet ainsi que la description des structures
des molécules.

These_Maria_Sorokina

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie These_Maria_Sorokina

Ähnlich wie These_Maria_Sorokina (20)

These_Maria_Sorokina