Biotechnolgie: petite introduction par Sébastien Rochat
Bio-informatique et applications
1. Widad BENCHAIB
Sara SI-MOUSSI
3CSSIQ – G04
Master ESI 2016/2017
Introduction à la Méthodologie de Recherche
“Computers are to biology what
mathematics is to physics.”
— Harold Morowitz
2. Sommair
e
Introduction
I. Bio-informatique
II. Historique de la bio-informatique
III. Etat de l’art sur la bio-informatique
IV. Problématiques d’actualité
V. Challenges de recherche
VI. Solutions proposées
Conclusion et perspectives
Bibliographie, Crédits Photos
Annexes
2
4. 4
D’après (Hogeweg, Hesper, 1978),
« la bio-informatique est l’étude des
processus informatiques (acquisition,
traitement et restitution) dans les
systèmes biotiques. »
1. Qu’est ce que la bio-informatique ?
(1)
Utilisation des ordinateurs dans
la biologie.
De l’informatique appliquée
aux processus biologiques
L’informatique réduite à l’outil ordinateur
« Champs multidisciplinaire impliquant la biologie,
l’informatique, les mathématiques, les statistiques dont
l’objectif est d’analyser les séquences biologiques et de
prédire la structure et la fonction des
macromolécules. »(4)
I. Bio-
informatique
5. 5
2. Une transformation de la biologie(3)
I. Bio-
informatique
• Biologie : science basée sur l’observation une science déductive.
• Données de masse et qui continue d’exploser en taille; d’après A.Lesk (3)
o La taille approximative d’un génome humain est de 3.2 x 109 lettres unité HUman Genom
Equivalents (HUGE).
o 1 huge équivaut au nombre de caractères en 6 ans de publications du New York Times.
o La banque de données des séquences de nucléotide contient 16 * 109 bases (16 Gbp) = 5 huges.
o La base de données des structures macromoléculaires contient 16000 entrées=coordonnées
tridimensionnelles complètes des protéines de longueur moyenne=400
• Combine le raisonnement top-down de l’informatique à l’approche
bottom-up de la biologie.
6. 6
3. Biologie computationnelle(4)
I. Bio-
informatique
« Approche formelle de développement d’algorithmes efficaces permettant
de résoudre un problème biologique donné. »(4)
Objectif:
Maintenir un certain
niveau de précision
tout en gardant le
problème solvable.
Question
biologique
Problème
informatique
(modèle)
Algorithme
Résultats
expérimentaux
Formalisation
Résolution
Exécution
Interprétation
Modélisation
fidèle au
problème ?
Solution
existante ?
Est-ce
efficace ?
Ont-ils du
sens ? Information manipulée
ADN (Génome)
• Séquences de nucleotides
• Séquence de genes
• Banques de données
ARN (Transcriptome)
• Séquence
• Structure
Protéines (Protéome)
• Séquence
• Structure
• Réseaux d’intéraction
7. 7
II.
Historique
1950-1970
1971-
1980
1981-
1990
1991-2000 2001-2016
1971: Premier travaux sur le
repliement des ARNs (J.
Ninio).
1973: "Génie Génétique"
1974: "Prediction of Protein
Conformation"
1977: Séquençage d'ADN
(Sanger, Maxam, Gilbert).
1977: Premier "package"
Bioinformatique
1978: Bases de données:
ACNUC, PIR, EMBL,
GenBank.
1951: Première séquence
protéique
1960: Lien entre séquence &
structure
1965: La divergence et la
convergence évolutionnaire
dans les protéines
1967: La construction des
arbres phylogénétiques Fitch &
Margoliash.
1970:programme d'alignement
global de deux sequences
1981: Los Alamos-GenBank:
270 séquences, 370.000
nucléotides.
1981: Programme
d'alignement local
1985:Programme "Fasta"
1990: Programme "Blast"
1990: Clonage positionnel et
séquençage de NF-1.
2000 : Séquençage du
1er génome de plante,
Arabidopsis thaliana.
2001: Séquençage
("premier jet")
complète du génome
humain.
2006-2012 :
reprogrammation
génétique (cellule IPS)
1991: "Grail", programme performant pour
localiser les gènes
1991: Étiquettes d'ADNc "EST"
1992: Séquençage complet du chromosome III de
levure.
1995: Première séquence complète d'un micro-
organisme
1996: Séquence complète de la levure
1997: Programme "Gapped Blast"
1997: 11 génomes bactériens disponibles. 1998:
Séquençage du 1er organisme pluricellulaire,
Caenorhabditis elegans (100 Mb).
8. 8
3. Etat de l’art sur la bio-
informatique
Technologies et méthodes utilisées
• Traitement d’une grande masse de données pour l’identification de
l'organisation des gènes
• La théorie des langages et l'algorithmique
• Les réseaux de neurones
• l’analyse discriminante
• Méthode d’analyse des données Monte-Carlo , chaînes de Markov
• Application :
GENSCAN : un programme général de prédiction de séquences
codantes à partir de séquences d’A.D.N. génomique ;
FASTA (Lipman, Pearson, 1985 ; Pearson, Lipman, 1988), servant à
trouver des séquences dans des bases de données et à identifier des
structures périodiques basées sur des similarités de séquences
locales ;
BLAST (Altschul, Gish et al., 1990), as permet de comparer des
séquences
données à des séquences connues.
Bio-
informatique
de
séquences
9. 9
3. Etat de l’art sur la bio-
informatique
Technologies et méthodes utilisées
• La prédiction des structures tridimensionnelles des (macro-)molécules
biologiques, comme par exemple l’A.D.N., l’A.R.N., les protéines ou
encore les morphogènes ou hormones
• La géométrie « computationnelle » , l’algorithmique afin de développer
les protocoles efficaces pour l’analyse des données
• Application et études :
Développement parallèle des méthodes de géométrie des
distances (Moré, Wu, 1999 ; Liberti, Lavor et al., 2008) et
d’optimisation (Cutello, Narzisi, 2006).
Etude de repliement de l’ARN d’une structure primaire vers une
structure secondaire.
Visualisation et la manipulation des séquences issues des bases de
données, la prédiction des caractéristiques de repliement des
structures primaires menant à la compréhension de leurs structures
secondaires et tertiaires.
Application du aspects de la combinatoire analytique.
Bio-
informatique
de structure
10. 10
3. Etat de l’art sur la bio-
informatique
Technologies et méthodes utilisées
• Interactions des régulations génétiques
• Application et étude :
• Régulations génétiques fonctionnelles :
l’opéron lactose de la bactérie Escherichia Coli par Jacob et
Monod, qui permet notamment de comprendre les
échanges de gènes entre bactéries.
• Représentions formelle sous forme de réseau, permettant
d’expliquer le « système lactose » ( JACOB & MONOD ,prix
de Nobel 1965 )
Bio-
informatique
des réseaux
11. 11
3. Etat de l’art sur la bio-
informatique
Technologies et méthodes utilisées
• La masse de données accumulée en biologie depuis des
décennies
• Stockage & organisation
• Aspect syntaxique du traitement des données et aspect
sémantique du traitement
• Technologies et concepts :
Base de données
Datamining
Algorithmique, l’apprentissage automatique et statistique, la
représentation (visualisation) des connaissances...
Traitement
de
l’information
biologique
12. 12
IV. Problématiques résolues,
d’actualité
L'analyse, la compréhension et l'organisation d'une masse de données biologiques
Décodage l’information contenue dans les séquences d’ADN et de protéine
Génomique structurale et fonctionnelle
L’acquisition et le stockage des données
Traitements systématiques des séquences
Elaboration de stratégies
Evaluation des différentes approches existantes dans le but de les valider
13. 13
V. Challenges de la recherche
Biologie
• Dépendance
vs
contingence
historique
• Problèmes
complexes à
modéliser et à
résoudre
• Ethique
Nature des
données
• Fragmentée
• Incomplète
• Bruitée
• Redondante
(structure de
l’ADN
• Insignifiance
Exigences générales
des programmes
informatiques
• Efficacité
• Sécurité
• Fiabilité
• Mise à
l’échelle
• IHM
• Réseau pour
le partage
14. 14
VI. Solutions envisagées
Outils du Big Data Web sémantique & ontologies Data mining
Principes Evolutionnaires Intelligence Artificielle
15. 15
Conclusion et perspectives
Transdisciplinarité
Révolution biologique
Approches différentes,
réflexion/modélisation
commune
Capitalisation de
connaissances
informatiques
Reprogrammation génétique vs clonage
Implication de la
médecine publique,
écologie …etc.
16. Est-ce juste une question de performances ?
Manipule-t-on les bonnes données ?
Toutes les réponses se trouvent-elles ici ?
Vers une plus grande pluridisciplinarité
17. 17
Bibliographie
1. Barlovatz-meimon, G., & Sené, S. (2012). Méthodes informatiques en biologie, 2018.
2. Cohen, J. (2004). Bioinformatics---an introduction for computer scientists. ACM
Computing Surveys, 36(2), 122–158. https://doi.org/10.1145/1031120.1031122
3. Lesk, A. (2013). Introduction to bioinformatics. BOOK, Oxford University Press.
4. El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000.
5. Ohn C. Wooley and Herbert S. Lin Computing and biology ISBN: 0-309-54937-X, 468
pages, 8 1/2 x 11, (2005) .
18. 18
Crédits photos
1. Slide 7 : « Modifier l'ADN : une réalité possible, pour le meilleur... et pour le pire ? » - TOP-
Santé.COM (22/04/2015)
2. Slide 4, 13 : freepik
3. Slide 3 : El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000
19. 19
Annexe (1) : taille des données
Croissance exponentielle des séquences de nucléotides et d’AA dans les
banques de données biologiques :
• 10.640.515 protéines
• Présentement dans RefSeq (NCBI):
o Plus de 1200 génomes de procaryotes et 460 génomes
o 10.728 espèces d’eucaryotes complètement séquencés.
21. 21
Technologies et méthodes utilisées(2)
Techniques de conception d’algorithmes
• Brute force
• Branch & Bound
• Greedy Rules
• Dynamic Programming
• Divide & conquer
• Machine learning
Comparer
des
séquences
Suppression
Insertion
Remplacement
DAG
Dynamic
Programming
Phylogénétique
Arbres
Groupement par
similarité
Raisonnement sur
évolution
Détection de
patterns
(schémas)
Recherche de
gènes dans l’ADN
ML
Réseaux de
neurones
Grammaire
probabilistique
HMM
THL, Chomsky
grammars
Déterminer les
structures 3D des
protéines depuis les
séquences d’AA
Algorithmes à
complexité
cubique, non
résolu
Inférer le modèle
de régulation des
cellules
Données
expérimentales
Microarrays
Reverse
engineering
Autre
Scripting
langages
Déterminer
fonctions des
protéines et
chemins
métaboliques
Assemblage
d’ADN
Annexe (3)
22. 22
4. De plus grandes ambitions (3)
Annexe (4): Bio-
informatique
• Comprendre la biologie des
organismes dans toute sa
complexité.
• Relier les séquences et structures
complexes des protéines et acides
nucléiques à leur fonction
• Expliquer des phénomènes
passés et prédire l’évolution
future des espèces
• Supporter des applications en
médecine, agriculture et autres
champs de recherche.
Hinweis der Redaktion
Bonjour à tous, Dans le cadre du module d’IMR ma binome et moi nous ferons un plaisir de partager avec vous la synthèse de notre recherche sur le thème de la bio-inforamtique et ses applications
Pour commencer, nous présenterons le contexte puis la discipline de quoi il s’agit, comment ça a évolué, les thématiques résolues et ouvertes ainsi que les challenges rencontrées avec leurs solutions. Nous terminerons par une conclusion et des perspectives.
L’être humain est constitué de tissus à base de cellules, qui sont de véritables usines métaboliques. 100 Milliard cellules contenant dans leur noyaux l’ADN. (600 fois vers le soleil aller-retour)
L’ADN représente une suite de gènes dont certains servent à coder des séquences d’AA qui vont ensuite se replier en protéines ayant une structure 3D et responsables d’une fonction particulière.
L’ADN humain peut etre codé avec 4 symboles ACGT (qui sont les nucléotides) livre de 1000 volumes => difficile à comprendre et à décoder
Ce qui suscite une manne de problèmes mathématiques, statistiques, algorithmiques, combinatoires au carrefour desquelles se retrouve la bio-informatique
Exemple motivant:
La bio-informatique est utilisée en plusieurs contextes: suspect mais pas de preuves (comparaison d’ADN) , global database, comprendre le génome du mammouth
Computa- tional biologists take justified pride in the formal aspects of their work. Those often involve proofs of algorithmic correctness, complexity estimates, and other themes that are central to theoretical computer science.
Définir un modèle d’évolution; ( séquence)
Formaliser le problème;
Étudier la complexité théorique du problème;
Développer des algorithmes permettant de le résoudre;
S’il y a lieu, prouver l’exactitude de l’algorithme
Tester l’efficacité de l’algorithme sur des données simulées;
L’appliquer à des données biologiques
es suites de nucléotides sont perçues comme des mots appartenant au « langage génétique » défini surl'alphabet {A., C., G., T.} dont il faut décider s'ils correspondent ou non à des gènes (Hopcroft, Ullman,1979). Pour déterminer si une séquence est codante, on peut utiliser des outils informatiques de prédictioncapables d'identifier un gène selon plusieurs critères
Ces réseaux sont alors des objets mathématiques complexes, à savoir desgraphes d’interaction, qui permettent d’approximer la réalité biologique en se libérant d’un certain nombrede paramètres (dont la prise en compte entraînerait une complexité qui rendrait toute analyse irréalisable)tout en en conservant l’essence. Les graphes d’interaction résultant modélisent alors l’aspect statique desrégulations qui peut être étudié pour lui-même et qui possède généralement un caractère dynamique qui, luimême, peut également être analysé par des méthodes largement développées depuis longtemps aussi bien eninformatique qu’en mathématiques. L’utilité pour la biologie vient de cette modélisation, à l’origine de lasimplification analytique des lois du vivant permettant d’acquérir les conditions nécessaires (maisgénéralement non suffisantes) pour en comprendre le fonctionnement.
Nous ne pouvons pas raisonnablement parler de bio-informatique sans évoquer le traitement del’information
Ce défi est d’autant plus important que l’accroissement des données se poursuitexponentiellement. Heureusement, indépendamment de la biologie et de la bio-informatique, la scienceinformatique s’intéresse depuis longtemps aux différentes questions liées au traitement de l’information. Enparticulier, de nombreuses recherches ont vu le jour autour de questions ayant trait au
bases de données et du data mining.Ici, nous n’allons pas insister sur les bases de données car les méthodes mises en œuvre sont purementinformatiques et ne dépendent aucunement de la nature des données à traiter. À titre d’informationcependant, les bases de données couramment utilisées à ce jour sont des bases de données relationnelles dontles fondements ont été introduits par Codd (Codd, 1970). l’algorithmique, l’apprentissage automatique et statistique, la représentation (visualisation) desconnaissances..., il représente le processus qui vise à extraire de la connaissance, ou plus précisément desmotifs intéressants (non triviaux et généralement implicites), à partir de grands volumes de données« brutes ». Le processus de data mining peut être séparé en deux phases : la première concerne la préparationdes données et vise à collecter, nettoyer, intégrer, transformer et filtrer les données pertinentes pour leproblème posé, la seconde consiste quant à elle à explorer les données ainsi préparées en vue de leur analyse,qui s’oriente a posteriori vers la prédiction de modèles spécifiques de systèmes biologiques réels (Chen,Lonardi, 2009 ; Hall, Frank et al., 2009), qui peuvent être des modèles de structures d’A.R.N., de réseaux...Bien sûr, comme nous l’avons dit, le développement des méthodes de traitement des données est sansaucun doute essentiel à celui de la bio-informatique moderne, que cette dernière soit vue dans n’importelaquelle des formes qu’elle peut revêtir et qui ont été développées plus haut. Toutefois, le traitement desdonnées est un thème de recherche à part entière, qui ne dépend pas dans ses aspects fondamentaux de lanature des données elles-mêmes mais de leur forme. C’est pourquoi nous n’allons pas le détailler plus avantdans ce chap
1. Given a sequence, or fragment of a sequence, find sequences in the database that are similar to it. This is a central problem in bioinformatics. We share such string-matching problems with many fields of computer science. For instance, word processing and editing programs support string-search functions.
2. Given a protein structure, or fragment, find protein structures in the database that are similar to it. This is the generalization of the string matching problem to three dimensions.
3. Given a sequence of a protein of unknown structure, find structures in the database that adopt similar three-dimensional structures. One is tempted to cheat - to look in the sequence data banks for proteins with sequences similar to the probe sequence: For if two proteins have sufficiently similar sequences, they will have similar structures. However, the converse is not true, and one can hope to create more powerful search techniques that will find proteins of similar structure even though their sequences have diverged beyond the point where they can be recognized as similar by sequence comparison.
4. Given a protein structure, find sequences in the data bank that correspond to similar structures. Again, one can cheat by using the structure to probe a structure data bank, but this can give only limited success because there are so many more sequences known than structures. It is, therefore, desirable to have a method that can pick out the structure from the sequence.
(1) and (2) are solved problems; such searches are carried out thousands of times a day. (3) and (4) are active fields of research.
Nombre de cellules/genes/protéines gaspillées pour arriver au bon résultat
Pro- viding ancillary tools allowing researchers to compare carefully the relationship be- tween new data and data that has been validated by experiments.
With the help of evolutionary principles, that informa- tion can be extrapolated to other species
La nécessité en bioinformatique de recourir à un nombre toujours croissant (plusieurs milliers aujourd'hui)d'outilsdisponiblessurleWebetdebanquesdedonnéesgénomiques-elles-mêmestoujours plus volumineuses-, rend urgent le besoin d'aider l'utilisateur par des procédures automatiques ; ontologies
Trasdisciplinarité = Ne pas attendre ni proposer la « solution à tout », mais plutôt, valider une hypothèse, mieux comprendre les règles de base et l'essence des systèmes, aboutir à une simulation qui fait apparaître un comportement inédit, une courbe de comportement, ou encore, inscrire dans une logique inattendue, les résultats expérimentaux
Les gènes contiennent des enregistrements de l’histoire de la vie sur Terre. On ignore si l’humain arrivera un jour à cette vérité absolue sur l’histoire de la vie sur Terre.
Mais une chose est sure si cela venait à arriver l’informatique aura sa part de mérite.
Other2 : e. The objective here is to interpret human annotations for protein function and also to develop databases representing graphs that can be queried for the existence of nodes (speci- fying reactions) and paths (specifying se- quences
Other3 : The tricky part of that assemblage is thatDNA has many repetitive regions and the same
fragment may belong to different regions.
Other 1! Many of
the above applications are already avail- able in websites. Their usage requires scripting that provides data for an appli- cation, receives it back, and then analyzes it.