4.2.2 La formation aux logiciels biologiques

Next: 4.2.3 Participation aux Cours Up: 4.2 Formations proposées aux Previous: 4.2.1 Les cours d'informatique

4.2.2 La formation aux logiciels biologiques

Dans leur grande majorité, les programmes informatiques utilisés en biologie traitent des séquences représentant des molécules biologiques, acides nucléiques ou protéines et tentent d'en extraire des informations interprétables en termes de caractéristiques biologiques des molécules correspondantes.

Leur utilisation se conçoit actuellement essentiellement dans deux optiques :

S'inscrivant dans une démarche scientifique, à côté de méthodes expérimentales, ils permettent d'apporter des éléments de réponse à des questions élaborées dans le cadre de problématiques biologiques. L'interprétation des résultats obtenus, en relation avec les connaissances et questions concernant ces molécules, permet de formuler, valider ou réfuter des hypothèses. De même que pour les méthodes expérimentales, le choix des programmes adéquats et la compréhension des résultats obtenus reposent sur une connaissance des méthodes, modèles et hypothèses qui les sous-tendent.
Ces programmes sont au coeur des démarches mises en oeuvre dans la réalisation de projets de séquençage systématique de génomes, que ce soit lors de la phase d'obtention de la séquence complète finale ou pour l'analyser, c'est à dire interpréter la séquence nucléotidique dans le but d'y identifier des régions potentiellement codantes, régulatrices... et formuler des hypothèses quant aux propriétés structurales ou fonctionnelles ou aux relations évolutives des protéines correspondantes. La plupart des biologistes à l'Institut Pasteur ne sont pas directement impliqués dans des projets de « génomique systématique ». Cependant, les données (brutes et interprétées) issues de ces projets forment une partie importante du contenu des banques de données biologiques. L'exploitation des informations présentes dans les banques nécessite de pouvoir juger de leur valeur et du crédit à leur accorder, ce qui passe par une connaissance des méthodes employées pour les obtenir.

Si la nécessité pour un biologiste de connaître les méthodes informatiques d'analyses séquences est du même ordre que celle de maîtriser les dessous d'approches expérimentales, la difficulté pour y parvenir n'est pas la même. Les programmes informatiques travaillent sur des données qui ne sont que des représentations (les séquences) des molécules étudiées. Ils incorporent des présupposés biologiques parfois forts (indépendance des évènements mutationnels aux différentes positions d'une séquence par exemple) et se fondent sur des modèles (mathématiques, biologiques, statistiques) dont la pertinence vis-à-vis des questions en jeu est variable. Les raisonnements qui leur sont sous-jacents font appel à des procédures de calcul dont l'exactitude, la sensibilité, la spécificité ou l'efficacité diffèrent d'un programme à l'autre et peuvent dépendre de paramètres du programme. Enfin, les représentations, définitions et méthodes qui participent à la formalisation et à la résolution d'un problème peuvent être de nature déterministe ou probabiliste. En conséquence, le contenu sémantique de ces programmes est souvent complexe, et les concepts et outils participant à leur construction, empruntés à plusieurs disciplines, ne font habituellement pas partie de la culture des biologistes. Par ailleurs, leur développement constitue un domaine de recherche, à la confluence entre plusieurs sciences, ils évoluent vite, sont de plus en plus nombreux, plus ou moins documentés, et dotés d'interfaces souvent aussi dissuasives que les documentations.

Ainsi, savoir choisir un programme, moduler son comportement et évaluer les résultats qu'il produit reste trop souvent l'affaire exclusive de mythiques spécialistes.

Dans ce contexte, nos cours ont comme objectifs de faire prendre conscience de l'existence et de présenter la nature des activités de recherche sous-jacentes à l'élaboration des programmes, ainsi que de donner aux biologistes des clés théoriques et pratiques pour une utilisation autonome avertie des programmes informatiques d'analyses de séquences.

La session est organisée autour d'un cours d'introduction, cours purement théorique d'une journée qui a pour double vocation de présenter l'ensemble de la session et d'introduire des notions fondamentales communes à toutes les problématiques développées dans le reste de la session.

Il s'articule autour d'un problème simple, celui de la comparaison de deux séquences, et à la base de nombreuses autres questions. En étudiant en détail un algorithme (Needleman et Wunsch) permettant d'obtenir le meilleur alignement entre deux séquences, depuis la formalisation du problème jusqu'à l'écriture de l'algorithme en pseudo-code, on peut dégager concrètement les grandes lignes d'une telle démarche. Sa simplicité permet de le mettre en marche « humainement » et ainsi de faire apparaître l'influence des paramètres sur le résultat obtenu, ou d'aborder des questions telles que la complexité de l'algorithme et ses conséquences sur le déroulement effectif du programme (et montrer que des questions telles que « quel espace de mémoire ce programme demandera-t-il ? A-t-il une chance de se terminer un jour ? » peuvent trouver des réponses rationnelles). La question de la mesure de la ressemblance entre monomères de macromolécules biologiques permet d'introduire l'importance des modèles et hypothèses biologiques dans la définition et formalisation de telles notions.

Le reste de la session est organisé en modules thématiques :

« recherche de similarités dans les banques de données », présentée comme une extension du problème de la comparaison de deux séquences (4 heures) ;
« méthodes informatiques en phylogénie moléculaire » (10 heures) ;
« recherches de gènes et séquences codantes » (6 heures) ;
« alignements multiples et recherches de motifs » : un cours théorique de 6 heures présentant les aspects algorithmiques communs à ces problématiques et les variations autour du concept d'alignement et de sa modélisation, et 4 TP de 3 heures chacun, traitant de questions distinctes du point de vue du biologiste, « alignement multiple global », « recherche de motifs connus », « extraction de motifs », ou de méthodes particulières, « modèles de Markov » dans les problématiques d'alignement multiple, global ou local ;
« assemblage de séquences » (6 heures) ;
« recherche dans les banques de données » qui concerne les programmes permettant d'accéder aux données biologiques informatisées ;
« GCG » qui présente l'environnement de travail GCG.

Ces cours comportent tous des aspects théoriques et pratiques, en proportions variables selon les thèmes abordés et les objectifs. Les cours pratiques ont pour double objectif de mettre en relation les notions théoriques préalablement étudiées avec le comportement observé des programmes en fonction des données et des paramètres, et d'apprendre comment « faire marcher » les programmes. N'oublions pas en effet qu'une autre difficulté rencontrée par les biologistes, outre la complexité sémantique des programmes, est liée au fait que les programmes informatiques s'utilisent avec des ordinateurs, et qu'ils proposent des interfaces homme-machine d'aspect souvent peu engageant et dont l'hétérogénéité donne souvent l'impression de reprendre l'apprentissage à zéro avec chaque nouveau programme. La partie des cours pratiques consacrée à expliquer l'utilisation des interfaces et la syntaxe Unix des programmes s'est considérablement réduite l'an passé grâce aux cours de l'autre demi-session et au développement d'interfaces HTML ne cachant rien de la complexité des méthodes implantées dans les programmes mais présentant le double avantage de la convivialité et de l'homogénéité. Cette réduction se fait au profit de l'étude du comportement des programmes en rapport avec les questions biologiques posées, et dans la perspective d'une utilisation donc dans un souci d'efficacité et de considération du caractère partagé des ressources de calcul.

Next: 4.2.3 Participation aux Cours Up: 4.2 Formations proposées aux Previous: 4.2.1 Les cours d'informatique