next up previous contents
Next: 4.2.3 Participation aux Cours Up: 4.2 Formations proposées aux Previous: 4.2.1 Les cours d'informatique

  
4.2.2 La formation aux logiciels biologiques

Dans leur grande majorité, les programmes informatiques utilisés en biologie traitent des séquences représentant des molécules biologiques, acides nucléiques ou protéines et tentent d'en extraire des informations interprétables en termes de caractéristiques biologiques des molécules correspondantes.

Leur utilisation se conçoit actuellement essentiellement dans deux optiques :

Si la nécessité pour un biologiste de connaître les méthodes informatiques d'analyses séquences est du même ordre que celle de maîtriser les dessous d'approches expérimentales, la difficulté pour y parvenir n'est pas la même. Les programmes informatiques travaillent sur des données qui ne sont que des représentations (les séquences) des molécules étudiées. Ils incorporent des présupposés biologiques parfois forts (indépendance des évènements mutationnels aux différentes positions d'une séquence par exemple) et se fondent sur des modèles (mathématiques, biologiques, statistiques) dont la pertinence vis-à-vis des questions en jeu est variable. Les raisonnements qui leur sont sous-jacents font appel à des procédures de calcul dont l'exactitude, la sensibilité, la spécificité ou l'efficacité diffèrent d'un programme à l'autre et peuvent dépendre de paramètres du programme. Enfin, les représentations, définitions et méthodes qui participent à la formalisation et à la résolution d'un problème peuvent être de nature déterministe ou probabiliste. En conséquence, le contenu sémantique de ces programmes est souvent complexe, et les concepts et outils participant à leur construction, empruntés à plusieurs disciplines, ne font habituellement pas partie de la culture des biologistes. Par ailleurs, leur développement constitue un domaine de recherche, à la confluence entre plusieurs sciences, ils évoluent vite, sont de plus en plus nombreux, plus ou moins documentés, et dotés d'interfaces souvent aussi dissuasives que les documentations.

Ainsi, savoir choisir un programme, moduler son comportement et évaluer les résultats qu'il produit reste trop souvent l'affaire exclusive de mythiques spécialistes.

Dans ce contexte, nos cours ont comme objectifs de faire prendre conscience de l'existence et de présenter la nature des activités de recherche sous-jacentes à l'élaboration des programmes, ainsi que de donner aux biologistes des clés théoriques et pratiques pour une utilisation autonome avertie des programmes informatiques d'analyses de séquences.

La session est organisée autour d'un cours d'introduction, cours purement théorique d'une journée qui a pour double vocation de présenter l'ensemble de la session et d'introduire des notions fondamentales communes à toutes les problématiques développées dans le reste de la session.

Il s'articule autour d'un problème simple, celui de la comparaison de deux séquences, et à la base de nombreuses autres questions. En étudiant en détail un algorithme (Needleman et Wunsch) permettant d'obtenir le meilleur alignement entre deux séquences, depuis la formalisation du problème jusqu'à l'écriture de l'algorithme en pseudo-code, on peut dégager concrètement les grandes lignes d'une telle démarche. Sa simplicité permet de le mettre en marche « humainement » et ainsi de faire apparaître l'influence des paramètres sur le résultat obtenu, ou d'aborder des questions telles que la complexité de l'algorithme et ses conséquences sur le déroulement effectif du programme (et montrer que des questions telles que « quel espace de mémoire ce programme demandera-t-il ? A-t-il une chance de se terminer un jour ? » peuvent trouver des réponses rationnelles). La question de la mesure de la ressemblance entre monomères de macromolécules biologiques permet d'introduire l'importance des modèles et hypothèses biologiques dans la définition et formalisation de telles notions.

Le reste de la session est organisé en modules thématiques :

Ces cours comportent tous des aspects théoriques et pratiques, en proportions variables selon les thèmes abordés et les objectifs. Les cours pratiques ont pour double objectif de mettre en relation les notions théoriques préalablement étudiées avec le comportement observé des programmes en fonction des données et des paramètres, et d'apprendre comment « faire marcher » les programmes. N'oublions pas en effet qu'une autre difficulté rencontrée par les biologistes, outre la complexité sémantique des programmes, est liée au fait que les programmes informatiques s'utilisent avec des ordinateurs, et qu'ils proposent des interfaces homme-machine d'aspect souvent peu engageant et dont l'hétérogénéité donne souvent l'impression de reprendre l'apprentissage à zéro avec chaque nouveau programme. La partie des cours pratiques consacrée à expliquer l'utilisation des interfaces et la syntaxe Unix des programmes s'est considérablement réduite l'an passé grâce aux cours de l'autre demi-session et au développement d'interfaces HTML ne cachant rien de la complexité des méthodes implantées dans les programmes mais présentant le double avantage de la convivialité et de l'homogénéité. Cette réduction se fait au profit de l'étude du comportement des programmes en rapport avec les questions biologiques posées, et dans la perspective d'une utilisation donc dans un souci d'efficacité et de considération du caractère partagé des ressources de calcul.


next up previous contents
Next: 4.2.3 Participation aux Cours Up: 4.2 Formations proposées aux Previous: 4.2.1 Les cours d'informatique