Site WWW de Laurent Bloch
Slogan du site

ISSN 2271-3905
Cliquez ici si vous voulez visiter mon autre site, orienté vers des sujets moins techniques.

Pour recevoir (au plus une fois par semaine) les nouveautés de ce site, indiquez ici votre adresse électronique :

Configurer des séquences biologiques pour les aligner
Article mis en ligne le 3 juillet 2021
dernière modification le 17 août 2021

par Laurent Bloch

Pour programmer un algorithme génial qui méritera le prix Turing, il faudra souvent avoir au préalable acquis les données, généralement depuis un ou plusieurs fichiers, et les avoir mises sous la forme appropriée. C’est un travail peu glorieux, mais ce n’est pas forcément très facile, cela prend du temps et des lignes de code, et oblige à se faire des idées sur le système d’exploitation. C’est l’objet du présent article.

Codage, caractères, glyphes

Cet article vient à la suite de Premiers programmes en Rust, de Programmation Rust, suite et de Codage de séquences biologiques avec Rust. Je ne suis pas encore arrivé au cœur du sujet, mais au seuil : les programmes de cet épisode peuvent lire un fichier au format FASTA qui contient une (unique) séquence, vérifier que la première ligne est bien conforme au format, l’extraire pour éventuellement documenter la séquence, ensuite retirer du texte proprement dit de la séquence les caractères de saut de ligne (LF, Line Feed) afin d’obtenir une séquence propre, prête à subir les exactions de Messieurs Needleman et Wunsch, ou, si l’on préfère, de Messieurs Smith et Waterman, ce que je prévois de faire dans un prochain épisode.

Pour suivre les conseils de lecteurs compétents, j’ai renoncé au type chaîne de caractères : en effet les caractères de Rust obéissent à la norme UTF-8, qui leur permet d’occuper jusqu’à quatre octets, ce qui est encombrant, mais surtout cette occupation est de taille variable, un caractère peut occuper un, deux, trois ou quatre octets, selon sa signification [1]. Pour éviter ces caractères de taille variable, j’ai décidé d’utiliser pour coder les nucléotides le type unsigned 8, qui correspond à un octet. Je sais qu’il est possible d’utiliser des codages encore plus condensés, mais après tout les algorithmes envisagés valent aussi pour les acides aminés, alors vivent les octets.

Martin Larralde m’a conseillé « de créer un wrapper de Vec, et d’implémenter [moi-même] les traits Display et Debug, de manière à pouvoir visualiser la séquence sous forme de texte (ce qui se fait de façon triviale avec std::str::from_utf8_unchecked , si on respecte l’invariant que le Vec ne contient que des caractères alphanumériques). » Bon, j’ai bien utilisé std::str::from_utf8_unchecked, mais le wrapper attendra que je me sois un peu perfectionné en Rust.

Typage et dépendances

La grande originalité de Rust, et sa qualité exclusive, est son modèle de mémoire, qui garantit à la compilation l’absence de débordement de buffer ou de toute autre zone de mémoire, et aussi le fait qu’un seul sous-programme puisse, à un instant donné, modifier la valeur d’une variable : toute valeur appartient à une variable et une seule, qui est limitée à une portée donnée par la syntaxe. Si un sous-programme passe une de ses variables à un autre sous-programme, ce dernier en devient le propriétaire, et le premier ne peut plus modifier sa valeur.

Ces caractéristiques font la sûreté du langage, mais elles ont un prix. Pour la cinématique des données, il faut y réfléchir à deux fois avant de passer une variable en argument à un autre sous-programme, parce qu’après on ne pourra plus y toucher ; on peut souvent s’en tirer avec des références, comme en Ada. C prétend avoir un typage fort : cette assertion est spécieuse, parce que si le typage est fort, il peut facilement être contourné pour provoquer les failles de sécurité qui font la joie des pirates. Rust ne plaisante pas avec le typage, on n’y coupe pas. Certaines méthodes de Vec<u8> (données sur le tas) renvoient des tranches (slices) de type array [u8] (données sur la pile), il faut leur appliquer la méthode to_vec() (conversion d’array en Vec) pour les utiliser, ainsi :

La méthode fasta_sequence.split_at(index) renvoie un tuple (type d’objet commode et indulgent que Rust fournit au programmeur pour le consoler de ses souffrances) de deux éléments de type array [u8] dont le premier élément contient les premiers éléments du vecteur fasta_sequence jusqu’à l’indice index (non compris), et le second les éléments depuis index (compris) jusqu’à fasta_sequence.len() (la longueur totale du vecteur), non compris. Finalement c’est bien conçu, mais ces deux lignes m’ont fait transpirer avant que j’aie compris comment cela marchait.

On remarque que fasta_sequence.split_at(index).0 désigne le premier élement du tuple, et fasta_sequence.split_at(index).1 le second.

Incidemment, cette notation des méthodes, empruntée à la programmation par objets, est bien commode, mais Rust n’est pas un langage à objets, avec toutes ces histoires d’héritage multiple et de surcharge d’opérations qui ont finalement introduit plus de confusion qu’autre chose.

Le programme

Voici le corps du module fasta_files_mgt. Reste à écrire le module sequences_matrix, qui soumettra nos deux séquences à l’algorithme de Messieurs Needleman et Wunsch, ou à celui, cousin, de Messieurs Smith et Waterman. Les autres fichiers, inchangés, sont ceux de l’article Codage de séquences biologiques avec Rust, où l’on trouvera aussi des séquences au format FASTA pour essayer.

Les pages Web dont je me suis inspiré :

Lire un fichier d’octets

Lire et décrire un fichier