Python et Biopython - [Site WWW de Laurent Bloch]

Python et Biopython

Article mis en ligne le 2 novembre 2019

dernière modification le 5 mai 2022

par Laurent Bloch

Dans un article précédent je racontais comment j’avais été amené à écrire un manuel de Python à l’usage des biologistes désireux de devenir bioinformaticiens. L’attrait des biologistes pour Python est dans une large mesure suscité par l’existence de la bibliothèque de programmes Biopython, qui leur fournit effectivement des réponses à la plupart des problèmes informatiques qu’ils peuvent se poser. Mais la dextérité dans l’usage des programmes déjà faits proposés par Biopython suffit-elle à constituer une compétence de bioinformaticien ? Pour en avoir le cœur net j’ai entrepris d’explorer cette bibliothèque. C’est un bref récit de cette excursion que je vous propose ici.

Premiers pas avec Biopython

Installer la bibliothèque, vérifier son fonctionnement

Soit un système Linux avec Python installé. Pour avoir accès à Biopython (et tenter quelques essais préliminaires) il faut procéder ainsi, en utilisant l’instruction import :

$ sudo apt install python3-pip
$ pip3 install biopython
$ python3
Python 3.7.3 (default, Oct  7 2019, 12:56:13) 
[GCC 8.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
> import Bio
> print(Bio.__version__)
1.74
> from Bio.Seq import Seq
> my_seq = Seq("AGTACACTGGT")
> my_seq
Seq('AGTACACTGGT')
> my_seq.complement()
Seq('TCATGTGACCA')
> my_seq.reverse_complement()
Seq('ACCAGTGTACT')

Ce premier exemple introduit l’objet Seq, qui fournit les mécanismes de base pour manipuler les textes de séquences biologiques et les fichiers qui les contiennent.

Séquences biologiques

Les séquences biologiques (ADN, ARN, protéines) sont l’objet central de la bioinformatique. Ce sont des textes qui décrivent, sous forme codée, la séquence des nucléotides d’une molécule (ou partie de molécule) d’ADN (adénine codée A, cytosine codée C, guanine codée G ou thymine codée T, d’où l’alphabet ACGT), d’ARN (la thymine de l’ADN y est remplacée par l’uracile, d’où l’alphabet ACGU), ou pour une protéine la séquence de ses acides aminés. Le lecteur peu familier de la biologie moléculaire peut trouver une explication des évolutions récentes du séquençage génomique dans un article de Sacha Schutz.

Les séquences sont accessibles dans des banques de données, sous différents formats qui ajoutent à leur texte proprement dit de nombreuses autres informations : identifiants conventionnels tels qu’Accession Number, références bibliographiques de publications qui s’y rapportent, identité de l’organisme, etc. Les principales banques de données bioinformatiques sont GenBank et EMBL pour les séquences nucléotidiques, UniProt, SwissProt et TrEMBL pour les protéines. Les banques PDB, SCOP et CATH fournissent des informations de structure spatiale des protéines, nécessaires aux logiciels de modélisation moléculaire. PubMed est une banque de données bibliographiques.

Les logiciels de traitement des données de séquence les acceptent également sous différents formats. La routine du bioinformaticien consiste pour une grande part à extraire des données de séquences d’une banque, à les transformer pour les mettre au format attendu par le logiciel de traitement, puis à transformer le résultat obtenu pour le mettre au format d’un logiciel suivant, ou au format d’une base de données où on désire le stocker [1]. Ces opérations d’analyse syntaxique et de transformation sont désignées par le verbe anglais to parse, et l’on trouvera souvent l’anglicisme parser. Biopython fournit une grande variété de programmes pour effectuer ces opérations, pour les formats de données usuels en biologie moléculaire. Nous reprenons ci-dessous un exemple du manuel Biopython.

Manipuler des séquences

Analyse de séquences

L’opération paradigmatique de la biologie moléculaire informatique est l’alignement de séquences, décrit par cet article et celui-ci. Le logiciel le plus utilisé à cette fin est BLAST, mais il faut également citer ClustalW pour les alignements multiples, ainsi que FASTA. La plupart de ces logiciels d’analyse de séquences n’ont pas besoin de toutes les informations disponibles dans les banques, et utilisent un format de fichier très simple, dit « format FASTA » :

– la première ligne d’une séquence est une ligne de commentaires, avec en colonne 1 le caractère > suivi de l’identifiant de la séquence et d’un texte libre [2] ;
– une ou plusieurs lignes, longues d’au plus 120 caractères, pour le texte de la séquence proprement dite, codée selon la nomenclature IUPAC [3] ;
– éventuellement une ligne vide pour séparer cette séquence de la suivante.

Voici un fragment emprunté à une orchidée :

>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG
CCGCCTCGGGAGCGTCCATGGCGGGTTTGAACCTCTAGCCCGGCGCAGTTTGGGCGCCAAGCCATATGAA
AGCATCACCGGCGAATGGCATTGTCTTCCCCAAAACCCGGAGCGGCGGCGTGCTGTCGCGTGCCCAATGA
ATTTTGATGACTCTCGCAAACGGGAATCTTGGCTCTTTGCATCGGATGGAAGGACGCAGCGAAATGCGAT
AAGTGGTGTGAATTGCAAGATCCCGTGAACCATCGAGTCTTTTGAACGCAAGTTGCGCCCGAGGCCATCA
GGCTAAGGGCACGCCTGCTTGGGCGTCGCGCTTCGTCTCTCTCCTGCCAATGCTTGCCCGGCATACAGCC
AGGCCGGCGTGGTGCGGATGTGAAAGATTGGCCCCTTGTGCCTAGGTGCGGCGGGTCCAAGAGCTGGTGT
TTTGATGGCCCGGAACCCGGCAAGAGGTGGACGGATGCTGGCAGCAGCTGCCGTGCGAATCCCCCATGTT
GTCGTGCTTGTCGGACAGGCAGGAGAACCCTTCCGAACCCCAATGGAGGGCGGTTGACCGCCATTCGGAT
GTGACCCCAGGTCAGGCGGGGGCACCCGCTGAGTTTACGC

Nous pouvons analyser le fichier entier (qui contient plusieurs séquences) avec le programme Python suivant :

import Bio
from Bio import SeqIO
for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))

qui donnera le résultat suivant :

gi|2765658|emb|Z78533.1|CIZ78533
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCAT...CGC', SingleLetterAlphabet())
740
gi|2765657|emb|Z78532.1|CCZ78532
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTT...GGC', SingleLetterAlphabet())
753
gi|2765656|emb|Z78531.1|CFZ78531
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTT...TAA', SingleLetterAlphabet())
748
gi|2765655|emb|Z78530.1|CMZ78530
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTT...CAT', SingleLetterAlphabet())
744

...

Nous pouvons aussi partir de la séquence telle qu’elle figure dans GenBank :

LOCUS       Z78533                   740 bp    DNA     linear   PLN 30-NOV-2006
DEFINITION  C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA.
ACCESSION   Z78533
VERSION     Z78533.1  GI:2765658
KEYWORDS    5.8S ribosomal RNA; 5.8S rRNA gene; internal transcribed spacer;
            ITS1; ITS2.
SOURCE      Cypripedium irapeanum
  ORGANISM  Cypripedium irapeanum
            Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
            Spermatophyta; Magnoliophyta; Liliopsida; Asparagales; Orchidaceae;
            Cypripedioideae; Cypripedium.
REFERENCE   1
  AUTHORS   Cox,A.V., Pridgeon,A.M., Albert,V.A. and Chase,M.W.
  TITLE     Phylogenetics of the slipper orchids (Cypripedioideae:
            Orchidaceae): nuclear rDNA ITS sequences
  JOURNAL   Unpublished
REFERENCE   2  (bases 1 to 740)
  AUTHORS   Cox,A.V.
  TITLE     Direct Submission
  JOURNAL   Submitted (19-AUG-1996) Cox A.V., Royal Botanic Gardens, Kew,
            Richmond, Surrey TW9 3AB, UK
FEATURES             Location/Qualifiers
     source          1..740
                     /organism="Cypripedium irapeanum"
                     /mol_type="genomic DNA"
                     /db_xref="taxon:49711"
     misc_feature    1..380
                     /note="internal transcribed spacer 1"
     gene            381..550
                     /gene="5.8S rRNA"
     rRNA            381..550
                     /gene="5.8S rRNA"
                     /product="5.8S ribosomal RNA"
     misc_feature    551..740
                     /note="internal transcribed spacer 2"
ORIGIN      
        1 cgtaacaagg tttccgtagg tgaacctgcg gaaggatcat tgatgagacc gtggaataaa
       61 cgatcgagtg aatccggagg accggtgtac tcagctcacc gggggcattg ctcccgtggt
      121 gaccctgatt tgttgttggg ccgcctcggg agcgtccatg gcgggtttga acctctagcc
      181 cggcgcagtt tgggcgccaa gccatatgaa agcatcaccg gcgaatggca ttgtcttccc
      241 caaaacccgg agcggcggcg tgctgtcgcg tgcccaatga attttgatga ctctcgcaaa
      301 cgggaatctt ggctctttgc atcggatgga aggacgcagc gaaatgcgat aagtggtgtg
      361 aattgcaaga tcccgtgaac catcgagtct tttgaacgca agttgcgccc gaggccatca
      421 ggctaagggc acgcctgctt gggcgtcgcg cttcgtctct ctcctgccaa tgcttgcccg
      481 gcatacagcc aggccggcgt ggtgcggatg tgaaagattg gccccttgtg cctaggtgcg
      541 gcgggtccaa gagctggtgt tttgatggcc cggaacccgg caagaggtgg acggatgctg
      601 gcagcagctg ccgtgcgaat cccccatgtt gtcgtgcttg tcggacaggc aggagaaccc
      661 ttccgaaccc caatggaggg cggttgaccg ccattcggat gtgaccccag gtcaggcggg
      721 ggcacccgct gagtttacgc
//

qui donnera la sortie suivante :

Z78533.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGA...CGC', IUPACAmbiguousDNA())
740
Z78532.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGT...GGC', IUPACAmbiguousDNA())
753
Z78531.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGT...TAA', IUPACAmbiguousDNA())
748

...

avec le Python suivant :

from Bio import SeqIO
for seq_record in SeqIO.parse("ls_orchid.gbk", "genbank"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))

On remarque que le format de données de GenBank, comme celui de SwissProt, termine une séquence par une ligne //. Les informations fournies par GenBank sont plus riches que celles du format FASTA, ce qui permet au programme d’identifier l’alphabet IUPACAmbiguousDNA, ce qui est plus précis que SingleLetterAlphabet.

On trouvera une vaste collection d’exemples sur le site de Biopython, plus précisément dans le « livre de recettes ».

Traduction de séquence

À titre d’exemple, voici la méthode de traduction de séquence d’ARN messager et son résultat :

Ligne de commande : ./ARN-traduc.py ARN-traduc.txt

#!/usr/bin/env python3
def  ARN_traduc(alphabet):
    import sys
    from Bio.Seq import Seq
    from Bio.Alphabet import IUPAC
    f_lire = open(sys.argv[1], mode ='r')
    une_ligne = f_lire.readline()
    messenger_rna = Seq(une_ligne, alphabet)
    print(messenger_rna)
    print(messenger_rna.translate())

from Bio.Alphabet import IUPAC
ARN_traduc(IUPAC.unambiguous_rna)

# -> AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG
# -> MAIVMGR*KGAR*

On peut aussi traduire directement à partir de l’ADN :

Ligne de commande : ./ADN-traduc.py ADN-traduc.txt

#!/usr/bin/env python3
def  ADN_traduc(alphabet):
    import sys
    from Bio.Seq import Seq
    from Bio.Alphabet import IUPAC
    f_lire = open(sys.argv[1], mode ='r')
    une_ligne = f_lire.readline()
    coding_dna = Seq(une_ligne, alphabet)
    print(coding_dna)
    print(coding_dna.translate())

from Bio.Alphabet import IUPAC
ADN_traduc(IUPAC.unambiguous_dna)

# -> ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG
# -> MAIVMGR*KGAR*

On remarque dans la séquence, avant le codon STOP final un codon STOP interne, noté * dans le résultat.

Par défaut les tables de traduction de Biopython sont basées sur celles du NCBI, mais on peut choisir sa table, par exemple pour de l’ADN mitochondrial [4] ainsi :

> coding_dna.translate(table="Vertebrate Mitochondrial")
Seq('MAIVMGRWKGAR*', HasStopCodon(IUPACProtein(), '*'))

# ou, en utilisant le numéro de la table du NCBI désirée :

> coding_dna.translate(table=2)
Seq('MAIVMGRWKGAR*', HasStopCodon(IUPACProtein(), '*'))

Pour éclairer les lecteurs qui ne seraient pas familiers du code génétique, voici la table de traduction standard du NCBI, et la table pour l’ADN mitochondrial. Les 64 combinaisons possibles de 3 nucléotides (4³), appelées codons, servent à coder les 20 acides aminés (plus évidemment les nouveaux inventés par les chercheurs), c’est-à-dire que plusieurs codons peuvent coder pour le même acide aminé ; on dit que le code est dégénéré :

Table 1 Standard, SGC0

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I   | ACT T   | AAT N   | AGT S   | T
A | ATC I   | ACC T   | AAC N   | AGC S   | C
A | ATA I   | ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V   | GCG A   | GAG E   | GGG G   | G
--+---------+---------+---------+---------+--

Table 2 Vertebrate Mitochondrial, SGC1

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA W   | A
T | TTG L   | TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L   | CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I(s)| ACT T   | AAT N   | AGT S   | T
A | ATC I(s)| ACC T   | AAC N   | AGC S   | C
A | ATA M(s)| ACA T   | AAA K   | AGA Stop| A
A | ATG M(s)| ACG T   | AAG K   | AGG Stop| G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V(s)| GCG A   | GAG E   | GGG G   | G
--+---------+---------+---------+---------+--

Le voici, à partir de l’ARN messager et avec les noms et abréviations des acides aminés (dont certains peuvent être basiques !). Admirez leurs jolis noms :

Alanine 	A 	Ala 	GCU, GCC, GCA, GCG.
Arginine 	R 	Arg 	CGU, CGC, CGA, CGG ; AGA, AGG.
Asparagine 	N 	Asn 	AAU, AAC.
Acide aspartique D 	Asp 	GAU, GAC.
Cystéine 	C 	Cys 	UGU, UGC.
Glutamine 	Q 	Gln 	CAA, CAG.
Acide glutamique E 	Glu 	GAA, GAG.
Glycine 	G 	Gly 	GGU, GGC, GGA, GGG.
Histidine 	H 	His 	CAU, CAC.
Isoleucine 	I 	Ile 	AUU, AUC, AUA.
Leucine 	L 	Leu 	UUA, UUG ; CUU, CUC, CUA, CUG.
Lysine		K 	Lys 	AAA, AAG.
Méthionine 	M 	Met 	AUG.
Phénylalanine	F 	Phe 	UUU, UUC.
Proline 	P 	Pro 	CCU, CCC, CCA, CCG.
Pyrrolysine 	O 	Pyl 	UAG, avant élément PYLIS.
Sélénocystéine	U 	Sec 	UGA, avec séquence SECIS.
Sérine	       	S 	Ser 	UCU, UCC, UCA, UCG ; AGU, AGC.
Thréonine 	T 	Thr 	ACU, ACC, ACA, ACG.
Tryptophane 	W 	Trp 	UGG. (UGA)
Tyrosine 	Y 	Tyr 	UAU, UAC.
Valine		V 	Val 	GUU, GUC, GUA, GUG.
Initiation 		     	AUG. (UUG, CUG)
Terminaison 	* 		UAG, UAA ; UGA.

Voici enfin , une vraie, pas les choses un peu visqueuses que vous pouvez acheter dans les salles de gymnastique ; celle-ci est empruntée à un xénope tropical, sorte de crapaud griffu africain aimé des biologistes pour certaines propriétés intéressantes :

ID   1433B_XENTR             Reviewed;         244 AA.
AC   Q5XGC8; Q28HK2;
DT   22-NOV-2005, integrated into UniProtKB/Swiss-Prot.
DT   23-NOV-2004, sequence version 1.
DT   28-NOV-2006, entry version 18.
DE   14-3-3 protein beta/alpha.
GN   Name=ywhab;
OS   Xenopus tropicalis (Western clawed frog) (Silurana tropicalis).
OC   Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
OC   Amphibia; Batrachia; Anura; Mesobatrachia; Pipoidea; Pipidae;
OC   Xenopodinae; Xenopus; Silurana.
OX   NCBI_TaxID=8364;
RN   [1]
RP   NUCLEOTIDE SEQUENCE [LARGE SCALE MRNA].
RG   Sanger Xenopus tropicalis EST/cDNA project;
RL   Submitted (MAR-2006) to the EMBL/GenBank/DDBJ databases.
RN   [2]
RP   NUCLEOTIDE SEQUENCE [LARGE SCALE MRNA].
RC   TISSUE=Embryo;
RG   NIH - Xenopus Gene Collection (XGC) project;
RL   Submitted (OCT-2004) to the EMBL/GenBank/DDBJ databases.
CC   -!- FUNCTION: Adapter protein implicated in the regulation of a large
CC       spectrum of both general and specialized signaling pathway. Binds
CC       to a large number of partners, usually by recognition of a
CC       phosphoserine or phosphothreonine motif. Binding generally results
CC       in the modulation of the activity of the binding partner (By
CC       similarity).
CC   -!- SUBUNIT: Homodimer (By similarity).
CC   -!- SUBCELLULAR LOCATION: Cytoplasm (By similarity).
CC   -!- SIMILARITY: Belongs to the 14-3-3 family.
CC   -----------------------------------------------------------------------
CC   Copyrighted by the UniProt Consortium, see http://www.uniprot.org/terms
CC   Distributed under the Creative Commons Attribution-NoDerivs License
CC   -----------------------------------------------------------------------
DR   EMBL; CR760847; CAJ82973.1; -; mRNA.
DR   EMBL; BC084514; AAH84514.1; -; mRNA.
DR   UniGene; Str.8742; -.
DR   SMR; Q5XGC8; 1-231.
DR   Ensembl; ENSXETG00000022830; Xenopus tropicalis.
DR   InterPro; IPR000308; 14-3-3.
DR   Gene3D; G3DSA:1.20.190.20; 14-3-3; 1.
DR   PANTHER; PTHR18860; 14-3-3; 1.
DR   Pfam; PF00244; 14-3-3; 1.
DR   PRINTS; PR00305; 1433ZETA.
DR   ProDom; PD000600; 14-3-3; 1.
DR   SMART; SM00101; 14_3_3; 1.
DR   PROSITE; PS00796; 1433_1; 1.
DR   PROSITE; PS00797; 1433_2; 1.
KW   Acetylation.
FT   CHAIN         1    244       14-3-3 protein beta/alpha.
FT                                /FTId=PRO_0000058600.
FT   MOD_RES       1      1       N-acetylmethionine (By similarity).
SQ   SEQUENCE   244 AA;  27721 MW;  FF766793EA1CA9E5 CRC64;
     MDKSELVQKA KLSEQAERYD DMAASMKAVT ELGAELSNEE RNLLSVAYKN VVGARRSSWR
     VISSIEQKTE GNDKRQQMAR EYREKVETEL QDICKDVLGL LDKYLVPNAT PPESKVFYLK
     MKGDYYRYLS EVASGDSKQE TVTCSQQAYQ EAFEISKSEM QPTHPIRLGL ALNFSVFYYE
     ILNSPEKACS LAKSAFDEAI AELDTLNEES YKDSTLIMQL LRDNLTLWTS ENQGEEADNA
     EADN
//

Accéder en ligne aux banques de données

Ci-dessus nous avons travaillé avec des fichiers de séquences présents sur notre ordinateur, mais il serait bien plus commode d’interagir en ligne avec les banques, d’une part parce qu’elles sont volumineuses, d’autre part parce qu’ainsi nous serions certains d’accéder à la dernière version des données. Bien sûr il y a des inconvénients : passer par le réseau peut introduire des lenteurs et des coûts, et révéler à des observateurs extérieurs (par exemple les administrateurs des banques) l’objet et le déroulement de nos recherches, ce qui souvent n’est pas souhaitable.

À ce jour Biopython permet d’accéder, par des scripts Python, aux banques suivantes, et d’en extraire des données :

– Entrez (et PubMed) au NCBI [5] ;
– ExPASy ;
– SCOP (cf. la fonction Bio.SCOP.search()).

Par exemple, nous pouvons charger directement des séquences depuis le site du NCBI, ainsi :

#!/usr/bin/env python3
def FetchSeq(mydb, myrettype, myretmode, myid):
    from Bio import Entrez
    from Bio import SeqIO
    Entrez.email = "lb@laurentbloch.org"
    with Entrez.efetch(db=mydb, rettype=myrettype,\
                       retmode=myretmode, id=myid) as handle:
        seq_record = SeqIO.read(handle, "fasta")
    print("%s with %i features"\
          % (seq_record.id, len(seq_record.features)))

FetchSeq("nucleotide", "fasta", "text", "6273291")
# -> AF191665.1 with 0 features

Pour en avoir plusieurs à la fois, en style GenBank :

#!/usr/bin/env python3
def FetchSeqMulti(mydb, myrettype, myretmode, myid):
    from Bio import Entrez
    from Bio import SeqIO
    Entrez.email = "lb@laurentbloch.org"
    with Entrez.efetch(db=mydb, rettype=myrettype,\
                       retmode=myretmode, id=myid) as handle:
        for seq_record in SeqIO.parse(handle, "gb"):
            print("%s %s..." % (seq_record.id,\
                                seq_record.description[:50]))
            print("Sequence length %i, %i features, from: %s"
                  % (len(seq_record), len(seq_record.features),\
                     seq_record.annotations["source"]))

FetchSeqMulti("nucleotide", "gb", "text",\
              "6273291,6273290,6273289")

ce qui donne le résultat suivant :

AF191665.1 Opuntia marenae rpl16 gene; chloroplast gene for c...
Sequence length 902, 3 features, from: chloroplast Grusonia marenae
AF191664.1 Opuntia clavata rpl16 gene; chloroplast gene for c...
Sequence length 899, 3 features, from: chloroplast Grusonia clavata
AF191663.1 Opuntia bradtiana rpl16 gene; chloroplast gene for...
Sequence length 899, 3 features, from: chloroplast Grusonia bradtiana

Avec des protéines

Essayons maintenant avec SwissProt.

#!/usr/bin/env python3
from Bio import ExPASy
from Bio import SeqIO
with ExPASy.get_sprot_raw("O23729") as handle:
    seq_record = SeqIO.read(handle, "swiss")
print(seq_record.id)
print(seq_record.name)
print(seq_record.description)
print(repr(seq_record.seq))
print("Length %i" % len(seq_record))
print(seq_record.annotations["keywords"])

ce qui donne :

O23729
CHS3_BROFI
RecName: Full=Chalcone synthase 3; EC=2.3.1.74; AltName:
                         Full=Naringenin-chalcone synthase 3;
Seq('MAPAMEEIRQAQRAEGPAAVLAIGT...GAE', ProteinAlphabet())
Length 394
['Acyltransferase', 'Flavonoid biosynthesis', 'Transferase']

Dictionnaire de séquences

Les dictionnaires de Python sont une structure de données commode, et Biopython procure une interface pour les utiliser. Reprenons notre fichier d’orchidées. Nous pouvons construire un dictionnaire en mémoire, ce qui convient pour un volume de données modéré, et permet de travailler confortablement, ainsi :

#!/usr/bin/env python3
from Bio import SeqIO
orchid_dict = SeqIO.to_dict(SeqIO.parse("ls_orchid.gbk",\
                                        "genbank"))
print(len(orchid_dict))
print(list(orchid_dict.keys()))
print(list(orchid_dict.values()))

Voici le début des résultats :

94
['Z78533.1', 'Z78532.1', 'Z78531.1', 'Z78530.1', 'Z78529.1', ...
SeqRecord(seq=Seq('CGTAACAAGGT..., IUPACAmbiguousDNA()),
id='Z78533.1', name='Z78533',
description='C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA',
dbxrefs=[]), ...

Autres fonctions

Biopython procure bien d’autres fonctions de manipulation de séquences, conversions de formats, recopie, écriture, etc., pour lesquelles nous ne saurions trop recommander la consultation du manuel.

Calculer avec des séquences

Alignements simples

Considérons ci-dessous un alignement de protéine (Phage_Coat_Gp8, PF05371) annoté au format PFAM, dit « de Stockholm », obtenu depuis une version ancienne de PFAM :

# STOCKHOLM 1.0
#=GS COATB_BPIKE/30-81  AC P03620.1
#=GS COATB_BPIKE/30-81  DR PDB; 1ifl ; 1-52;
#=GS Q9T0Q8_BPIKE/1-52  AC Q9T0Q8.1
#=GS COATB_BPI22/32-83  AC P15416.1
#=GS COATB_BPM13/24-72  AC P69541.1
#=GS COATB_BPM13/24-72  DR PDB; 2cpb ; 1-49;
#=GS COATB_BPM13/24-72  DR PDB; 2cps ; 1-49;
#=GS COATB_BPZJ2/1-49   AC P03618.1
#=GS Q9T0Q9_BPFD/1-49   AC Q9T0Q9.1
#=GS Q9T0Q9_BPFD/1-49   DR PDB; 1nh4 A; 1-49;
#=GS COATB_BPIF1/22-73  AC P03619.2
#=GS COATB_BPIF1/22-73  DR PDB; 1ifk ; 1-50;
COATB_BPIKE/30-81             AEPNAATNYATEAMDSLKTQAIDLISQTWPVVTTVVVAGLVIRLFKKFSSKA
#=GR COATB_BPIKE/30-81  SS    -HHHHHHHHHHHHHH--HHHHHHHH--HHHHHHHHHHHHHHHHHHHHH----
Q9T0Q8_BPIKE/1-52             AEPNAATNYATEAMDSLKTQAIDLISQTWPVVTTVVVAGLVIKLFKKFVSRA
COATB_BPI22/32-83             DGTSTATSYATEAMNSLKTQATDLIDQTWPVVTSVAVAGLAIRLFKKFSSKA
COATB_BPM13/24-72             AEGDDP...AKAAFNSLQASATEYIGYAWAMVVVIVGATIGIKLFKKFTSKA
#=GR COATB_BPM13/24-72  SS    ---S-T...CHCHHHHCCCCTCCCTTCHHHHHHHHHHHHHHHHHHHHCTT--
COATB_BPZJ2/1-49              AEGDDP...AKAAFDSLQASATEYIGYAWAMVVVIVGATIGIKLFKKFASKA
Q9T0Q9_BPFD/1-49              AEGDDP...AKAAFDSLQASATEYIGYAWAMVVVIVGATIGIKLFKKFTSKA
#=GR Q9T0Q9_BPFD/1-49   SS    ------...-HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH--
COATB_BPIF1/22-73             FAADDATSQAKAAFDSLTAQATEMSGYAWALVVLVVGATVGIKLFKKFVSRA
#=GR COATB_BPIF1/22-73  SS    XX-HHHH--HHHHHH--HHHHHHH--HHHHHHHHHHHHHHHHHHHHHHH---
#=GC SS_cons                  XHHHHHHHHHHHHHHHCHHHHHHHHCHHHHHHHHHHHHHHHHHHHHHHHC--
#=GC seq_cons                 AEssss...AptAhDSLpspAT-hIu.sWshVsslVsAsluIKLFKKFsSKA
//

Pour y voir plus clair nous pouvons afficher uniquement l’alignement, ainsi :

> from Bio import AlignIO
> alignment = AlignIO.read("PF05371_seed.sth", "stockholm")

ce qui nous donne :

> print (alignment)
SingleLetterAlphabet() alignment with 7 rows and 52 columns
AEPNAATNYATEAMDSLKTQAIDLISQTWPVVTTVVVAGLVIRL...SKA COATB_BPIKE/30-81
AEPNAATNYATEAMDSLKTQAIDLISQTWPVVTTVVVAGLVIKL...SRA Q9T0Q8_BPIKE/1-52
DGTSTATSYATEAMNSLKTQATDLIDQTWPVVTSVAVAGLAIRL...SKA COATB_BPI22/32-83
AEGDDP---AKAAFNSLQASATEYIGYAWAMVVVIVGATIGIKL...SKA COATB_BPM13/24-72
AEGDDP---AKAAFDSLQASATEYIGYAWAMVVVIVGATIGIKL...SKA COATB_BPZJ2/1-49
AEGDDP---AKAAFDSLQASATEYIGYAWAMVVVIVGATIGIKL...SKA Q9T0Q9_BPFD/1-49
FAADDATSQAKAAFDSLTAQATEMSGYAWALVVLVVGATVGIKL...SRA COATB_BPIF1/22-73

Alignements multiples

Pour lire des fichiers qui contiennent plusieurs alignements nous allons utiliser la fonction Bio.AlignIO.parse(). Soit par exemple un petit alignement au format PHYLIP [6] :

    5    6
Alpha     AACAAC
Beta      AACCCC
Gamma     ACCAAC
Delta     CCACCA
Epsilon   CCAAAC

Si nous voulons construire un arbre phylogénétique avec les programmes disponibles dans PHYLIP, il faut commencer par effectuer un bootstrap (au sens statistique) de ces données, par ré-échantillonnage, c’est-à-dire création de « nouveaux échantillons » par tirage avec remise à partir de l’échantillon initial, ainsi (si notre alignement de départ est enregistré dans un fichier nommé alignement-multiple-1.phy, et le programme bootstrap-align.py) :

#!/usr/bin/env python3
import sys
from Bio import Phylo
from Bio import AlignIO
from Bio.Phylo.Consensus import *
def bootstrap_align(fichier, style):
    msa = AlignIO.read(fichier, style)
    msas = bootstrap(msa, 100)
    for m in msas:
        print(m)

fichier = sys.argv[1]
style = sys.argv[2]
bootstrap_align(fichier, style)

ce qui nous donnera le résultat suivant, avec la ligne de commande :

./bootstrap-align.py alignement-multiple-1.phy phylip

SingleLetterAlphabet() alignment with 5 rows and 6 columns
AAACCC Alpha
ACCCCC Beta
AAACCC Gamma
CCCAAA Delta
CAAAAA Epsilon
SingleLetterAlphabet() alignment with 5 rows and 6 columns
ACACAA Alpha
CCCCCA Beta
ACACAA Gamma
CACACC Delta
AAAAAC Epsilon
SingleLetterAlphabet() alignment with 5 rows and 6 columns
AAAAAA Alpha
CAACCC Beta
AAAAAA Gamma
CCCCCC Delta
ACCAAA Epsilon
...

Si nous voulons en outre construire les arbres phylogénétiques qui s’en déduisent :

#!/usr/bin/env python3
import sys
from Bio import Phylo
from Bio import AlignIO
from Bio.Phylo import TreeConstruction
from Bio.Phylo.TreeConstruction import DistanceCalculator
from Bio.Phylo.TreeConstruction import DistanceTreeConstructor
from Bio.Phylo.Consensus import *
def bootstrap_align_trees(fichier, style, matrice):
    msa = AlignIO.read(fichier, style)
    msas = bootstrap(msa, 100)
    calculator = DistanceCalculator(matrice)
    constructor = DistanceTreeConstructor(calculator)
    trees = bootstrap_trees(msa, 100, constructor)
    for tree in trees:
        print(tree)
        Phylo.draw_ascii(tree)

fichier = sys.argv[1]
style = sys.argv[2]
matrice = sys.argv[3]
bootstrap_align_trees(fichier, style, matrice)

avec la ligne de commande :

./bootstrap-align-trees.py alignement-multiple-1.phy phylip blosum62

ce qui donnera le résultat suivant (limité aux deux premiers échantillons pour raison de mise en page) :

Tree(rooted=False)
    Clade(branch_length=0, name='Inner3')
        Clade(branch_length=0.0, name='Alpha')
        Clade(branch_length=0.21245421245421242, name='Inner2')
            Clade(branch_length=0.2875457875457875, name='Inner1')
                Clade(branch_length=0.16736438165009604, name='Epsilon')
                Clade(branch_length=0.39673818245246806, name='Delta')
            Clade(branch_length=0.1548927263212978, name='Beta')
        Clade(branch_length=0.0, name='Gamma')
 , Alpha
 |
 |                                      ____________ Epsilon
 |                _____________________|
_|_______________|                     |______________________________ Delta
 |               |
 |               |___________ Beta
 |
 | Gamma

Tree(rooted=False)
    Clade(branch_length=0, name='Inner3')
        Clade(branch_length=0.08465641501355786, name='Inner2')
            Clade(branch_length=0.14611281575567292, name='Alpha')
            Clade(branch_length=0.40490759240759233, name='Inner1')
                Clade(branch_length=0.35358688930117504, name='Delta')
                Clade(branch_length=0.0953927025355597, name='Beta')
        Clade(branch_length=0.0, name='Gamma')
        Clade(branch_length=0.0, name='Epsilon')
        ___________ Alpha
  _____|
 |     |                                  ____________________________ Delta
 |     |_________________________________|
_|                                       |______ Beta
 |
 | Gamma
 |
 | Epsilon

Calcul d’alignements

La fonction Bio.Align.PairwiseAligner implémente les algorithmes d’alignement de séquences deux à deux par paire de Needleman-Wunsch, Smith-Waterman, Gotoh (trois états), et Waterman-Smith-Beyer (alignement local et global).

Pour l’utiliser nous allons créer un objet PairwiseAligner :

> from Bio import Align
> aligner = Align.PairwiseAligner()
> seq1 = "GAACT"
> seq2 = "GAT"
> score = aligner.score(seq1, seq2)
> score
3.0
> alignments = aligner.align(seq1, seq2)
> for alignment in alignments:
...     print(alignment)
GAACT
||--|
GA--T
<BLANKLINE>
GAACT
|-|-|
G-A-T
<BLANKLINE>

Par défaut, la fonction calcule un alignement global de façon à obtenir le meilleur score possible sur toute la longueur des séquences. Mais il est possible, en sélectionnant le mode local, de chercher les sous-séquences qui donnent le score le plus élevé :

> aligner.mode = 'local'
> seq1 = "AGAACTC"
> seq2 = "GAACT"
> score = aligner.score(seq1, seq2)
> score
5.0
> alignments = aligner.align(seq1, seq2)
> for alignment in alignments:
...     print(alignment)
...
AGAACTC
.|||||.
.GAACT.
<BLANKLINE>

Modifier les scores de gap

La fonction d’alignement par paire de Biopython permet de modifier les scores de gap. Les détails figurent dans le manuel.

BLAST et Biopython

BLAST est le logiciel de recherche heuristique le plus utilisé pour comparer des séquences biologiques. Il permet de chercher et d’évaluer des similitudes entre séquences, en leur attribuant un score de similarité probabiliste.

Un usage fréquent consiste à comparer une séquence-test à l’ensemble des séquences d’une banque (les séquences cibles), pour extraire celles dont le score de similarité est le meilleur. Par exemple, lorsqu’un chercheur découvre chez la souris un gène jusqu’alors inconnu, il va comparer la séquence de ce gène à l’ensemble des séquences du génome humain pour voir si un gène similaire n’existerait pas chez l’homme.

BLAST répond au même type de problème que l’algorithme de Needleman et Wunsch que nous avons étudié à l’article, mais il est beaucoup plus rapide, parce qu’alors que Needleman et Wunsch (ou les algorithmes de la même famille tels que Smith et Waterman) calculent des alignements sur toute la longueur des séquences, BLAST élimine de la recherche les régions les moins significatives, et applique aux seules régions significatives un calcul assez voisin de celui de Smith et Waterman. Les génomes des organismes eucaryotes (comme nous, humains, et nos cousins mammifères) sont constitués en majeure partie (98% pour l’homme) de régions « non significatives » pour l’analyse génétique, c’est-à-dire non codantes : il reste à établir un algorithme pour les caractériser. Schématiquement, BLAST effectue les opérations suivantes :

– Élimination de la séquence-test des régions de faible complexité ou répétitives.
– Établissement d’une liste des « mots » de la séquence-test : ces mots sont les groupes de n lettres qui apparaissent dans la séquence ; typiquement, on prendra n = 3 pour les protéines et n = 11 pour les séquences d’ADN.
– Identification, dans la liste de mots établie à l’étape précédente, de ceux qui obtiennent un score élevé en regard d’une matrice de substitution ; les matrices de substitution, par exemple BLOSUM sont établies en fonction de la probabilité de substitution d’un acide aminé à un autre (certains acides aminés ont des propriétés voisines, d’autres pas du tout).
– Construction d’un arbre de recherche pour les mots retenus à l’étape précédente.
– Recherche parmi les séquences cibles des occurrences des mots retenus.
– Extension des zones de texte ainsi repérées en « regardant » si, à droite et à gauche du mot d’occurrence exacte, les textes ne seraient pas similaires ; la zone ainsi élargie est nommée high-scoring segment pair (HSP).
– Conservation des HSP dont le score est supérieur à un seuil choisi.
– Évaluation de la pertinence statistique des scores, par une analyse de la distribution des scores d’alignement entre la séquence-test et l’ensemble des séquences cibles ; BLAST ajuste cette distribution à une fonction de densité théorique, ce qui lui permet de calculer la probabilité et l’espérance mathématique de trouver un alignement donnant un score donné parmi les cibles, uniquement du fait du hasard ; les paramètres de cette fonction de densité varient en fonction des compositions en nucléotides ou acides aminés de la séquence et de la banque analysée. L’espérance mathématique calculée pour chaque alignement est nommée e-value. Pour des alignements biologiquement pertinents, la e-value prend des valeurs infinitésimales (de 10^-10 à 10^-200), ce qui signifie qu’il est hautement improbable que le score d’alignement obtenu soit le fait du hasard.
– Tentatives de combiner plusieurs HSP pour construire un alignement plus long.
– Affichage des alignements locaux, selon Smith Waterman, de la séquence-test et de chacune des cibles.

Les variantes suivantes du programme sont disponibles, selon la nature de la séquence-test et des séquences cibles :

– ADN - ADN : blastn ;
– protéine - protéine : blastp ;
– ADN - protéine : blastx ;
– protéine - ADN : tblastn ;
– ADN traduit en séquence de protéine contre une base de données de séquences nucléotidiques traduites en séquences de protéines : tblastx.

Le code génétique fait correspondre à chaque codon de trois nucléotides un acide aminé : de ce fait, lorsque l’on compare une séquence d’ADN à une séquence de protéine, il faut effectuer trois comparaisons, en décalant d’un nucléotide à chaque fois le cadre de lecture. De plus, étant donnée la structure en double hélice de l’ADN, il est utile d’effectuer la même opération en sens inverse sur le brin complémentaire. Cette démarche est nommée traduction selon six cadres de lecture (six-frame translation). Une seule de ces six traductions sera éventuellement significative biologiquement (susceptible de correspondre à une traduction vers une protéine réelle).

La fonction qblast du module Bio.Blast.NCBIWWW permet d’invoquer en Python la version en ligne sur le site du NCBI de BLAST, qui attend les arguments suivants :

– la version du programme à utiliser : blastn, blastp, blastx, tblast ou tblastx ;
– la banque de données à interroger ;
– la séquence à comparer.

Par exemple, pour interroger la banque de données de nucléotides à propos d’une séquence dont vous connaissez l’identifiant dans la GenInfo integrated database, procéder ainsi :

#!/usr/bin/env python3
import sys
from Bio.Blast import NCBIWWW
from Bio.Blast import NCBIXML
def Blast_sonde(blastversion, collection, gi):
    result_handle = NCBIWWW.qblast(blastversion, collection, gi)
    blast_record = NCBIXML.read(result_handle)
    E_VALUE_THRESH = 0.04
    for alignment in blast_record.alignments:
        for hsp in alignment.hsps:
            if hsp.expect < E_VALUE_THRESH:
                print("****Alignment****")
                print("sequence:", alignment.title)
                print("length:", alignment.length)
                print("e value:", hsp.expect)
                print(hsp.query[0:75] + "...")
                print(hsp.match[0:75] + "...")
                print(hsp.sbjct[0:75] + "...")

blastversion = sys.argv[1]
collection = sys.argv[2]
gi = sys.argv[3]
Blast_sonde(blastversion, collection, gi)

avec la ligne de commande :

./BLAST-biopython.py blastn nt 8332116

donnera le résultat suivant (abrégé et tronqué à droite pour les besoins de la mise en page), dont vous trouverez une bonne explication dans le document Understanding the Output for a blastn Search de l’université Washington (Saint-Louis, Missouri) :

****Alignment****
sequence: gi|1219041180|ref|XM_021875076.1| PREDICTED: Chenopodium quinoa
cold-regulated 413 plasma membrane protein 2-like (LOC110697660), mRNA
length: 1173
e value: 1.63199e-117
ACAGAAAATGGGGAGAGAAATGAAGTACTTGGCCATGAAAACTGATCAATTGGC ...
|| ||||||||| |||| | |||| ||  |||| |||| | |||| ||| | || ...
ACCGAAAATGGGCAGAGGAGTGAATTATATGGCAATGACACCTGAGCAACTAGC ...
****Alignment****
sequence: gi|1226796956|ref|XM_021992092.1| PREDICTED: Spinacia oleracea
cold-regulated 413 plasma membrane protein 2-like (LOC110787470), mRNA
length: 672
e value: 1.0299e-113
AAAATGGGGAGAGAAATGAAGTACTTGGCCATGAAAACTGATCAATTGGCCGT ...
|||||||| |||  |||| | || ||||| |||||||| || ||||| ||||  ...
AAAATGGGTAGACGAATGGATTATTTGGCGATGAAAACCGAGCAATTAGCCGC ...
****Alignment****
sequence: gi|731339628|ref|XM_010682658.1| PREDICTED: Beta vulgaris subsp.
vulgaris cold-regulated 413 plasma membrane protein 2 (LOC104895996), mRNA
length: 847
e value: 2.76359e-108
TTGGCCATGAAAACTGATCAATTGGCCGTGGCTAATATGATCGATTCCGATAT ...
||||||||||||||||| ||| ||||  |||||||| |||| ||||  ||||| ...
TTGGCCATGAAAACTGAGCAAATGGCGTTGGCTAATTTGATAGATTATGATAT ...
****Alignment****
sequence: gi|1389679838|ref|XM_016034586.2| PREDICTED: Ziziphus jujuba
cold-regulated 413 plasma membrane protein 2-like (LOC107424728), mRNA
length: 946
e value: 1.43158e-105
AAAATGGGGAGAGAAATGAAGTACTTGGCCATGAAAACTGATCAATTGGCCGT ...
|||||||||||    ||| |||  ||||| |||| |||||||| |   |||   ...
AAAATGGGGAGG---ATGGAGTTTTTGGCTATGAGAACTGATCCA---GCCAC ...

On remarque la programmation par objets et l’usage de la classe blast_record, qui fournit toutes les informations que l’on peut souhaiter obtenir d’une sortie de BLAST, comme les objets result_handle et alignment par exemple.

Wilson Leung a également écrit une brève introduction à BLAST. Ici encore nous renvoyons au manuel pour les détails.

Que penser de Biopython ?

Nous n’avons donné ci-dessus qu’un survol rapide de quelques-unes des nombreuses possibilités de Biopython, qui permet au biologiste d’effectuer à peu près toutes les opérations informatiques dont il peut avoir besoin.

La chose dont il convient d’avoir conscience, c’est que Biopython donne un moyen d’accomplir ces opérations sans acquérir les connaissances qui font l’objet des chapitres précédents de ce livre, c’est-à-dire sans savoir « comment ça marche », comment se programment les algorithmes mis en œuvre ; ce défaut de connaissances peut être toléré pour un emploi de technicien qui travaille en routine, mais quiconque aspire aux fonctions d’ingénieur ou de chercheur, ou en un mot de bioinformaticien, ne saurait se dispenser de ces apprentissages, ne serait que pour utiliser Biopython en connaissance de cause.

Un autre point qui mérite attention : nous avons suggéré au lecteur qu’il était souhaitable, pour la qualité du logiciel, d’écrire des fonctions et de structurer ses programmes par appels de fonctions. Biopython, comme nous venons de le voir, par sa facilité d’usage, incline au style de programmation plus relâché des langages de script. Nous ne saurions trop encourager à la vigilance contre cette facilité à laquelle nous avons nous-même parfois cédé dans ce chapitre.

Notes

[1] Cette enchaînement d’opérations d’extraction de données, de leur transformation, puis de chargement dans une nouvelle base de données, s’apparente aux technologies désignées par le signe ETL (Extract-Transform-Load) dans le monde des bases de données.

[2] Ce texte est moins libre depuis que le NCBI a établi une norme pour la formulation des identifiants de séquences dans la ligne d’en-tête du format FASTA ; ainsi, pour un identifiant issu de la GenInfo integrated database, le caractère > sera suivi des caractères gi, puis par exemple |2765658|emb|Z78533.1| etc. L’exemple donné ici montre un tel format. Pour de plus amples détails, cf. Wikipédia.

[3] Nomenclature de l’Union internationale de chimie pure et appliquée

[4] Une mitochondrie est une sorte de petit organisme logé dans le cytoplasme des cellules de la plupart des organimes eucaryotes, et qui possède son propre ADN, lequel n’est transmis que de la mère à ses enfants (pour les organismes à reproduction sexuée).

[5] Le National Center for Biotechnology Information (NCBI), à Bethesda, Maryland, États-Unis, est le principal laboratoire mondial de bioinformatique, rattaché à la Bibliothèque américaine de médecine.

[6] PHYLIP est le pionnier des logiciels d’analyse phylogénétique, écrit en 1980 par Joseph Felsenstein et régulièrement mis à jour depuis.

Dans la même rubrique

Votre inscription a été enregistrée avec succès !

Sommaire