Informations
Types de données utilisés
FASTA utilisé par FASTA et BLAST (Basic Local Alignment Search Tool). Format très simple, très largement utilisé.
Genbank recueil de toutes les données génétiques diffusés publiquement. Séquences ADN + grandes quantités d'information
EMBL European Molecular Biology Laboratory. Idem Genbank mais format différent
Données brutes
: pas de format spécifique (ex : sorties de séquenceurs automatiques d'ABI)
Genetics Computer Group
utilisé par de grands laboratoires. Exige un format spécifique pour traiter les données des séquences
Spécifications FASTA
1 seule ligne d'entête dont le premier caractère est obligatoirement « > »
la longueur de la ligne d'entête n'est pas limité
la séquence commence ligne 2
se continue sur autant de lignes que nécessaire
la longueur de ligne n'est pas imposé mais peut varier d'une ligne à l'autre
il est courant de limiter à 80 caractères pour pouvoir imprimer sans problèmes