TP - Programmation Python pour la BIOInfo

Informations

Types de données utilisés

FASTA utilisé par FASTA et BLAST (Basic Local Alignment Search Tool). Format très simple, très largement utilisé.

Genbank recueil de toutes les données génétiques diffusés publiquement. Séquences ADN + grandes quantités d'information

EMBL European Molecular Biology Laboratory. Idem Genbank mais format différent

Données brutes : pas de format spécifique (ex : sorties de séquenceurs automatiques d'ABI)

Genetics Computer Group utilisé par de grands laboratoires. Exige un format spécifique pour traiter les données des séquences

Spécifications FASTA

  • 1 seule ligne d'entête dont le premier caractère est obligatoirement « > »

  • la longueur de la ligne d'entête n'est pas limité

  • la séquence commence ligne 2

  • se continue sur autant de lignes que nécessaire

  • la longueur de ligne n'est pas imposé mais peut varier d'une ligne à l'autre

  • il est courant de limiter à 80 caractères pour pouvoir imprimer sans problèmes

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)