TP - Programmation Python pour la BIOInfo

Le Format GenBank

La base de données GenBank

La base de donnée GenBank est une base de donnée de séquence génétiques du NIH (l'Institut National de la santé aux États-Unis). Elle contient actuellement plus de 100 Milliards d'enregistrements.

Ces enregistrements sont accessibles via le site http://www.ncbi.nlm.nih.gov

Ces données sont donc en libre accès afin d'encourager et de faciliter la recherche dans la communauté.

Le Format GenBank

La base de donnée est constituée de Milliards d'enregistrements au format GenBank qui a été développé pour elle.

Ce format permet, en plus de stoker la séquence elle-même, de définir une foule de métadonnées comme le nom donné a la séquence, la version de celle-ci, des mot-clefs, des références vers des publications concernant cette séquence etc...

Toutes ces métadonnées sont situées dans le fichier avant la séquence elle même et sont catégorisées (voir sous-catégorisées) a l'aide de mots-clefs dont la liste est disponible ici : http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord

ExempleMétadonnées

Métadonnées GenBank

La séquence en elle-même se situe en fin de fichier, groupée par paquet de dix nucléotides séparés par des espaces. Chaque ligne comporte 60 nucléotides (6 paquets). En début de chaque ligne se trouve le compte courant de nucléotide, c'est a dire le numéro dans la séquence du premier nucléotide de la ligne.

ExempleSéquence

1   gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg

61  ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct

121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa

181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg

241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa

301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa

361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat

421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga

481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc

541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga

601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta

661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag

721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa

781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata

841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga

901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac

961 tatctgatgc gaacaccacg ttgtatttca

//

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)