Le Format GenBank
La base de données GenBank
La base de donnée GenBank est une base de donnée de séquence génétiques du NIH (l'Institut National de la santé aux États-Unis). Elle contient actuellement plus de 100 Milliards d'enregistrements.
Ces enregistrements sont accessibles via le site http://www.ncbi.nlm.nih.gov
Ces données sont donc en libre accès afin d'encourager et de faciliter la recherche dans la communauté.
Le Format GenBank
La base de donnée est constituée de Milliards d'enregistrements au format GenBank qui a été développé pour elle.
Ce format permet, en plus de stoker la séquence elle-même, de définir une foule de métadonnées comme le nom donné a la séquence, la version de celle-ci, des mot-clefs, des références vers des publications concernant cette séquence etc...
Toutes ces métadonnées sont situées dans le fichier avant la séquence elle même et sont catégorisées (voir sous-catégorisées) a l'aide de mots-clefs dont la liste est disponible ici : http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord
La séquence en elle-même se situe en fin de fichier, groupée par paquet de dix nucléotides séparés par des espaces. Chaque ligne comporte 60 nucléotides (6 paquets). En début de chaque ligne se trouve le compte courant de nucléotide, c'est a dire le numéro dans la séquence du premier nucléotide de la ligne.
Exemple : Séquence
1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg
61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct
121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa
181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg
241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa
301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa
361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat
421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga
481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc
541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga
601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta
661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag
721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa
781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata
841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga
901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac
961 tatctgatgc gaacaccacg ttgtatttca
//