Genbank庫(kù)包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)建立和維護(hù)的。它的數(shù)據(jù)直接來(lái)源于測(cè)序工作者提交的序列;由測(cè)序中心提交的大量EST序列和其它測(cè)序數(shù)據(jù);以及與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換數(shù)據(jù)而來(lái)。Genbank每天都會(huì)與歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)的數(shù)據(jù)庫(kù),和日本的DNA數(shù)據(jù)庫(kù)(DDBJ)交換數(shù)據(jù),使這三個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)同步。到1999年8月,Genbank中收集的序列數(shù)量達(dá)到460萬(wàn)條,34億個(gè)堿基,而且數(shù)據(jù)增長(zhǎng)的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費(fèi)下載完整的庫(kù),或下載積累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù),用戶可以從NCBI的主頁(yè)上找到這些服務(wù)。
Genbank庫(kù)里的數(shù)據(jù)按來(lái)源于約55,000個(gè)物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對(duì)序列的簡(jiǎn)要描述,它的科學(xué)命名,物種分類名稱,參考文獻(xiàn),序列特征表,以及序列本身。序列特征表里包含對(duì)序列生物學(xué)特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點(diǎn)或修飾位點(diǎn)等。所有數(shù)據(jù)記錄被劃分在若干個(gè)文件里,如細(xì)菌類、病毒類、靈長(zhǎng)類、嚙齒類,以及EST數(shù)據(jù)、基因組測(cè)序數(shù)據(jù)、大規(guī);蚪M序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被各自分成若干個(gè)文件。
(1)Genbank數(shù)據(jù)檢索
NCBI的數(shù)據(jù)庫(kù)檢索查詢系統(tǒng)是Entrez。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫(kù)檢索系統(tǒng)。利用Entrez系統(tǒng),用戶不僅可以方便地檢索Genbank的核酸數(shù)據(jù),還可以檢索來(lái)自Genbank和其它數(shù)據(jù)庫(kù)的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來(lái)自分子模型數(shù)據(jù)庫(kù)(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的文獻(xiàn)數(shù)據(jù)。
Entrez提供了方便實(shí)用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來(lái)實(shí)現(xiàn)復(fù)雜的檢索查詢工作。對(duì)于檢索獲得的記錄,用戶可以選擇需要顯示的數(shù)據(jù),保存查詢結(jié)果,甚至以圖形方式觀看檢索獲得的序列。更詳細(xì)的Entrez使用說(shuō)明可以在該主頁(yè)上獲得。
(2)向Genbank提交序列數(shù)據(jù)
測(cè)序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數(shù)據(jù)庫(kù)。這個(gè)任務(wù)可以由基于Web界面的BankIt或獨(dú)立程序Sequin來(lái)完成。
BankIt是一系列表單,包括聯(lián)絡(luò)信息、發(fā)布要求、引用參考信息、序列來(lái)源信息、以及序列本身的信息等。用戶提交序列后,會(huì)從電子郵件收到自動(dòng)生成的數(shù)據(jù)條目,Genbank的新序列編號(hào),以及完成注釋后的完整的數(shù)據(jù)記錄。用戶還可以在BankIt頁(yè)面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨(dú)立測(cè)序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長(zhǎng)的序列,EST序列和GSS序列也不應(yīng)用BankIt提交。BankIt使用說(shuō)明和對(duì)序列的要求可詳見(jiàn)其主頁(yè)面。
大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復(fù)雜注釋,并包含一系列內(nèi)建的檢查函數(shù)來(lái)提高序列的質(zhì)量保證。它還被設(shè)計(jì)用于提交來(lái)自系統(tǒng)進(jìn)化、種群和突變研究的序列,可以加入比對(duì)的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄,還可以用于序列的分析,任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運(yùn)行的Sequin程序都可以在下找到,Sequin的使用說(shuō)明可詳見(jiàn)其網(wǎng)頁(yè)。