1. 通過相似序列的數(shù)據(jù)庫比對(duì)確定功能
具有相似性序列的蛋白質(zhì)具有相似的功能。因此,最可靠的確定蛋白質(zhì)功能的方法是進(jìn)行數(shù)據(jù)庫的相似性搜索。需要明確的是,一個(gè)顯著的匹配應(yīng)至少有25%的相同序列和超過80個(gè)氨基酸的區(qū)段。對(duì)于不少種類的數(shù)據(jù)庫搜索工具,快速搜索工具(如BLASTP)速度快,也很容易發(fā)現(xiàn)匹配良好的序列,一般就沒必要運(yùn)行更花時(shí)間的工具(如FASTA、BLITZ);但當(dāng)BLASTP不能發(fā)現(xiàn)顯著的匹配時(shí),就需要使用那些搜索速度較慢但很靈敏的工具了。所以,一般的策略就是先進(jìn)行BLASTP檢索,如果不能得到相應(yīng)的結(jié)果,就可以運(yùn)行FASTA,如果FASTA也無法得到相應(yīng)結(jié)果,最后就需要選用完全根據(jù)Smith-Waterman 算法設(shè)計(jì)的搜索程序,如 BLITZ。
比對(duì)所選用的記分矩陣對(duì)最終預(yù)測結(jié)果影響也很重要,首先,選擇的矩陣須與匹配水平相一致。PAM250應(yīng)用于遠(yuǎn)距離匹配(<25%相同比率),PAM40應(yīng)用于不很相近的蛋白質(zhì)序列,BLOSUM62為一個(gè)通用矩陣。其次,使用不同矩陣,可以發(fā)現(xiàn)始終出現(xiàn)的匹配序列,這樣可以減少誤差。
2. 確定序列特性:疏水性、跨膜螺旋等
許多功能可直接從蛋白質(zhì)序列預(yù)測出來。例如,疏水性信息可被用于跨膜螺旋的預(yù)測,還有不少小的序列模體(motif)是細(xì)胞用于特定細(xì)胞區(qū)室(cell compartment)蛋白質(zhì)的定向。對(duì)于跨膜螺旋的預(yù)測涉及到對(duì)跨膜蛋白跨膜區(qū)域的識(shí)別,這就需要鑒定序列中可以折疊成螺旋并存在于膜的疏水環(huán)境中的區(qū)域?缒ば蛄幸话憔哂幸恍┟黠@的特征,比如,為了跨膜α螺旋必須有大約17~25個(gè)氨基酸長度,因?yàn)榧?xì)胞膜內(nèi)部是由脂肪酸的長的碳?xì)滏溄M成,所以膜中的α螺旋必須存在相對(duì)的面向膜的非極性面才能在能量上是有利的。早期的算法程序會(huì)直接分析這些特征,并通過分析序列的17~25個(gè)氨基酸的窗口,對(duì)每個(gè)窗口產(chǎn)生的疏水性得分,得分高的即被預(yù)測為跨膜螺旋,現(xiàn)在一些經(jīng)過改進(jìn)的更精確的算法,不僅提高預(yù)測準(zhǔn)確性到90%以上,而且可以預(yù)測跨膜螺旋的一些其他特征,比如在膜上的方向。這些都依賴于一系列對(duì)已知跨膜螺旋的特征研究的成果。
3. 通過序列模體數(shù)據(jù)庫等的比對(duì)確定功能
蛋白質(zhì)不同區(qū)段的進(jìn)化速率不同,蛋白質(zhì)的一些部分必須保持一定的殘基模式以保持蛋白質(zhì)的功能,通過確定這些保守區(qū)域,有可能為蛋白質(zhì)功能提供線索。主要有兩種方法可用于序列模體的查找。一種方法是查找匹配的一致序列或序列模體。這種技術(shù)的優(yōu)點(diǎn)是快捷,序列模體數(shù)據(jù)庫龐大而且不斷被擴(kuò)充;缺點(diǎn)是有時(shí)不靈敏,因?yàn)橹挥信c一致序列或序列模體完全匹配才被列出,而近乎匹配的都將被忽略。使在做復(fù)雜分析時(shí)候受到嚴(yán)重限制。第二種方法是更加精細(xì)的序列分布型方法。原則上,分布型搜索的是保守序列(不只是一致序列),這樣可以更靈敏的找出那些相關(guān)性較遠(yuǎn)的序列。但分布型和分布數(shù)據(jù)庫需要大量的計(jì)算和人力,所以分布數(shù)據(jù)庫的記錄沒有序列模體數(shù)據(jù)庫多。在實(shí)際分析時(shí),應(yīng)同時(shí)對(duì)這兩種類型的數(shù)據(jù)庫都進(jìn)行搜索。