學(xué)習(xí)中心
蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的發(fā)展及局限性
2012-05-283415
蛋白質(zhì)二級結(jié)構(gòu)的預(yù)測開始于20世紀(jì)60年代中期。二級結(jié)構(gòu)預(yù)測的方法大體分為三代,第一代是基于單個氨基酸殘基統(tǒng)計分析,從有限的數(shù)據(jù)集中提取各種殘基形成特定二級結(jié)構(gòu)的傾向,以此作為二級結(jié)構(gòu)預(yù)測的依據(jù)。第二代預(yù)測方法是基于氨基酸片段的統(tǒng)計分析,使用大量的數(shù)據(jù)作為統(tǒng)計基礎(chǔ),統(tǒng)計的對象不再是單個氨基酸殘基,而是氨基酸片段,片段的長度通常為11-21。片段體現(xiàn)了中心殘基所處的環(huán)境。在預(yù)測中心殘基的二級結(jié)構(gòu)時,以殘基在特定環(huán)境形成特定二級結(jié)構(gòu)的傾向作為預(yù)測依據(jù)。這些算法可以歸為幾類:(1)基于統(tǒng)計信息;(2)基于物理化學(xué)性質(zhì);(3)基于序列模式;(4)基于多層神經(jīng)網(wǎng)絡(luò);(5)基于圖論;(5)基于多元統(tǒng)計;(6)基于機(jī)器學(xué)習(xí)的專家規(guī)則;(7)最鄰近算法。第一代和第二代預(yù)測方法有共同的缺陷,它們對三態(tài)預(yù)測的準(zhǔn)確率都小于70%,而對β折疊預(yù)測的準(zhǔn)確率僅為28~48%,其主要原因是這些方法在進(jìn)行二級結(jié)構(gòu)預(yù)測時只利用局部信息,最多只用局部的20個殘基的信息進(jìn)行預(yù)測。二級結(jié)構(gòu)預(yù)測的實驗結(jié)果和晶體結(jié)構(gòu)統(tǒng)計分析都表明,二級結(jié)構(gòu)的形成并非完全由局域的序列片段決定,長程相互作用不容忽視。蛋白質(zhì)的二級結(jié)構(gòu)在一定程度上受遠(yuǎn)程殘基的影響,尤其是β折疊。從理論上來說,局部信息僅包含二級結(jié)構(gòu)信息的65%左右,因此,可以想象只用局部信息的二級結(jié)構(gòu)預(yù)測方法,其準(zhǔn)確率不會有太大的提高。
二級結(jié)構(gòu)預(yù)測的第三代方法運用蛋白質(zhì)序列的長程信息和蛋白質(zhì)序列的進(jìn)化信息,使二級結(jié)構(gòu)預(yù)測的準(zhǔn)確程度有了比較大的提高,特別是對β折疊的預(yù)測準(zhǔn)確率有較大的提高,預(yù)測結(jié)果與實驗觀察趨于一致。一般75%的氨基酸殘基可以被置換而不改變蛋白質(zhì)的結(jié)構(gòu),然而有時改變幾個關(guān)鍵的殘基則可能導(dǎo)致破壞蛋白質(zhì)的結(jié)構(gòu)。這好像是兩個矛盾的結(jié)論,但解釋又非常簡單。一個蛋白質(zhì)在其進(jìn)化過程中探查了每個位置上氨基酸可能的與不可能的變化,不可能變化的部分是進(jìn)化保守區(qū)域??勺儾糠值淖兓桓淖兘Y(jié)構(gòu),而不可變部分的變化則改變蛋白質(zhì)的結(jié)構(gòu),由此失去蛋白質(zhì)原有的功能,因而也就難以延續(xù)下去。這些不可變部分體現(xiàn)了蛋白質(zhì)功能對結(jié)構(gòu)的特定要求。這樣,從一個蛋白質(zhì)家族中提取的殘基替換模式高度反映了該家族特異的結(jié)構(gòu)。通過序列的比對可以得到蛋白質(zhì)序列的進(jìn)化信息,得到蛋白質(zhì)家族中的特定殘基替換模式,此外,通過序列的比對也可以得到長程信息。
目前,許多二級結(jié)構(gòu)預(yù)測的算法都是基于序列比對的,通過序列比對可以計算出目標(biāo)序列(待預(yù)測其二級結(jié)構(gòu)的序列)中每個氨基酸的保守程度。對于二級結(jié)構(gòu)三態(tài)(α,β,none)預(yù)測準(zhǔn)確率首先達(dá)到70%的方法是基于統(tǒng)計的神經(jīng)網(wǎng)絡(luò)方法PHDsec。PHDsec利用通過多重序列比對得到的進(jìn)化信息作為神經(jīng)網(wǎng)絡(luò)的輸入,另外采用了一個全局的描述子,即所有氨基酸組成(20種氨基酸中每個所占的比例)作為蛋白質(zhì)序列的全局信息。這類算法預(yù)測的準(zhǔn)確率能達(dá)到70%至75%。各種方法預(yù)測的準(zhǔn)確率隨蛋白質(zhì)類型的不同而變化。例如,一種預(yù)測方法在某些情況下預(yù)測的準(zhǔn)確率能夠達(dá)到90%,而在最差的情況下僅達(dá)到50%,甚至更低。在實際應(yīng)用中究竟使用那種方法,還需根據(jù)具體的情況。雖然二級結(jié)構(gòu)預(yù)測的準(zhǔn)確性有待提高,其預(yù)測結(jié)果仍然能提供許多結(jié)構(gòu)信息,尤其是當(dāng)一個蛋白質(zhì)的真實結(jié)構(gòu)尚未解出時更是如此。通過對多種方法預(yù)測結(jié)果的綜合分析,再結(jié)合實驗數(shù)據(jù),往往可以提高預(yù)測的準(zhǔn)確度。二級結(jié)構(gòu)預(yù)測通常作為蛋白質(zhì)空間結(jié)構(gòu)預(yù)測的第一步。例如,二級結(jié)構(gòu)預(yù)測是內(nèi)部折疊、內(nèi)部殘基距離預(yù)測的基礎(chǔ)。更進(jìn)一步,二級結(jié)構(gòu)預(yù)測可以作為其它工作的基礎(chǔ),例如,用于推測蛋白質(zhì)的功能,預(yù)測蛋白質(zhì)的結(jié)合位點等。