蛋白質(zhì)三級(jí)機(jī)構(gòu)(空間結(jié)構(gòu))預(yù)測(cè)-從頭預(yù)測(cè)法
2012-05-285202
從頭預(yù)測(cè)模型的基本思想
在既沒有已知結(jié)構(gòu)的同源蛋白質(zhì)、也沒有已知結(jié)構(gòu)的遠(yuǎn)程同源蛋白質(zhì)的情況下,上述兩種蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的方法都不能用,這時(shí)只能采用從頭預(yù)測(cè)方法(Abinitio),即(直接)僅僅根據(jù)序列本身來預(yù)測(cè)其結(jié)構(gòu)。在1994年之前,還沒有一個(gè)從頭算方法能夠預(yù)測(cè)蛋白質(zhì)的空間結(jié)構(gòu)。從那以后,人們陸續(xù)提出一些方法,表明了今后進(jìn)一步研究可能的方向。有些研究小組運(yùn)用距離幾何方法得到了非常有希望的結(jié)果。將簡(jiǎn)化的力場(chǎng)與動(dòng)態(tài)優(yōu)化策略相結(jié)合,雖然得到的結(jié)果不算太精確,但很有意義,表明這樣的工作非常有希望突破。
從頭預(yù)測(cè)方法一般由下列3個(gè)部分組成:(1)一種蛋白質(zhì)幾何的表示方法:由于表示和處理所有原子和溶劑環(huán)境的計(jì)算開銷非常大,因此需要對(duì)蛋白質(zhì)和溶劑的表示形式作近似處理,例如,使用一個(gè)或少數(shù)幾個(gè)原子代表一個(gè)氨基酸殘基;(2)一種能量函數(shù)及其參數(shù),或者一個(gè)合理的構(gòu)象得分函數(shù),以便計(jì)算各種構(gòu)象的能量。通過對(duì)已知結(jié)構(gòu)的蛋白質(zhì)進(jìn)行統(tǒng)計(jì)分析,可以確定蛋白質(zhì)構(gòu)象能量函數(shù)中的各個(gè)參數(shù)或者得分函數(shù);(3)一種構(gòu)象空間搜索技術(shù):必須選擇一個(gè)優(yōu)化方法,以便對(duì)構(gòu)象空間進(jìn)行快速搜索,迅速找到與某一全局最小能量相對(duì)應(yīng)的構(gòu)象。其中,構(gòu)象空間搜索和能量函數(shù)的建立是從頭預(yù)測(cè)方法的關(guān)鍵。
蛋白質(zhì)構(gòu)象的網(wǎng)格模型
限制蛋白骨架構(gòu)象中可采取的自由度是在模擬過程中簡(jiǎn)化蛋白質(zhì)的一種方法,其中一種限制是α碳原子只允許位于二維或三維格子(網(wǎng)格)的位置上。這種簡(jiǎn)化方法大大減少了一個(gè)蛋白質(zhì)可以采取的構(gòu)象數(shù)目。于是,對(duì)于一個(gè)中等大小的多肽鏈,我們可以對(duì)它的構(gòu)象空間進(jìn)行窮舉搜索,直到找到能量全局最小的構(gòu)象。而對(duì)于比較長(zhǎng)的多肽鏈,簡(jiǎn)化的格子模型可以使非窮盡的搜索方法對(duì)所有可能的構(gòu)象進(jìn)行較大比例的取樣,因此可以比較準(zhǔn)確地估計(jì)出能量全局最小的構(gòu)象。
H-P[疏水(hydrophobic)-極性(polar)]模型是研究得最成熟的一種簡(jiǎn)單網(wǎng)格模型。H-P模型用一個(gè)固定半徑的原子來表示蛋白質(zhì)中每個(gè)氨基酸殘基,從而進(jìn)一步簡(jiǎn)化蛋白質(zhì)結(jié)構(gòu)。在這種表示方法中,原子被分為兩種類型:疏水原子和極性原子。如圖:
一段較短的用二維和三維H-P模型表示的多肽鏈
左為二維圖,右為三位圖(疏水殘基表示為黑色,極性殘基表示為白色)
按照慣例,N端的氨基酸位于坐標(biāo)系統(tǒng)的原點(diǎn),第二個(gè)氨基酸殘基就位于坐標(biāo)的(1,0)或(1,0,0)處。通常我們認(rèn)為疏水作用力是使蛋白質(zhì)折疊成一個(gè)緊密球狀結(jié)構(gòu)的幾種基礎(chǔ)力之一。大多數(shù)蛋白質(zhì)的天然結(jié)構(gòu)都有一個(gè)疏水核心和一個(gè)與溶液相接觸的表面,疏水核心中掩藏了疏水殘基,使得它們與溶液相隔離,而與溶液相接觸的表面大多或者全部由極性殘基和帶電殘基組成。將蛋白質(zhì)折疊成一個(gè)緊密結(jié)構(gòu)以幫助疏水殘基與溶液相分離的過程通常稱為疏水折疊。膜蛋白卻明顯不同,這種蛋白具有一個(gè)或多個(gè)嵌入細(xì)胞膜的跨膜區(qū),這些跨膜區(qū)的結(jié)構(gòu)主要是螺旋結(jié)構(gòu)。由于細(xì)胞膜大多由疏水的碳原子和氫原子組成,因此這些“表面”的螺旋結(jié)構(gòu)實(shí)際上是與水分子分離的,它們大多由疏水氨基酸組成。
H-P模型是基于疏水殘基之間的接觸來進(jìn)行打分的。為了評(píng)價(jià)H-P模型中一個(gè)特定的構(gòu)象,我們要計(jì)算出網(wǎng)格中H和H接觸的數(shù)目。在這里,除了多肽鏈一級(jí)結(jié)構(gòu)中相鄰的H和H接觸外(由于多肽鏈一級(jí)結(jié)構(gòu)中相鄰的H和H接觸在每一個(gè)可能的構(gòu)象中都存在,因此為了簡(jiǎn)單起見這些H和H接觸就被去除),其它每一個(gè)H和H的接觸對(duì)能量的貢獻(xiàn)都設(shè)為-1。最優(yōu)的構(gòu)象就是所有可能的構(gòu)象中具有最多H和H接觸的那個(gè)構(gòu)象。一般來說,要獲得最大的H和H接觸的數(shù)目通常需要先形成一個(gè)疏水核心,這個(gè)疏水核心必須含有盡可能多的H殘基,同時(shí)要將P殘基轉(zhuǎn)移至多肽鏈的表面。上圖中的二維和三維構(gòu)象的得分都是-3。
有了網(wǎng)格模型及構(gòu)象能量計(jì)算方法,下一個(gè)任務(wù)就是搜索能量全局最小的構(gòu)象。在設(shè)計(jì)搜索算法時(shí),一個(gè)主要問題就是如何表示一個(gè)特定的構(gòu)象。一個(gè)最簡(jiǎn)單的方法就是將第一個(gè)殘基放在網(wǎng)格的(0,0)或(0,0,0)格點(diǎn)上,然后描述前面一個(gè)殘基到下一個(gè)殘基的移動(dòng)方向。二維模型運(yùn)用這種絕對(duì)方向表示法時(shí),每一個(gè)位置上可選擇的方向包括上、右、左和下(U、R、L、D);而對(duì)于三維模型,每一個(gè)位置上可選擇的方向包括上、右、左、下、后和前(U、R、L、D、B、F)。通過這種絕對(duì)方向表示法,可以將上圖中的二維構(gòu)象表示成(R,R,D,L,D,L,U,L,U,U,R),而三維構(gòu)象可以表示成(R,B,U,F(xiàn),L,U,R,B,L,L,F(xiàn))。相對(duì)方向表示法則利用每個(gè)氨基酸殘基主鏈的轉(zhuǎn)動(dòng)方向來表示每個(gè)位置上的殘基的方向,這種方法能夠減少每個(gè)位置上可選擇的方向數(shù)。這種情況下,對(duì)一個(gè)二維正方形的網(wǎng)格模型,第二個(gè)殘基以后的每個(gè)殘基位置上可選擇的方向有三個(gè),左、右和前(通常表示為L(zhǎng)、R和F);對(duì)一個(gè)三維正方體的網(wǎng)格模型,每個(gè)殘基位置上可選擇的方向有左、右、前、上和下(L、R、F、U、D)。在這種表示方法中,我們不但要清楚當(dāng)前的位置,同時(shí)還要清楚當(dāng)前殘基“面對(duì)”的方向。對(duì)于二維模型,第一個(gè)殘基位于網(wǎng)格的(0,0)位上,它所面對(duì)的方向?yàn)橛摇R簿褪钦f,如果第一個(gè)移動(dòng)方向是F,那么第二個(gè)殘基就應(yīng)該位于網(wǎng)格的(1,0)位上。因此,上圖中的二維構(gòu)象用相對(duì)方向表示法可表示為(F,F(xiàn),R,R,L,R,R,L,R,F(xiàn),R)。對(duì)于三維模型,第一個(gè)殘基位于網(wǎng)格的(0,0,0)位上,它所面對(duì)的方向?yàn)橛?。?dāng)我們沿著多肽鏈移動(dòng)時(shí),我們不但必須清楚當(dāng)前殘基面對(duì)的方向,同時(shí)還要清楚當(dāng)前哪個(gè)方向應(yīng)該看作是“上”。利用這種表示方法,上圖中的三維構(gòu)象可以表示為(F,L,U,U,R,U,U,L,L,F(xiàn),L)。使用上面兩種基于方向的表示方法時(shí),我們會(huì)遇到的一個(gè)關(guān)鍵問題就是一些構(gòu)象中兩個(gè)殘基會(huì)出現(xiàn)在同一個(gè)位置上。比如,一個(gè)二維構(gòu)象用相對(duì)(基于主鏈的轉(zhuǎn)動(dòng))表示法表示時(shí),如果它的起始四個(gè)殘基表示為(L,L,L,L),那么這個(gè)構(gòu)象就會(huì)有兩個(gè)殘基位于原點(diǎn)(0,0)上,從而導(dǎo)致殘基碰撞(bump),或者說原子空間碰撞。在構(gòu)象搜索時(shí)如果出現(xiàn)這種空間碰撞,我們可以采用多種方法來處理。最簡(jiǎn)單的一種方法就是為每一個(gè)具有碰撞的構(gòu)象分配一個(gè)非常高的能量值。由于搜索算法是尋找低能量構(gòu)象的,因此具有碰撞的構(gòu)象在搜索時(shí)會(huì)被很快地剔除。不過,有些構(gòu)象如果能夠解決碰撞問題,它的能量就會(huì)比較小,因此這些構(gòu)象可能會(huì)是有效構(gòu)象。但是,如果采用上面的方法解決碰撞問題的話,搜索過程中就會(huì)把這些有效構(gòu)象去除掉。其它處理碰撞的方法包括在為構(gòu)象打分之前先利用局部?jī)?yōu)化方法來解決碰撞,另外也可以使用其他在構(gòu)象搜索過程中不會(huì)產(chǎn)生碰撞的表示法。優(yōu)先排序表示法就是一種在構(gòu)象搜索過程中不會(huì)產(chǎn)生碰撞的表示法。在優(yōu)先排序法中,每個(gè)殘基對(duì)應(yīng)的方向并不是某一個(gè)方向,而是所有可能的方向的排列。比如,在二維模型中,某一個(gè)殘基對(duì)應(yīng)的方向可能會(huì)是{L,F(xiàn),R}。{L,F(xiàn),R}表示這個(gè)殘基最可能對(duì)應(yīng)的方向是左;但是,如果殘基移向左側(cè)構(gòu)象中會(huì)出現(xiàn)碰撞,這時(shí)我們就會(huì)為這個(gè)殘基選擇下一個(gè)比較有可能的方向,即向前,最后一個(gè)可選擇的方向?yàn)橄蛴?。使用這種表示法來表示構(gòu)象,在有些構(gòu)象中仍然會(huì)出現(xiàn)碰撞(當(dāng)向所有方向的移動(dòng)都會(huì)導(dǎo)致碰撞時(shí)),但這種表示方法中出現(xiàn)碰撞的頻率比用絕對(duì)方向表示法時(shí)出現(xiàn)碰撞的頻率要小很多。將優(yōu)先排序表示法和局部構(gòu)象搜索方法結(jié)合起來,我們就可以設(shè)計(jì)出構(gòu)象中絕對(duì)不會(huì)出現(xiàn)碰撞情況的表示法。
H-P模型是基于三種簡(jiǎn)化的,即蛋白質(zhì)中各個(gè)氨基酸殘基的α碳原子都位于二維網(wǎng)格或三維網(wǎng)格的格點(diǎn)上,疏水作用是蛋白折疊中唯一的重要因素,同時(shí)通過計(jì)算疏水殘基接觸的數(shù)目代替構(gòu)象的能量計(jì)算。雖然這樣的處理非常簡(jiǎn)單,但是,通過H-P模型的計(jì)算分析,能夠發(fā)現(xiàn)蛋白質(zhì)折疊的一些機(jī)制。
如果在蛋白質(zhì)模型中取消氨基酸定位于網(wǎng)格點(diǎn)的限制,那么蛋白模型就可以更真實(shí)地模擬出蛋白的實(shí)際構(gòu)象。去網(wǎng)格模型的誤差通常用預(yù)測(cè)構(gòu)象和實(shí)際構(gòu)象中α碳原子的均方根偏差(RMSD)來計(jì)算。α碳原子的RMSD是指當(dāng)預(yù)測(cè)構(gòu)象和實(shí)際構(gòu)象重疊在一起時(shí),兩種構(gòu)象中每個(gè)α碳原子位置的Euclidean平方距離的總和。
隨著蛋白模型與實(shí)際情況越來越相符,模型的復(fù)雜性也越來越大。去網(wǎng)格蛋白折疊模型可以只考慮α碳原子,也可以考慮所有的骨架原子,甚至可以考慮所有的骨架原子和側(cè)鏈原子。假如在模型中考慮側(cè)鏈的話,那么側(cè)鏈可以表示成剛性側(cè)鏈、半柔性側(cè)鏈和完全柔性側(cè)鏈。對(duì)于剛性側(cè)鏈,我們已經(jīng)在X射線結(jié)晶結(jié)構(gòu)中得到了這些側(cè)鏈的構(gòu)象,X射線結(jié)晶結(jié)構(gòu)中每種氨基酸出現(xiàn)最多的構(gòu)象就被看作這種氨基酸的剛性側(cè)鏈采取的構(gòu)象。對(duì)于半柔性側(cè)鏈,我們也是利用類似的經(jīng)驗(yàn)性方法得到它的構(gòu)象。從一系列X射線結(jié)構(gòu)中可以得到側(cè)鏈的多種構(gòu)象,對(duì)這些構(gòu)象進(jìn)行分組,形狀類似的為一組,這種方法中排除了那些不經(jīng)常出現(xiàn)的構(gòu)象,這也減少了搜索的復(fù)雜度。
能量函數(shù)及優(yōu)化
除了要考慮疏水作用,蛋白折疊的能量函數(shù)中還要考慮到氫鍵、二硫橋的形成、靜電作用、范德華力以及溶劑作用。由于這些力中每一個(gè)力的相對(duì)作用還很難通過實(shí)驗(yàn)來計(jì)算,因此尋找一個(gè)合適的蛋白折疊復(fù)合能量函數(shù)仍然是一個(gè)研究熱點(diǎn)。我們可以通過理論方法,針對(duì)范德華力、氫鍵、溶劑、靜電和其它力對(duì)一個(gè)已折疊蛋白總體穩(wěn)定性的相對(duì)作用來建立能量函數(shù)。它的目標(biāo)是得到一個(gè)近似的能量函數(shù)或者力場(chǎng),那些已知結(jié)構(gòu)的蛋白質(zhì)結(jié)晶構(gòu)象在這個(gè)能量函數(shù)中處于一個(gè)最小能量的狀態(tài)。如何尋找一些可行的能量函數(shù),本質(zhì)上是分子力學(xué)的問題。而且,科學(xué)家確實(shí)已經(jīng)設(shè)計(jì)出了許多有效的能量函數(shù)。
分子力學(xué)方法假設(shè)正確的蛋白質(zhì)折疊對(duì)應(yīng)于最低能量的構(gòu)象。分子力學(xué)勢(shì)能是原子坐標(biāo)的函數(shù),其極小值對(duì)應(yīng)于原子體系的局部能量最小點(diǎn)。勢(shì)能函數(shù)由多項(xiàng)組成,包括成鍵作用和非成鍵作用。成鍵作用項(xiàng)分為化學(xué)鍵的伸縮能(鍵長(zhǎng))、彎曲能(鍵角)和扭轉(zhuǎn)能(二面角),非成鍵作用包括范德華力、靜電力、氫鍵等。分子力學(xué)中的勢(shì)能參數(shù)有各種來源,包括從頭算和半經(jīng)驗(yàn)量子化學(xué)計(jì)算結(jié)果、氨基酸和小分子的實(shí)驗(yàn)觀察結(jié)果等。
對(duì)于能量的優(yōu)化有多種方法。常用的方法是梯度下降法,其中最陡下降法是一種簡(jiǎn)單的優(yōu)化算法。在最低能量搜索過程中,最陡下降法反復(fù)對(duì)能量函數(shù)進(jìn)行微分,計(jì)算梯度,每次沿能量下降最多的方向前進(jìn)。當(dāng)搜索位置離能量極小點(diǎn)比較遠(yuǎn)時(shí),用這種方法可以迅速向極小點(diǎn)靠近,但接近極小點(diǎn)時(shí),會(huì)產(chǎn)生振蕩,收斂速度慢。另一種基于梯度的方法是共軛梯度法,其計(jì)算與最陡下降法一樣,但是在選擇搜索方向時(shí),不僅考慮當(dāng)前的梯度,還要考慮原來的搜索方向,經(jīng)過綜合決定下一步搜索方向。共軛梯度法收斂的速度快,但是更容易陷入能量局部極小點(diǎn)。
牛頓-拉普森方法是另一類能量?jī)?yōu)化方法。梯度方法在計(jì)算時(shí)使用的是一階微分,而牛頓-拉普森方法除使用一階微分外,還計(jì)算二階微分,利用一階微分確定搜索方向,用二階微分確定沿梯度在什么地方改變方向。應(yīng)用該方法能夠迅速收斂,但是計(jì)算量非常大。也可以通過分子動(dòng)力學(xué)來尋找具有局部最低能量的構(gòu)象。分子動(dòng)力學(xué)利用牛頓力學(xué)的基本原理,通過求解運(yùn)動(dòng)方程得到所有原子的運(yùn)動(dòng)軌跡,并根據(jù)軌跡計(jì)算各種性質(zhì)。分子動(dòng)力學(xué)的優(yōu)勢(shì)在于能夠跨過較大的勢(shì)壘,獲得低能量的構(gòu)象。在蒙特卡羅和其它理論、實(shí)驗(yàn)方法的支持下,分子動(dòng)力學(xué)技術(shù)作為改進(jìn)的模型,在搜索過程中能夠避免陷入局部能量極小點(diǎn)。分子動(dòng)力學(xué)另外一個(gè)特點(diǎn)是可以模擬蛋白質(zhì)折疊的過程,從而深入了解蛋白質(zhì)折疊的規(guī)律。
蒙特卡羅是一種隨機(jī)采樣的方法,通過該方法可以期望找到非常接近于全局能量最優(yōu)的構(gòu)象。也有用模擬退火方法、遺傳算法等進(jìn)行蛋白質(zhì)構(gòu)象搜索和結(jié)構(gòu)預(yù)測(cè)。
然而,要確保找到全局最低能量的構(gòu)象,必須進(jìn)行全面搜索,以一定步長(zhǎng)搜索整個(gè)構(gòu)象空間,從而尋找能量最低點(diǎn)。由于搜索的是整個(gè)構(gòu)象空間,所以最終找到的是全局最小點(diǎn)。但是對(duì)于生物大分子來講搜索空間太大,在實(shí)際應(yīng)用中不可行,只能處理很小的蛋白質(zhì)。即使對(duì)搜索空間進(jìn)行約束,如只允許我們感興趣的氨基酸和連接兩個(gè)殘基的二面角發(fā)生變化,計(jì)算量仍然是個(gè)問題。對(duì)構(gòu)象空間的進(jìn)一步簡(jiǎn)化也只能處理比較小的蛋白質(zhì)。
雖然利用引起蛋白質(zhì)折疊的物理力學(xué)以及能量函數(shù)對(duì)蛋白質(zhì)進(jìn)行建模有一定實(shí)際意義,但是這種從頭開始預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的方法由于種種原因往往得不到令人滿意的結(jié)果。首先,到目前為止,我們還沒有完全了解究竟是哪些力決定了蛋白質(zhì)的折疊過程,同時(shí)這些力之間又是如何相互作用的。即使有了一些力場(chǎng),但是,力場(chǎng)參數(shù)不精確。其次,這種方法需要考慮蛋白質(zhì)中所有原子之間以及所有原子與周圍溶劑之間的相互作用。對(duì)于實(shí)際大小的多肽,由于計(jì)算量太大,這種方法其實(shí)并不可行。實(shí)際上,也沒有對(duì)溶劑處理的好方法。再一方面,構(gòu)象搜索過程容易陷入局部能量極小點(diǎn),而且自然折疊的蛋白質(zhì)結(jié)構(gòu)與一般蛋白質(zhì)構(gòu)象之間的能量差值比較小,因此,通過計(jì)算發(fā)現(xiàn)蛋白質(zhì)的自然折疊結(jié)構(gòu)非常困難。
對(duì)于從頭開始的方法,另外一種變化方法就是根據(jù)一些已知結(jié)構(gòu)的蛋白質(zhì)構(gòu)象為一個(gè)未知結(jié)構(gòu)的蛋白設(shè)計(jì)一個(gè)經(jīng)驗(yàn)性的偽能量函數(shù)。通常,為得到這種經(jīng)驗(yàn)性的能量函數(shù)表達(dá)式,我們首先要選擇一系列已知結(jié)構(gòu)的蛋白質(zhì),然后對(duì)于每一個(gè)氨基酸,分析在三維空間上與其相鄰的氨基酸。于是,我們可以根據(jù)不同氨基酸的相對(duì)位置得到一個(gè)得分矩陣。例如,得分矩陣中會(huì)記錄所有絲氨酸殘基和蘇氨酸殘基的距離小于3.6的數(shù)目。對(duì)一個(gè)假定的蛋白質(zhì)構(gòu)象,為了估計(jì)出它的經(jīng)驗(yàn)性能量,必須考慮這個(gè)蛋白中每個(gè)殘基的相鄰殘基。對(duì)于那些在樣本庫(kù)中經(jīng)常出現(xiàn)的局部構(gòu)象,它們的能量得分會(huì)比較小,而對(duì)于那些在樣本庫(kù)中不經(jīng)常出現(xiàn)的局部構(gòu)象,它們的得分則比較高。如果一個(gè)構(gòu)象的得分比較高的話,這個(gè)構(gòu)象就不太穩(wěn)定。例如,假如一個(gè)特定的絲氨酸殘基在6的距離內(nèi)有三個(gè)相鄰的殘基,即天冬氨酸、組氨酸和谷氨酸,并且得分矩陣顯示天冬氨酸、組氨酸和谷氨酸在蛋白結(jié)構(gòu)樣本庫(kù)中經(jīng)常與絲氨酸相鄰,那么這個(gè)絲氨酸殘基的能量得分就比較低。但是,假如得分矩陣顯示絲氨酸和谷氨酸很少相鄰,那么這個(gè)絲氨酸殘基的經(jīng)驗(yàn)性能量值就比較高。將蛋白質(zhì)中所有殘基的局部能量值累加,就得到這個(gè)蛋白質(zhì)基于經(jīng)驗(yàn)的全局能量值。實(shí)際上,這種經(jīng)驗(yàn)性能量函數(shù)只對(duì)那些與已知蛋白質(zhì)的結(jié)構(gòu)相似的構(gòu)象賦予比較低的能量值,而對(duì)那些新出現(xiàn)的構(gòu)象或者不經(jīng)常出現(xiàn)的構(gòu)象,這種能量函數(shù)給出的能量值則比較高。