高通量測(cè)序的進(jìn)展推動(dòng)了蛋白質(zhì)序列數(shù)量的快速增長。盡管如此,由于實(shí)驗(yàn)研究需要較長的周期并且費(fèi)用昂貴,大部分蛋白質(zhì)序列缺乏功能注釋。因此,具備自動(dòng)而準(zhǔn)確推斷蛋白質(zhì)功能的計(jì)算方法變得至關(guān)重要。

深度學(xué)習(xí)的進(jìn)展推動(dòng)了各種蛋白質(zhì)功能預(yù)測(cè)模型的發(fā)展。蛋白質(zhì)的三維結(jié)構(gòu)與功能密切相關(guān),然而,結(jié)構(gòu)相似的蛋白質(zhì)可能具有高度多樣的序列。僅仰賴基于序列的模型(如1D CNN或Transformer)可能難以捕捉到長程的功能位點(diǎn)規(guī)律。隨著蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)研究的突破性進(jìn)展,獲取蛋白質(zhì)接觸圖或三維結(jié)構(gòu)的方法變得更加容易。這為圖神經(jīng)網(wǎng)絡(luò)(GNN)提供了更多優(yōu)勢(shì),它可以編碼蛋白質(zhì)的三維結(jié)構(gòu)信息以預(yù)測(cè)其功能。然而,目前的GNN模型仍然面臨過度平滑的問題,而且簡(jiǎn)單的池化方法難以準(zhǔn)確突顯重要的殘基節(jié)點(diǎn)貢獻(xiàn)。

北京大學(xué)化學(xué)與分子工程學(xué)院、定量生物學(xué)中心、北京大學(xué)-清華大學(xué)生命科學(xué)聯(lián)合中心來魯華課題組與北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院、定量生物學(xué)中心鄧明華課題組合作發(fā)展了一種新的蛋白質(zhì)功能預(yù)測(cè)模型:HEAL(Hierarchical graph transformEr with contrAstive Learning)。HEAL利用Hierarchical Graph Transformer(HGT)來學(xué)習(xí)蛋白質(zhì)的結(jié)構(gòu)信息。該方法通過引入模仿功能motif的超節(jié)點(diǎn),與蛋白質(zhì)圖中的殘基節(jié)點(diǎn)進(jìn)行交互,并通過池化操作生成蛋白質(zhì)圖的嵌入表示。為了增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力,HEAL還引入了圖對(duì)比學(xué)習(xí),以最大化不同視圖之間的相似性。此外,HEAL模型還利用AlphaFold2預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的功能信息,以提升在實(shí)際應(yīng)用場(chǎng)景中的性能表現(xiàn)。

來魯華課題組及其合作者研究出多層級(jí)的圖神經(jīng)網(wǎng)絡(luò)推動(dòng)蛋白質(zhì)功能預(yù)測(cè)的發(fā)展-肽度TIMEDOO

HEAL模型對(duì)蛋白質(zhì)的建圖方式及網(wǎng)絡(luò)架構(gòu)

HEAL模型在被廣泛使用的PDBch測(cè)試集上展現(xiàn)出了卓越的性能,不僅超越了傳統(tǒng)的基于序列比對(duì)的方法(Blast和FunFams),還超越了基于序列特征的1D CNN深度學(xué)習(xí)模型DeepGO和基于結(jié)構(gòu)特征的GNN模型DeepFRI。為了測(cè)試模型在缺乏實(shí)驗(yàn)解析結(jié)構(gòu)與已標(biāo)注同源序列的更真實(shí)場(chǎng)景下的應(yīng)用,研究者構(gòu)建了更具挑戰(zhàn)性的AFch測(cè)試集,并將HEAL模型與前述的DeepFRI、以及結(jié)合同源序列比對(duì)和1D CNN序列模型的DeepGOPlus進(jìn)行了比較。研究結(jié)果表明,在這個(gè)更具挑戰(zhàn)性的應(yīng)用場(chǎng)景下,HEAL模型顯示出了更大的潛力和優(yōu)勢(shì)。

相關(guān)工作近日發(fā)表在Bioinformatics上,北京大學(xué)北大-清華生命科學(xué)聯(lián)合中心博士研究生顧仲暉與北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院羅霄博士為共同第一作者。北京大學(xué)定量生物學(xué)中心的博士研究生陳佳曉對(duì)于該工作的完成做出了重要貢獻(xiàn)。文章的通訊作者為北京大學(xué)化學(xué)與分子工程學(xué)院、定量生物學(xué)中心、北京大學(xué)-清華大學(xué)生命科學(xué)聯(lián)合中心來魯華教授和北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院、定量生物學(xué)中心鄧明華教授。該研究得到了國家重點(diǎn)研發(fā)計(jì)劃、國家自然科學(xué)基金、中國醫(yī)學(xué)科學(xué)院創(chuàng)新單元、北京分子科學(xué)國家研究中心和北大-清華生命科學(xué)聯(lián)合中心的資助。

原文鏈接:https://doi.org/10.1093/bioinformatics/btad410