多肽涉及和參與生物體內(nèi)各種細胞過程,比如信號傳導、基因表達調(diào)控、細胞增殖和凋亡,在生物體內(nèi)扮演著不可或缺的關(guān)鍵作用。目前,已經(jīng)有超過7000種天然多肽被發(fā)現(xiàn)【1】。由于多肽藥物主要來源于天然多肽或者內(nèi)源性多肽,因此作用機理明確、具有更高的活性和選擇性、安全性較高,能夠廣泛作用于內(nèi)分泌系統(tǒng)、免疫系統(tǒng)、消化系統(tǒng)、心血管系統(tǒng)、血液系統(tǒng)等。目前,全球市場上大約有80多種多肽藥物,占全球制藥市場的5%,且有200~300種多肽藥物處在臨床試驗中【2】。識別和解析多肽和蛋白質(zhì)的相互作用及其機制,有助于為多肽藥物精準定位靶點,并為多肽藥物的化學修飾提供關(guān)鍵信息,從而加速多肽藥物的研發(fā)進程。近日,清華大學曾堅陽課題組在Nature Communications雜志上發(fā)表題為A deep-learning framework for multi-level peptide–protein interaction prediction的論文,基于多肽和蛋白質(zhì)序列,成功開發(fā)了一個多尺度預測多肽和蛋白質(zhì)相互作用的深度學習模型。該研究為多肽和蛋白質(zhì)相互作用的機制提供了一個高效的預測框架,可以在為多肽藥物預測結(jié)合靶點的同時,識別多肽序列上的結(jié)合位點。
清華大學曾堅陽團隊開發(fā)蛋白-多肽相互作用預測的深度學習模型-肽度TIMEDOO
目前有主流的計算框架分別基于序列的和基于結(jié)構(gòu)來識別蛋白質(zhì)和多肽配體的相互作用。然而,這些方法主要集中于識別蛋白質(zhì)表面與多肽結(jié)合結(jié)合的殘基,無法直接提取多肽序列中的結(jié)合殘基。此外,基于結(jié)構(gòu)的方法需要用到三維結(jié)構(gòu)信息,但通過傳統(tǒng)的實驗方法測定得到的蛋白質(zhì)-多肽復合物的結(jié)構(gòu)非常昂貴且耗時。在本項研究中,曾堅陽團隊提出了名為CAMP的深度學習框架,用于同時預測多肽-蛋白相互作用(pepPIs)和識別多肽序列上的結(jié)合殘基。
清華大學曾堅陽團隊開發(fā)蛋白-多肽相互作用預測的深度學習模型-肽度TIMEDOO
CAMP的模型框架圖
CAMP將蛋白質(zhì)和多肽的氨基酸序列、二級結(jié)構(gòu)、理化性質(zhì)、序列靈活性得分和蛋白質(zhì)的PSSM矩陣作為模型輸入,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模塊和自注意力機制(self-attention)來預測給定的肽-蛋白對之間是否存在相互作用,同時識別多肽序列上的結(jié)合位點。測試結(jié)果表明,在多種數(shù)據(jù)劃分的設(shè)定下,CAMP在基準數(shù)據(jù)集上的表現(xiàn)均優(yōu)于現(xiàn)有的方法。此外,測試結(jié)果和案例分析表明,CAMP可以準確地預測多肽序列上的結(jié)合殘基,從而為進一步理解多肽與蛋白質(zhì)的結(jié)合機制提供有效的幫助。最后,作者進一步研究了CAMP在三個相關(guān)任務(wù)中的應用潛力,即多肽-蛋白結(jié)合域相互作用預測(peptide-PBD interaction)、結(jié)合親和力評估和多肽的虛擬篩選。結(jié)果表明,CAMP在這三個相關(guān)任務(wù)上均獲得出色表現(xiàn)。

綜上所述,曾堅陽團隊開發(fā)了一個多層次的多肽-蛋白相互作用預測的深度學習框架(CAMP)以同時預測多肽和蛋白質(zhì)之間時候存在相互作用和識別多肽序列的結(jié)合殘基。該方法使用多通道特征提取器分別處理數(shù)值特征和分類特征,以避免多源特征的不一致性。此外,作者通過和現(xiàn)有的最有方法比較,驗證了CAMP擁有更優(yōu)的性能,同時展示了CAMP在peptide-PBD相互作用預測、多肽-蛋白質(zhì)的親和力評估和多肽的虛擬篩選方面的應用潛力。這些結(jié)果表明,CAMP可以提供準確的肽-蛋白相互作用預測,并有助于研究者理解多肽與蛋白質(zhì)結(jié)合的潛在機制。

該論文通訊作者為清華大學曾堅陽副教授和趙誕助理研究員,第一作者為清華大學交叉信息研究院預研生雷逸品,合作作者包括清華大學自動化系李梢課題組等。除此之外,曾堅陽團隊還開發(fā)了一系列基于機器學習和深度學習的藥物預測方法,包括小分子藥物靶點預測算法DTINet【3】、NeoDTI【4】、DeepCPI 【5】和MONN【6】,藥物-靶點關(guān)系自動抽取的文本挖掘模型BERE【7】等。

原文鏈接
https://doi.org/10.1038/s41467-021-25772-4
參考文獻
Muttenthaler M , King G F , Adams D J , et al. Trends in peptide drug?discovery[J].?Nature Reviews Drug Discovery, 2021, 20(4).2. Rastogi, S., Shukla, S., Kalaivani, M. and Singh, G.N., 2019. Peptide-based therapeutics: quality specifications, regulatory considerations, and prospects.?Drug discovery today, 24(1), pp.148-162.

3. Luo, Y., Zhao, X., Zhou, J., Yang, J., Zhang, Y., Kuang, W., … & Zeng, J. (2017). A network integration approach for drug-target interaction prediction and computational drug repositioning from heterogeneous information.?Nature communications, 8(1), 1-13.

4. Wan, F., Hong, L., Xiao, A., Jiang, T., & Zeng, J. (2019). NeoDTI: neural integration of neighbor information from a heterogeneous network for discovering new drug–target interactions.?Bioinformatics, 35(1), 104-111.

5. Wan, F., Zhu, Y., Hu, H., Dai, A., Cai, X., Chen, L., … & Zeng, J. (2019). DeepCPI: A Deep Learning-based Framework for Large-scale in silico Drug Screening.?Genomics,?Proteomics & Bioinformatics,?17(5), 478-495.

6. Li, S., Wan, F., Shu, H., Jiang, T., Zhao, D. and Zeng, J., 2020. MONN: a multi-objective neural network for predicting compound-protein interactions and affinities.?Cell Systems,?10(4), pp.308-322.

7. Hong, L., Lin, J., Li, S., Wan, F., Yang, H., Jiang, T., Zhao, D. and Zeng, J., 2020. A novel machine learning framework for automated biomedical relation extraction from large-scale literature repositories.?Nature Machine Intelligence, 2(6), pp.347-355.

來源:結(jié)構(gòu)生物學高精尖創(chuàng)新中心