科研成果 | 張強鋒課題組開發(fā)基于細胞內(nèi)RNA結(jié)構(gòu)預測蛋白質(zhì)-RNA動態(tài)相互作用的人工智能方法


作者通過整合細胞內(nèi)RNA結(jié)構(gòu)信息以及對應(yīng)細胞系的RBP結(jié)合信息,利用深度神經(jīng)網(wǎng)絡(luò),構(gòu)建了預測RBP結(jié)合位點的PrismNet模型。該模型在168個人類RBP結(jié)合的CLIP數(shù)據(jù)集上進行了訓練學習和檢驗,發(fā)現(xiàn)其預測準確率顯著高于之前僅僅利用RNA序列以及整合基于序列預測得到的RNA結(jié)構(gòu)的方法,預測和CLIP實驗結(jié)果的吻合度甚至達到或超過同一條件下兩個CLIP實驗的吻合度(圖2)。顯然,細胞內(nèi)RNA結(jié)構(gòu)信息對于預測準確率的提高起到了重要作用。有意思的是,作者發(fā)現(xiàn)RNA結(jié)構(gòu)信息對于提高雙鏈結(jié)合蛋白預測準確率的幫助更大。

RBP和RNA研究領(lǐng)域內(nèi)多年的積累,產(chǎn)生了大約200個基于CLIP實驗的RBP轉(zhuǎn)錄組結(jié)合圖譜,是研究RNA調(diào)控的重要資源。PrismNet的一個重要應(yīng)用價值在于大大擴充了這個資源。比如,對于任意一個RBP,只要在這七個細胞系的任意一個細胞系內(nèi)做了CLIP實驗,PrismNet就可以通過構(gòu)建準確的深度神經(jīng)網(wǎng)絡(luò)模型,把結(jié)合信息外推到所有七個細胞系中。對該研究所產(chǎn)生的大量細胞內(nèi)RNA結(jié)構(gòu)、所預測的不同RBP結(jié)合位點的信息資源,作者提供了查詢以及下載網(wǎng)站(http://prismnet.zhanglab.net/)供其他研究組訪問和使用。
最后要提到的是,張強鋒研究組利用PrismNet模型,使用新冠病毒SARS-CoV-2在宿主細胞內(nèi)的RNA基因組結(jié)構(gòu)信息,預測了多個新冠病毒的宿主結(jié)合蛋白;從這些宿主蛋白出發(fā),找到了一些對抑制新冠傳播有效的重定位藥物【5】。這個研究再次證明了PrismNet的廣闊應(yīng)用前景。
據(jù)悉,清華大學生命學院博士后孫磊、博士生徐魁、博士生黃文澤等為論文第一作者,結(jié)構(gòu)生物學高精尖創(chuàng)新中心張強鋒研究員為論文通訊作者。課題組其他成員李盼、唐磊、熊團林博士、樸美玲博士等為本研究做出了重要貢獻。清華大學醫(yī)學院沈曉驊實驗室尹亞飛博士、紀家葵實驗室王楠提供了相關(guān)細胞系。香港中文大學王曉剛教授與邵靜博士為深度學習模型設(shè)計提供了寶貴建議。商湯研究院在GPU計算設(shè)施上提供了幫助。
3. Sun, L., Fazal, F.M., Li, P., Broughton, J.P., Lee, B., Tang, L., Huang, W., Kool, E.T., Chang, H.Y., and Zhang, Q.C. (2019). RNA structure maps across mammalian cellular compartments.?Nature structural & molecular biology?26, 322-330.
4. Shi, B., Zhang, J., Heng, J., Gong, J., Zhang, T., Li, P., Sun, B.F., Yang, Y., Zhang, N., Zhao, Y.L., et al. (2020). RNA structural dynamics regulate early embryogenesis through controlling transcriptome fate and function.?Genome Biol?21, 120.
5. Sun, L., Li, P., Ju, X., Rao, J., Huang, W., Zhang, S., Xiong, T., Xu, K., Zhou, X., Ren, L., et al. (2021). In vivo structural characterization of the whole SARS-CoV-2 RNA genome identifies host cell target proteins vulnerable to re-purposed drugs. Cell
https://doi.org/10.1016/j.cell.2021.02.008.

