RNA結(jié)合蛋白?(RBP)?在轉(zhuǎn)錄、RNA代謝以及翻譯過程中起重要的調(diào)控作用。CLIP實驗技術(shù)作為RNA研究最重要的技術(shù)之一,可以解析RBP在整個轉(zhuǎn)錄組上的結(jié)合圖譜,是系統(tǒng)理解一個RBP功能及其調(diào)控機制的基礎(chǔ)。但CLIP實驗費時費力,一次只能提供某一RBP在特定細胞環(huán)境下的RNA結(jié)合位點,而且對于實驗材料要求較高,很多情況下不能順利開展。然而研究發(fā)現(xiàn),蛋白質(zhì)和RNA的結(jié)合隨著細胞環(huán)境的變化可能發(fā)生很大的改變,因而研究蛋白質(zhì)對RNA的調(diào)控需要相同細胞環(huán)境的結(jié)合信息。這兩方面因素加起來對使用CLIP研究蛋白質(zhì)-RNA結(jié)合提出了很大的挑戰(zhàn)。從計算角度來說,目前已有的預測RBP結(jié)合位點的方法,毫無例外都是基于RNA序列以及從序列出發(fā)預測的RNA結(jié)構(gòu)。序列本身在不同細胞環(huán)境里面是沒有什么變化的,因而這些方法都不能解決RBP在不同細胞環(huán)境下結(jié)合動態(tài)變化的問題。
2021年2月23日,結(jié)構(gòu)生物學高精尖創(chuàng)新中心張強鋒課題組在Cell Research雜志上,發(fā)表了題為Predicting dynamic cellular protein–RNA interactions by deep learning using in vivo RNA structures(使用人工智能方法基于細胞內(nèi)RNA結(jié)構(gòu)預測蛋白質(zhì)-RNA動態(tài)相互作用)的研究長文。該工作首先使用icSHAPE實驗解析了七種常用細胞類型的RNA二級結(jié)構(gòu)圖譜,并開發(fā)人工智能算法整合實驗獲得的細胞內(nèi)RNA結(jié)構(gòu)以及對應(yīng)細胞環(huán)境的RBP結(jié)合信息,建立了基于細胞內(nèi)RNA結(jié)構(gòu)信息預測細胞內(nèi)RBP動態(tài)結(jié)合的新方法PrismNet(圖1)。
科研成果 | 張強鋒課題組開發(fā)基于細胞內(nèi)RNA結(jié)構(gòu)預測蛋白質(zhì)-RNA動態(tài)相互作用的人工智能方法-肽度TIMEDOO科研成果 | 張強鋒課題組開發(fā)基于細胞內(nèi)RNA結(jié)構(gòu)預測蛋白質(zhì)-RNA動態(tài)相互作用的人工智能方法-肽度TIMEDOO
圖1 PrismNet模型構(gòu)建以及應(yīng)用
RNA結(jié)構(gòu)是RNA功能和調(diào)控的基礎(chǔ)??蒲泄ぷ髡咄ㄟ^X射線晶體衍射、核磁共振、冷凍電子顯微鏡等方法解析了大量RNA結(jié)構(gòu),揭示了許多體外RNA結(jié)構(gòu)的重要功能。近年來,通過人為引入細胞內(nèi)RNA化學修飾,開發(fā)高通量測序技術(shù),可以在全轉(zhuǎn)錄組水平檢測細胞內(nèi)的RNA二級結(jié)構(gòu)。這種新的RNA系統(tǒng)生物學的研究方法,揭示了RNA結(jié)構(gòu)參與轉(zhuǎn)錄后調(diào)控的規(guī)律和機制。張強鋒課題組一直致力于RNA結(jié)構(gòu)領(lǐng)域的研究。張強鋒研究員作為主要開發(fā)者參與開發(fā)了探測細胞內(nèi)RNA結(jié)構(gòu)和相互作用的icSHAPE技術(shù)與PARIS技術(shù)【1,2】。在此基礎(chǔ)上,通過整合亞細胞分離技術(shù),張強鋒課題組發(fā)現(xiàn)細胞內(nèi)RNA結(jié)構(gòu)在細胞內(nèi)不同亞細胞環(huán)境會發(fā)生動態(tài)變化,并且RNA結(jié)構(gòu)的變化會影響RBP的結(jié)合【3】。張強鋒課題組與楊運桂、劉峰課題組合作,通過斑馬魚胚胎發(fā)育過程不同階段RNA結(jié)構(gòu)動態(tài)變化的研究,發(fā)現(xiàn)RNA結(jié)合蛋白Elavl1a及其靶標RNA結(jié)構(gòu)變化共同作用,調(diào)控斑馬魚早期胚胎母源RNA降解的新機制【4】。在之前研究的基礎(chǔ)上,作者系統(tǒng)比較了多個RBP在K562和HepG2細胞之間結(jié)合位點的差異,發(fā)現(xiàn)相同RBP在不同類型細胞之間結(jié)合位點差異巨大。進一步通過關(guān)聯(lián)比較兩個細胞系的全轉(zhuǎn)錄組RNA結(jié)構(gòu),作者發(fā)現(xiàn)在不同細胞系間RBP結(jié)合差異位點顯著富集在RNA結(jié)構(gòu)差異位點。這顯示了RNA結(jié)構(gòu)信息對不同細胞內(nèi)RBP結(jié)合位點的預測具有重要作用。

作者通過整合細胞內(nèi)RNA結(jié)構(gòu)信息以及對應(yīng)細胞系的RBP結(jié)合信息,利用深度神經(jīng)網(wǎng)絡(luò),構(gòu)建了預測RBP結(jié)合位點的PrismNet模型。該模型在168個人類RBP結(jié)合的CLIP數(shù)據(jù)集上進行了訓練學習和檢驗,發(fā)現(xiàn)其預測準確率顯著高于之前僅僅利用RNA序列以及整合基于序列預測得到的RNA結(jié)構(gòu)的方法,預測和CLIP實驗結(jié)果的吻合度甚至達到或超過同一條件下兩個CLIP實驗的吻合度(圖2)。顯然,細胞內(nèi)RNA結(jié)構(gòu)信息對于預測準確率的提高起到了重要作用。有意思的是,作者發(fā)現(xiàn)RNA結(jié)構(gòu)信息對于提高雙鏈結(jié)合蛋白預測準確率的幫助更大。

科研成果 | 張強鋒課題組開發(fā)基于細胞內(nèi)RNA結(jié)構(gòu)預測蛋白質(zhì)-RNA動態(tài)相互作用的人工智能方法-肽度TIMEDOO
圖2 PrismNet與其他方法預測準確性比較。A,PrismNet與其他方法預測IGF2BP1在EIF3F轉(zhuǎn)錄本上的結(jié)合。B-D,PrismNet與其他方法比較(B-C)以及不同數(shù)據(jù)訓練模型的預測準確性(D)。
利用深度學習模型中的注意力機制,作者提取了RBP結(jié)合RNA的關(guān)鍵識別位點,構(gòu)建了序列與結(jié)構(gòu)的整合motif來描述RBP結(jié)合位點的RNA序列和結(jié)構(gòu)偏好。長久以來,人們都依賴于傳統(tǒng)的序列motif來刻畫RBP結(jié)合RNA的特征,對于同樣重要的結(jié)合位點的結(jié)構(gòu)特征,由于信息缺乏,只能選擇忽略。這里的工作表明,和人們的期望一樣,序列與結(jié)構(gòu)整合motif可以更全面地體現(xiàn)RBP的結(jié)合特征,可以用在通過簡單的motif匹配,方便快捷地在整個轉(zhuǎn)錄組中更準確地找到RBP的結(jié)合位點。有意思的是,這些通過PrismNet找到的RBP結(jié)合RNA的關(guān)鍵識別位點比其它轉(zhuǎn)錄本區(qū)域更加保守,同時也更加富集包括自閉癥,精神分裂癥等精神類疾病的突變位點。同時,作者發(fā)現(xiàn),相對于RNA結(jié)構(gòu)沒有改變的突變位點,造成RNA結(jié)構(gòu)改變的突變位點?(riboSNitch)?更容易造成疾病。這些研究暗示了PrismNet模型未來在研究RBP結(jié)合、RNA結(jié)構(gòu)變化在疾病中作用的潛在應(yīng)用價值。

RBP和RNA研究領(lǐng)域內(nèi)多年的積累,產(chǎn)生了大約200個基于CLIP實驗的RBP轉(zhuǎn)錄組結(jié)合圖譜,是研究RNA調(diào)控的重要資源。PrismNet的一個重要應(yīng)用價值在于大大擴充了這個資源。比如,對于任意一個RBP,只要在這七個細胞系的任意一個細胞系內(nèi)做了CLIP實驗,PrismNet就可以通過構(gòu)建準確的深度神經(jīng)網(wǎng)絡(luò)模型,把結(jié)合信息外推到所有七個細胞系中。對該研究所產(chǎn)生的大量細胞內(nèi)RNA結(jié)構(gòu)、所預測的不同RBP結(jié)合位點的信息資源,作者提供了查詢以及下載網(wǎng)站(http://prismnet.zhanglab.net/)供其他研究組訪問和使用。

最后要提到的是,張強鋒研究組利用PrismNet模型,使用新冠病毒SARS-CoV-2在宿主細胞內(nèi)的RNA基因組結(jié)構(gòu)信息,預測了多個新冠病毒的宿主結(jié)合蛋白;從這些宿主蛋白出發(fā),找到了一些對抑制新冠傳播有效的重定位藥物【5】。這個研究再次證明了PrismNet的廣闊應(yīng)用前景。

據(jù)悉,清華大學生命學院博士后孫磊、博士生徐魁、博士生黃文澤等為論文第一作者,結(jié)構(gòu)生物學高精尖創(chuàng)新中心張強鋒研究員為論文通訊作者。課題組其他成員李盼、唐磊熊團林博士、樸美玲博士等為本研究做出了重要貢獻。清華大學醫(yī)學院沈曉驊實驗室尹亞飛博士、紀家葵實驗室王楠提供了相關(guān)細胞系。香港中文大學王曉剛教授與邵靜博士為深度學習模型設(shè)計提供了寶貴建議。商湯研究院在GPU計算設(shè)施上提供了幫助。

原文鏈接
https://www.nature.com/articles/s41422-021-00476-y.pdf
參考文獻
1.?Lu, Z., Zhang, Q.C., Lee, B., Flynn, R.A., Smith, M.A., Robinson, J.T., Davidovich, C., Gooding, A.R., Goodrich, K.J., Mattick, J.S., et al. (2016). RNA Duplex Map in Living Cells Reveals Higher-Order Transcriptome Structure.?Cell?165, 1267-1279.2. Spitale, R.C., Flynn, R.A., Zhang, Q.C., Crisalli, P., Lee, B., Jung, J.W., Kuchelmeister, H.Y., Batista, P.J., Torre, E.A., Kool, E.T., et al. (2015). Structural imprints in vivo decode RNA regulatory mechanisms.?Nature?519, 486-490.

3. Sun, L., Fazal, F.M., Li, P., Broughton, J.P., Lee, B., Tang, L., Huang, W., Kool, E.T., Chang, H.Y., and Zhang, Q.C. (2019). RNA structure maps across mammalian cellular compartments.?Nature structural & molecular biology?26, 322-330.

4. Shi, B., Zhang, J., Heng, J., Gong, J., Zhang, T., Li, P., Sun, B.F., Yang, Y., Zhang, N., Zhao, Y.L., et al. (2020). RNA structural dynamics regulate early embryogenesis through controlling transcriptome fate and function.?Genome Biol?21, 120.

5. Sun, L., Li, P., Ju, X., Rao, J., Huang, W., Zhang, S., Xiong, T., Xu, K., Zhou, X., Ren, L., et al. (2021). In vivo structural characterization of the whole SARS-CoV-2 RNA genome identifies host cell target proteins vulnerable to re-purposed drugs. Cell

https://doi.org/10.1016/j.cell.2021.02.008.

來源:結(jié)構(gòu)生物學高精尖創(chuàng)新中心