北京大學(xué)生命科學(xué)學(xué)院高歌課題組提出人類RNA轉(zhuǎn)錄本編碼能力定量預(yù)測(cè)模型
近日,北京大學(xué)生命科學(xué)學(xué)院生物信息中心(CBI)、北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)與北京未來基因診斷高精尖創(chuàng)新中心(ICG)高歌研究員課題組,基于異構(gòu)多組學(xué)數(shù)據(jù),建立了人類RNA轉(zhuǎn)錄本編碼能力(coding ability)跨細(xì)胞定量模型。相關(guān)論文已于近日以題為“Quantitative model suggests both intrinsic and contextual features contribute to the transcript coding ability determination in cells”在線發(fā)表于Briefings in Bioinformatics雜志。
基因的轉(zhuǎn)錄在生物學(xué)中心法則中起到了承上啟下的作用,細(xì)胞通過轉(zhuǎn)錄-翻譯過程多水平調(diào)控以應(yīng)對(duì)環(huán)境壓力和疾病。特別的,近年來研究顯示,在傳統(tǒng)編碼蛋白的mRNA以外,部分RNA轉(zhuǎn)錄本(transcript)可以以非編碼RNA形式發(fā)揮其生物學(xué)功能。綜合運(yùn)用生物信息學(xué)與計(jì)算基因組學(xué)手段,對(duì)轉(zhuǎn)錄本編碼能力進(jìn)行量化建模分析,不僅有助于深入理解轉(zhuǎn)錄-翻譯這一基本的分子生物學(xué)信息傳遞過程,也可為精準(zhǔn)解碼細(xì)胞調(diào)控圖譜提供重要的數(shù)據(jù)與方法學(xué)基礎(chǔ)。
研究團(tuán)隊(duì)收集了發(fā)表于公共數(shù)據(jù)庫來自22個(gè)不同細(xì)胞類型的人類Ribo-seq/RNA-seq配對(duì)數(shù)據(jù)并進(jìn)行系統(tǒng)挖掘分析,對(duì)數(shù)據(jù)中101,170條轉(zhuǎn)錄本的翻譯狀態(tài)進(jìn)行了嚴(yán)格判定。其中,46%的轉(zhuǎn)錄本為編碼,43%為非編碼。值得注意的是,他們發(fā)現(xiàn)11%的轉(zhuǎn)錄本,在不同細(xì)胞中呈現(xiàn)不同的翻譯狀態(tài),即在部分細(xì)胞中編碼,而在另一部分細(xì)胞中非編碼。研究團(tuán)隊(duì)將其命名為“環(huán)境依賴編碼轉(zhuǎn)錄本”(context-dependent coding transcripts,CDCTs)。
在此基礎(chǔ)上,作者應(yīng)用數(shù)據(jù)驅(qū)動(dòng)的特征選擇算法,綜合運(yùn)用序列內(nèi)生(intrinsic,cis-)和細(xì)胞環(huán)境(contextual,trans-)特征,建立了人類RNA轉(zhuǎn)錄本編碼能力跨細(xì)胞定量模型RiboCalc,實(shí)現(xiàn)了對(duì)人類轉(zhuǎn)錄本在多種細(xì)胞環(huán)境下的編碼能力(即Ribo-seq表達(dá)量Ribo-TPM)的高精度預(yù)測(cè)(r=0.81)。進(jìn)一步模型分析顯示,轉(zhuǎn)錄本的序列和所在細(xì)胞環(huán)境都對(duì)編碼能力的決定起到了重要作用。值得注意的是,自2014年以來即有若干工作報(bào)道一些傳統(tǒng)被注釋的非編碼RNA可以在特定條件下結(jié)合核糖體甚至產(chǎn)生肽段(如圖1),RiboCalc模型分析顯示,這些RNA轉(zhuǎn)錄本與不結(jié)合核糖體的RNA轉(zhuǎn)錄本相比編碼能力分?jǐn)?shù)顯著高,進(jìn)一步提示轉(zhuǎn)錄本的編碼能力不應(yīng)被簡(jiǎn)化為單純的編碼/非編碼二分分類,而是一個(gè)依賴于環(huán)境的連續(xù)定量指標(biāo)。
圖一:RiboCalc工作流程與分析結(jié)果:A. RiboCalc模型構(gòu)建流程 B. RiboCalc測(cè)試結(jié)果比較 C. RiboCalc各類特征的重要性
作為首個(gè)針對(duì)高等哺乳動(dòng)物開發(fā)的轉(zhuǎn)錄本編碼能力定量預(yù)測(cè)模型,RiboCalc在人類中實(shí)現(xiàn)了跨組織、細(xì)胞類型的轉(zhuǎn)錄本編碼能力量化建模與預(yù)測(cè)。目前,相關(guān)算法與教程已發(fā)布于https://github.com/gao-lab/RiboCalc/供相關(guān)領(lǐng)域海內(nèi)外研究人員使用,相關(guān)問題可郵件聯(lián)系ribocalc@mail.cbi.pku.edu.cn。
北京大學(xué)生命科學(xué)學(xué)院博士后亢雨箋為該論文的第一作者,高歌為通訊作者,北京大學(xué)李靜一、柯嵐、降帥、楊德昌和侯玫在模型測(cè)試和數(shù)據(jù)分析上提供了大力支持。本研究工作得到了北京未來基因診斷高精尖中心ICG、蛋白質(zhì)與植物基因研究國(guó)家重點(diǎn)實(shí)驗(yàn)室與國(guó)家重點(diǎn)研發(fā)計(jì)劃“精準(zhǔn)醫(yī)學(xué)專項(xiàng)”的大力支持,計(jì)算分析工作于北京大學(xué)高性能計(jì)算校級(jí)公共平臺(tái)和北京大學(xué)太平洋高性能計(jì)算平臺(tái)完成。
參考文獻(xiàn):
1.Ruiz-Orera J, Messeguer X, Subirana JA et al. Long non-coding RNAs as a source of new peptides, Elife 2014;3:e03523.
來源:北京大學(xué)


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。