長鏈非編碼RNA編碼多肽的系統(tǒng)挖掘和鑒定研究取得進展
6月13日,Molecular & Cellular Proteomics在線發(fā)表了中國科學(xué)院生物物理研究所研究員楊福全團隊和中科院院士陳潤生團隊,關(guān)于長鏈非編碼RNA(lncRNA)編碼多肽的系統(tǒng)挖掘和鑒定的研究論文Deeply Mining a Universe of Peptides Encoded by Long Noncoding RNAs。
lncRNAs被認為是一類長度大于200個堿基且不編碼蛋白的非編碼RNAs轉(zhuǎn)錄本。然而,研究表明,較多l(xiāng)ncRNAs轉(zhuǎn)錄本中的小開放閱讀框(small open reading frame,smORFs)可以編碼多肽(smORF encoded polypeptides,SEPs),后者可廣泛參與肌肉形成、粘膜免疫、RNA脫帽及腫瘤增殖等生物學(xué)過程。考慮到lncRNAs轉(zhuǎn)錄本及其smORFs的龐大數(shù)量,SEPs或代表著一個被忽視且待開發(fā)的富含蛋白質(zhì)活性調(diào)節(jié)因子的寶庫。因此,大規(guī)模地發(fā)現(xiàn)和鑒定SEPs并系統(tǒng)探索它的功能及其在生物進化中的作用,可為揭示由非編碼RNA介導(dǎo)的遺傳信息傳遞方式和表達調(diào)控網(wǎng)絡(luò)的研究,以及從一個不同于蛋白質(zhì)編碼基因的角度為基因組的結(jié)構(gòu)與功能注釋提供新的突破口。
SEPs的規(guī)模性發(fā)現(xiàn)和鑒定仍面臨挑戰(zhàn):lncRNA在物種間的保守性相對較差,且具有組織特異性與時空特異性,使得lncRNA編碼多肽的組織和時空表達具有很強的動態(tài)性;目前發(fā)現(xiàn)和鑒定的SEPs數(shù)目相對有限,較難對lncRNA編碼多肽的生物特征,例如序列信息、保守性、化學(xué)性質(zhì)(如RNA和多肽的穩(wěn)定性)、結(jié)構(gòu)特征、基因組位置信息和轉(zhuǎn)錄本自身結(jié)構(gòu)等,開展系統(tǒng)分析和挖掘,導(dǎo)致基于生物信息學(xué)的SEPs發(fā)現(xiàn)和鑒定及功能研究仍具挑戰(zhàn);SEPs的翻譯與調(diào)控機制尚不清楚,有研究報道SEPs的翻譯并不完全遵循AUG起始的規(guī)則,而是存在以非AUG為起始的翻譯,表明SEPs可能存在一些特有的翻譯及其調(diào)控機制;lncRNA編碼多肽的高靈敏度、高通量發(fā)現(xiàn)與鑒定能力有待提高。
針對以上局限和挑戰(zhàn),楊福全課題組和陳潤生課題組合作,通過對NONCODE數(shù)據(jù)庫中人和小鼠的lncRNA轉(zhuǎn)錄本中的smORF進行系統(tǒng)挖掘,分別構(gòu)建出含有397萬和871萬條目的人和小鼠潛在SEP理論數(shù)據(jù)庫,并系統(tǒng)整合了基于分子量截留膜過濾和固相萃取的多肽富集策略,建立了基于生物質(zhì)譜的高靈敏、高通量lncRNA編碼多肽的發(fā)現(xiàn)與鑒定技術(shù)平臺。
研究人員利用該技術(shù)平臺,取得如下成果:(1)在8種人源腫瘤細胞系、3種鼠源細胞系和8種健康小鼠組織中,發(fā)現(xiàn)和鑒定了762個具有高可信度的SEP,是目前已知的鑒定數(shù)目最多的基于生物質(zhì)譜技術(shù)的SEP數(shù)據(jù)集;(2)研究顯示,部分SEP在多種細胞系或組織中均有表達,而多數(shù)SEP只在某類或某種細胞系和組織中鑒定到,具有細胞或組織特異性分布;(3)編碼SEP的人源lncRNA轉(zhuǎn)錄本主要來源于基因間lncRNA(48.6%),18.6%和17.7%分別來源于外顯子lncRNA和反義lncRNA,少部分來源于正義非外顯子lncRNA(15.1%);(4)起始密碼子統(tǒng)計結(jié)果顯示,僅有28%的人源lncRNA編碼多肽的起始密碼子為AUG,而 67%的人源SPEs的起始密碼子為non-AUG。以上研究成果將為SEPs翻譯與調(diào)控機制的研究提供了一定的數(shù)據(jù)基礎(chǔ),并為基因組中非編碼RNA及其基因的系統(tǒng)發(fā)現(xiàn)和功能鑒定提供數(shù)據(jù)和理論支持。
生物物理所博士研究生張青、吳爾重,碩士研究生唐以恒為論文共同第一作者,楊福全、陳潤生,副研究員蔡潭溪、研究員駱健俊為論文共同通訊作者。研究工作得到國家自然科學(xué)基金重大研究計劃項目“基因信息傳遞過程中非編碼RNA的調(diào)控作用機制”培育項目、國家重點研發(fā)計劃等的資助。
基于生物質(zhì)譜的lncRNA編碼多肽(SEPs)的系統(tǒng)發(fā)現(xiàn)和鑒定
來源: 生物物理研究所

