作為細(xì)胞中基本的功能單位,蛋白編碼基因(Protein-coding genes,以下簡稱基因)可以通過轉(zhuǎn)錄-翻譯過程指導(dǎo)合成對于生命活動至關(guān)重要的蛋白質(zhì),進(jìn)而影響生命體的生理/病理性狀。因此,基因的演化與生物體的表型演化息息相關(guān),是介導(dǎo)物種特異性表型及其環(huán)境適應(yīng)的重要動力之一。在演化過程中生物體可以獲得新的基因來執(zhí)行新的功能;因此,自上世紀(jì)后期至今,新基因(Gene Birth)已成為相關(guān)領(lǐng)域的研究熱點。另一方面,萬物皆有生有滅,與不斷涌現(xiàn)的新基因相對,現(xiàn)有的蛋白編碼基因也可能因突變等失去原有的功能并進(jìn)而從基因組中丟失。然而,受限于可用數(shù)據(jù)等多方面因素,對基因丟失(Gene Loss)及其影響長期以來尚缺乏系統(tǒng)研究。

近日,北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、北京未來基因診斷高精尖創(chuàng)新中心(ICG)、北京大學(xué)生命科學(xué)學(xué)院生物信息中心(CBI)、蛋白質(zhì)與植物基因研究國家重點實驗室高歌課題組在期刊Molecular Biology and Evolution上發(fā)表了題為“Genome-wide identification of gene loss events suggests loss relics as a potential source of functional lncRNAs in humans”的生物信息學(xué)論文,在前期工作基礎(chǔ)上提出了新的基因丟失鑒定方法LOST&FOUND,并基于該方法對人類中的基因丟失及其影響進(jìn)行了系統(tǒng)解析。

為精準(zhǔn)鑒定基因丟失事件,高歌團(tuán)隊提出了新的基因丟失鑒定方法LOST&FOUND。LOST&FOUND的具體處理流程如圖1所示。LOST&FOUND結(jié)合了全基因組比對以及多物種中的直系同源基因數(shù)據(jù),并運(yùn)用最大簡約法等處理方法來對基因丟失進(jìn)行鑒定識別。基于多物種直系同源基因關(guān)系的推斷可使LOST&FOUND避免將參考物種中的基因獲得事件錯誤識別為待研究物種中的基因丟失事件。而全基因組比對的使用則可充分考慮基因及其上下游區(qū)段的同源性,有利于LOST&FOUND識別由大片段刪除等方式造成的基因丟失事件。

北京大學(xué)高歌課題組提出基因丟失鑒定新方法-肽度TIMEDOO

圖1

基于該方法,團(tuán)隊在人類基因組中共鑒定到155個基因丟失事件。其中,有88個基因丟失事件在人類基因組內(nèi)含有同源區(qū)段殘?。╮elics)。有趣的是,通過將基因丟失殘骸與長非編碼RNA區(qū)段進(jìn)行比較,團(tuán)隊發(fā)現(xiàn),在人類基因組中,有33個基因丟失事件的發(fā)生與長非編碼RNA的起源相關(guān),并將該部分通過基因丟失起源的長非編碼RNA命名為derived lncRNA(圖2 A-B)。

北京大學(xué)高歌課題組提出基因丟失鑒定新方法-肽度TIMEDOO

圖2

綜合多方面的注釋,團(tuán)隊發(fā)現(xiàn),derived lncRNA與其它長非編碼RNA不同,其往往有著更高的表達(dá)量、更低的組織表達(dá)特異性、更長的轉(zhuǎn)錄本結(jié)構(gòu)以及更強(qiáng)的序列保守性(圖3 A-F)。基于GWAS、共表達(dá)、已有實驗檢索等功能性分析的結(jié)果則表明,這部分derived lncRNA與生長發(fā)育、免疫、生殖以及抑癌作用等過程的調(diào)控均有關(guān)系。同時,超過一半的derived lncRNA均受到了正選擇的作用。

北京大學(xué)高歌課題組提出基因丟失鑒定新方法-肽度TIMEDOO

圖3

高歌團(tuán)隊開發(fā)了新的基因丟失鑒定方法并通過該方法系統(tǒng)性研究了人類基因組中基因丟失的發(fā)生與影響。值得注意的是,高歌團(tuán)隊在人類基因組中發(fā)現(xiàn)了33個基因丟失事件與長非編碼RNA的起源相關(guān),且這部分長非編碼RNA可能具有重要功能。結(jié)合前期已發(fā)表工作1-3,這些結(jié)果提示在多個物種中,演化過程中古老的蛋白編碼基因有可能“再生”為新的長非編碼RNA來發(fā)揮作用,在基因生-死、編碼-非編碼等看似對立的概念之間建立起了有趣的聯(lián)系。

高歌的博士生溫正揚(yáng)為該論文第一作者,高歌為該論文通訊作者。該研究得到了蛋白質(zhì)與植物基因研究國家重點實驗室、北京未來基因診斷高精尖創(chuàng)新中心等的資助。計算分析工作于北京大學(xué)高性能計算校級公共平臺和北京大學(xué)太平洋高性能計算平臺完成。

參考文獻(xiàn):

1 Duret, L., Chureau, C., Samain, S., Weissenbach, J. & Avner, P. The Xist RNA gene evolved in eutherians by pseudogenization of a protein-coding gene. Science312, 1653-1655 (2006).

2 Zhao, Y. et al. Identification and analysis of unitary loss of long-established protein-coding genes in Poaceae shows evidences for biased gene loss and putatively functional transcription of relics. BMC Evol Biol15, 66 (2015).

3 Hezroni, H. et al. A subset of conserved mammalian long non-coding RNAs are fossils of ancestral protein-coding genes. Genome Biol.18, 162 (2017).

來源:北京大學(xué)