北京大學(xué)生命科學(xué)學(xué)院張蔚課題組和合作者開發(fā)基于深度學(xué)習(xí)的基因漸滲推斷方法
解決分類群之間的演化關(guān)系是演化生物學(xué)的基本任務(wù)之一。在大數(shù)據(jù)時(shí)代,隨著測(cè)序技術(shù)和分析方法的發(fā)展,多項(xiàng)研究發(fā)現(xiàn)類群之間的雜交和基因漸滲可能強(qiáng)烈地影響了生命之樹,并在物種形成和適應(yīng)過(guò)程中起到重要作用。然而,現(xiàn)有基因漸滲檢測(cè)方法仍具有一定局限性,如依賴大樣本量、受限的系統(tǒng)發(fā)育關(guān)系或精確的種群演化歷史等。因此,在基因流廣泛存在的背景下,評(píng)估物種之間的復(fù)雜關(guān)系仍具挑戰(zhàn)。同時(shí),基于深度學(xué)習(xí)的算法已迅速成為處理統(tǒng)計(jì)應(yīng)用的有效替代方法,特別是與大數(shù)據(jù)集有關(guān)的應(yīng)用。目前已有涉及基因漸滲推斷的基于深度學(xué)習(xí)的相關(guān)方法的應(yīng)用報(bào)道,但多是針對(duì)具體分類群的初步嘗試,其一般適用性和可推廣性受到限制。
6月1日,北京大學(xué)生命科學(xué)學(xué)院、蛋白質(zhì)與植物基因研究國(guó)家重點(diǎn)實(shí)驗(yàn)室、北大-清華生命科學(xué)聯(lián)合中心張蔚研究員課題組在Systematic Biology雜志在線發(fā)表題為“Inferring historical introgression with deep learning”的研究論文,提出一種基于深度學(xué)習(xí)算法檢測(cè)基因漸滲的方法ERICA。該方法基于基因組序列信息,通過(guò)識(shí)別拓?fù)浣Y(jié)構(gòu)不一致鑒定基因組內(nèi)的漸滲區(qū)域。該方法能夠有效地在模擬數(shù)據(jù)和多種動(dòng)植物分類群的真實(shí)基因組數(shù)據(jù)中檢測(cè)漸滲信號(hào),為利用基因組數(shù)據(jù)評(píng)估類群之間的演化關(guān)系提供了一種具有一般適用性的新方法,有助于推動(dòng)雜交和基因漸滲相關(guān)的演化研究。
研究構(gòu)建了處理序列比對(duì)數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)模型,以定量評(píng)估類群之間的演化關(guān)系,并通過(guò)識(shí)別特定基因流對(duì)應(yīng)的拓?fù)浣Y(jié)構(gòu)推斷漸滲區(qū)域(圖1)。研究首先利用模擬數(shù)據(jù)集對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和評(píng)估,并與其他廣泛使用的基因漸滲檢測(cè)方法進(jìn)行對(duì)比。評(píng)估結(jié)果顯示,神經(jīng)網(wǎng)絡(luò)模型能夠有效地檢測(cè)漸滲特別是適應(yīng)性漸滲信號(hào),且具有較好的泛化能力(圖2)。
圖1 ERICA方法設(shè)計(jì)原則和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
圖2 ERICA方法準(zhǔn)確率評(píng)估
此外,研究者使用ERICA方法分析了適應(yīng)性輻射類群袖蝶屬(Heliconius)的群體基因組數(shù)據(jù),并鑒定獲得了已知的翅圖案模式相關(guān)漸滲位點(diǎn),表明ERICA方法能夠在真實(shí)數(shù)據(jù)中檢測(cè)到適應(yīng)性漸滲信號(hào),且具有較傳統(tǒng)方法更小的隨機(jī)誤差。
研究者展示了ERICA方法的一個(gè)應(yīng)用實(shí)例,通過(guò)將該方法應(yīng)用于稻屬(Oryza)基因組比對(duì)及泛基因組數(shù)據(jù)分析,獲得了粳稻和秈稻之間以及從野生稻(O. rufipogon)到秈稻的漸滲位點(diǎn),其中包括多個(gè)與水稻馴化性狀相關(guān)的受選擇區(qū)域,支持基因流在秈稻馴化過(guò)程中起到重要作用(圖3)。研究發(fā)現(xiàn),秈稻和野生稻(O. nivara)與熱帶粳稻之間存在基因流,且漸滲基因可能與熱帶粳稻對(duì)熱帶環(huán)境的適應(yīng)與抗逆性有關(guān)。
圖3 稻屬物種基因組漸滲模式
綜上所述,該研究開發(fā)了一種新的基因漸滲檢測(cè)方法,其能夠高效處理基因組序列數(shù)據(jù),準(zhǔn)確推斷局部的漸滲信號(hào),有助于深入理解類群之間的復(fù)雜演化歷史,以及基因漸滲在物種適應(yīng)中發(fā)揮的作用。值得一提的是,為滿足研究人員的廣泛要求,該方法包括一個(gè)在線提交門戶和一個(gè)本地版本的工具包。因此,該研究不僅提供了一種先進(jìn)的基因漸滲研究方法,并且給出了完整的研究解決方案,展示了其解決多個(gè)系統(tǒng)中實(shí)際問(wèn)題的能力。
張蔚和北京腦科學(xué)與類腦研究中心張力研究員為本文共同通訊作者;北大-清華生命科學(xué)聯(lián)合中心博士生張宇博、北京腦科學(xué)與類腦研究中心工程師朱慶杰為本文共同第一作者;北京腦科學(xué)與類腦研究中心工程師邵毅、北大-清華生命科學(xué)聯(lián)合中心博士生姜焱晨和華中農(nóng)業(yè)大學(xué)生命科學(xué)技術(shù)學(xué)院歐陽(yáng)亦聃教授對(duì)本研究作出重要貢獻(xiàn)。該項(xiàng)目得到國(guó)家自然科學(xué)基金、北京市自然科學(xué)基金、北大-清華生命科學(xué)聯(lián)合中心、蛋白質(zhì)與植物基因研究國(guó)家重點(diǎn)實(shí)驗(yàn)室等資助。
來(lái)源:北京大學(xué)


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。