中國(guó)科學(xué)院北京基因組所開(kāi)發(fā)比較群體基因組學(xué)新算法
隨著基因組測(cè)序技術(shù)的發(fā)展,物種和群體水平基因組數(shù)據(jù)呈指數(shù)增長(zhǎng)。這些數(shù)據(jù)為從基因組水平鑒定和解析自然選擇機(jī)制提供了前所未有的機(jī)遇。但是,目前的分析方法面臨著一些技術(shù)瓶頸和挑戰(zhàn),其中一個(gè)關(guān)鍵問(wèn)題是如何高效準(zhǔn)確地檢測(cè)作用于非編碼區(qū)的自然選擇效應(yīng)。另一方面,能夠高效、高性能地分析多物種大樣本數(shù)據(jù)也成為方法學(xué)方面的迫切要求。
中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心)陳華團(tuán)隊(duì)在多物種聯(lián)合等位基因頻譜理論以及HKA(Hudson-Kreitman- Aguadé)檢驗(yàn)的框架上構(gòu)建了CEGA(Comparative Evolutionary Genomic Analysis)方法。CEGA整合微進(jìn)化過(guò)程與宏觀進(jìn)化過(guò)程模型,有效刻畫(huà)自然選擇和群體歷史在非編碼區(qū)形成的遺傳多態(tài)性“印記”,可高效、準(zhǔn)確地檢測(cè)作用于非編碼區(qū)上的正向選擇及平衡選擇信號(hào)。CEGA同時(shí)分析物種間的分歧位點(diǎn)和物種內(nèi)的多態(tài)位點(diǎn)信息,當(dāng)兩物種分化時(shí)間比較短時(shí),多態(tài)位點(diǎn)蘊(yùn)含的信息有助于準(zhǔn)確地推斷分化時(shí)間、有效群體大小等信息,從而有利于區(qū)分自然選擇效應(yīng)與群體歷史干擾,因此該方法在不同物種分化時(shí)間尺度上具有更廣泛的適用性。仿真分析表明,對(duì)于不同的選擇強(qiáng)度以及物種分化時(shí)間,CEGA檢測(cè)正選擇及平衡選擇的效果均優(yōu)于現(xiàn)有方法。尤其對(duì)于選擇強(qiáng)度較弱或者物種分化時(shí)間比較短的情景,CEGA的優(yōu)勢(shì)更為明顯。除了用于檢測(cè)自然選擇外,研究者往往希望提供對(duì)自然選擇發(fā)生過(guò)程的深入認(rèn)識(shí)。 鑒于此,CEGA還基于群體遺傳學(xué)模型提供了對(duì)自然選擇強(qiáng)度等關(guān)鍵參數(shù)的推斷。
研究團(tuán)隊(duì)將CEGA應(yīng)用于已發(fā)表9個(gè)現(xiàn)代人類(Homo sapiens)及9個(gè)黑猩猩(Pan troglodytes ellioti)的群體基因組數(shù)據(jù),進(jìn)行了編碼區(qū)、非編碼區(qū)兩個(gè)層面上的比較分析,鑒定了在人類基因組中受自然選擇作用而快速進(jìn)化基因,并發(fā)現(xiàn)這些基因的功能顯著富集在與大腦容量、大腦皮層的總面積以及大腦皮層的厚度等相關(guān)表型和分子通路。此外,在與免疫反應(yīng)和病原體抵抗相關(guān)的區(qū)域(如主要組織相容性復(fù)合體MHC)存在顯著的平衡選擇信號(hào)。以上仿真分析以及人與黑猩猩基因組真實(shí)數(shù)據(jù)分析的結(jié)果表明,CEGA是一種有效的算法工具,可用于大規(guī)模群體基因組測(cè)序數(shù)據(jù)的高效分析。
該成果以“CEGA: a method for inferring natural selection by comparative population genomic analysis across species”為題,于10月3日發(fā)表在Genome Biology期刊。中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心)陳華研究員為本文的通訊作者,中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心)特別研究助理(博士后)趙石磊和助理研究員池連江為本文的共同第一作者。該研究得到了國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、中國(guó)博士后科學(xué)基金等項(xiàng)目的資助。

? CEGA模型的參數(shù)及觀測(cè)數(shù)據(jù)
來(lái)源:中國(guó)科學(xué)院北京基因組所


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。