研究表示,當(dāng)基因個(gè)體來(lái)自代表性不足的中國(guó)少數(shù)民族群體時(shí),我們會(huì)新發(fā)現(xiàn)一些基因序列,并找到一些缺失序列,這意味著我們或許會(huì)找到揭示人類(lèi)進(jìn)化的新線(xiàn)索,同時(shí)了解復(fù)雜疾病中的遺傳因素。

6月14日,中國(guó)泛基因組聯(lián)盟(Chinese Pangenome Consortium,CPC)發(fā)表了中國(guó)36個(gè)民族的泛基因組參考圖譜——CPC序列。這項(xiàng)研究初步構(gòu)建了我國(guó)人群的泛基因組參考圖譜,揭示了中國(guó)人的基因組中隱藏著此前從未揭示過(guò)的基因序列。相關(guān)論文《A pangenome reference of 36 Chinese populations》已在《自然》(Nature)雜志發(fā)表,這也是中國(guó)學(xué)者領(lǐng)導(dǎo)的人群基因組研究首次登上《自然》。

相較于來(lái)自單一個(gè)體的基因組,泛基因組參考圖譜范圍更廣泛,包含了一個(gè)物種或群體中所有基因組的全集。此次的CPC序列結(jié)合了來(lái)自中國(guó)36個(gè)少數(shù)民族的58例樣本,證實(shí)了高質(zhì)量的群體特異性基因組在遺傳和醫(yī)學(xué)應(yīng)用中的必要性,幫助我們更全面地理解東亞人群,尤其是中國(guó)人群的基因組變異。

《自然》刊發(fā)中國(guó)36個(gè)民族泛基因組參考圖譜,助解復(fù)雜疾病遺傳因素-肽度TIMEDOO

中國(guó)泛基因組聯(lián)盟發(fā)表中國(guó)36個(gè)民族的泛基因組參考圖譜——CPC序列。圖片來(lái)源:《自然》研究人員表示:“人類(lèi)基因組學(xué)正在經(jīng)歷一個(gè)重要的轉(zhuǎn)變——從過(guò)去單一的參考序列發(fā)展為更加全面的泛基因組形式。眾所周知,在基因組研究中需要提高不同祖先背景的代表性,但與歐洲人相比,在亞洲人中進(jìn)行的基因組研究數(shù)量還是較少,這也是為什么在種族群體間,基因組變異存在著相當(dāng)大的差異。”據(jù)悉,中國(guó)泛基因組聯(lián)盟(CPC)由復(fù)旦大學(xué)徐書(shū)華教授和西安交通大學(xué)葉凱教授聯(lián)合國(guó)內(nèi)26家單位發(fā)起。在第一期研究計(jì)劃中,CPC對(duì)代表中國(guó)36個(gè)族群的58個(gè)樣本采用最新的基因組測(cè)序技術(shù)進(jìn)行了深度測(cè)序,結(jié)合最新的單倍型基因組組裝方法,獲取了116個(gè)高質(zhì)量單倍型基因組,并以圖基因組的方式構(gòu)建了高質(zhì)量中國(guó)人群參考泛基因組。

此次的CPC序列確定了1590萬(wàn)個(gè)基因小變異和78072個(gè)基因結(jié)構(gòu)變異,其中590萬(wàn)個(gè)小變異和34223個(gè)結(jié)構(gòu)變異未在最近發(fā)布的pangenome(一種新興的基因組分析模式)文獻(xiàn)中報(bào)道。約500萬(wàn)個(gè)堿基對(duì)新序列存在于95%以上的單倍型中,被視為中國(guó)人群基因組核心序列,并被認(rèn)為可能與中國(guó)人群特有的生物學(xué)功能或表型特征相關(guān)。

研究表示,當(dāng)基因個(gè)體來(lái)自代表性不足的中國(guó)少數(shù)民族群體時(shí),我們會(huì)新發(fā)現(xiàn)一些基因序列,并找到一些缺失序列。缺失的參考序列中富含古代遺傳的等位基因(一對(duì)染色體上相同位點(diǎn)的兩個(gè)基因)和基因,這些序列變異與角化(指細(xì)胞在特定條件下發(fā)生變化,從而使其形態(tài)和功能發(fā)生改變)、紫外線(xiàn)輻射反應(yīng)、DNA修復(fù)、免疫反應(yīng)等有關(guān),這意味著我們或許會(huì)找到揭示人類(lèi)進(jìn)化的新線(xiàn)索,同時(shí)了解復(fù)雜疾病中的遺傳因素。

研究人員表示,在基因組序列比對(duì)中,使用特定種群的參考可以提高比對(duì)質(zhì)量?!拔覀兊腃PC序列無(wú)疑提供了對(duì)亞洲人群,特別是中國(guó)人基因組變異的更全面的了解。” 在連續(xù)性和基本水平精度方面,CPC序列與當(dāng)前的人類(lèi)參考基因組版本——GRCh38旗鼓相當(dāng),甚至更勝一籌。與人類(lèi)泛基因組參考聯(lián)盟(Human Pangenome Reference Consortium,HPRC)的圖譜相比,CPC參考圖譜提高了東亞樣本短讀長(zhǎng)的完美比對(duì)率(在短基因序列長(zhǎng)度的情況下,CPC的比對(duì)效果相似性更高)。

“在本次研究中,我們還找到了3629個(gè)受CPC特異性(只在CPC序列中表達(dá))古代基因滲透段(現(xiàn)代人類(lèi)基因組中滲入的古代DNA片段)影響的基因,其中1211個(gè)具有潛在功能性影響。這些基因在外源糖醛酸化(脂溶性物質(zhì)反應(yīng))、類(lèi)黃酮(維生素P)代謝過(guò)程,以及抗壞血酸和醛酸(肝臟用來(lái)解毒的重要物質(zhì))代謝過(guò)程中發(fā)揮著作用。它們同時(shí)還與多種疾病相關(guān),例如結(jié)直腸癌、乳腺癌、神經(jīng)系統(tǒng)疾病等?!?/span>

此外,該研究確定了相當(dāng)大比例的古代起源序列,其中還有一些此前未被HPRC數(shù)據(jù)充分覆蓋的古代序列,研究人員強(qiáng)調(diào):人類(lèi)泛基因組參考聯(lián)盟的下一步工作中有必要包含更多不同的亞洲血統(tǒng)樣本。

不過(guò),研究也指出,當(dāng)前評(píng)估工具仍存在局限性,例如,在測(cè)序過(guò)程出現(xiàn)裝配錯(cuò)誤的情況下,評(píng)估軟件無(wú)法確定正確的裝配。此外,雖然長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)已經(jīng)迅速發(fā)展,但由于成本問(wèn)題,短讀長(zhǎng)測(cè)序依然是基因組學(xué)研究的主要手段。而目前,由美國(guó)加州大學(xué)圣克魯斯基因研究所(University of California Santa Cruz Genomics Institute)的Benedict Paten研究團(tuán)隊(duì)開(kāi)發(fā)的短讀長(zhǎng)測(cè)序映射工具Giraffe,在處理局部復(fù)雜的基因區(qū)域時(shí)還存在一些問(wèn)題。隨著泛基因組圖譜的簡(jiǎn)化,完美匹配(覆蓋圖譜每個(gè)頂點(diǎn)的匹配)的讀長(zhǎng)比例持續(xù)下降,這表明基因組圖譜的多樣性也在減少。在將短讀長(zhǎng)測(cè)序映射到泛基因組上時(shí),如何實(shí)現(xiàn)高效且準(zhǔn)確的映射仍然是一個(gè)亟待解決的問(wèn)題。

“我們的計(jì)劃是生成500個(gè)個(gè)體的單倍型序列,這些序列將具有高質(zhì)量、分階段和染色體水平的特征,覆蓋56個(gè)官方承認(rèn)的民族,以及一些以前工作從未很好覆蓋的未識(shí)別民族,例如夏爾巴人(Sherpa)、刀郎人(Dolan)、克里雅人(Keriyan)、僜人(Deng)和羅布人( Lop Nur)。此外,我們還在進(jìn)一步對(duì)CPC基因組中的功能元件(如基因、調(diào)控元件和轉(zhuǎn)錄異構(gòu)體)進(jìn)行全面注釋。”研究人員說(shuō),“我們期待中國(guó)泛基因組聯(lián)盟作為全球人類(lèi)基因組學(xué)力量的重要組成部分,為構(gòu)建高質(zhì)量的泛基因組參考文獻(xiàn),并將其應(yīng)用于各種基礎(chǔ)和臨床研究項(xiàng)目做出巨大貢獻(xiàn)。”

據(jù)悉,此項(xiàng)研究由復(fù)旦大學(xué)、西安交通大學(xué)、中國(guó)醫(yī)學(xué)科學(xué)院等26家單位聯(lián)合完成。復(fù)旦大學(xué)徐書(shū)華教授、西安交通大學(xué)葉凱教授、中國(guó)醫(yī)學(xué)科學(xué)院褚嘉祐教授和復(fù)旦大學(xué)陸艷副教授為論文的共同通訊作者。

來(lái)源:澎湃新聞