全球雞基因字典來了!華大智造工具助力全球首個(gè)10萬規(guī)模雞參考面板項(xiàng)目
“從AI大模型的角度來說,基因組也是一門語言,它本身就非常符合文本類型語言化的特征。因此,我們想用AI的深度學(xué)習(xí)與大語言模型的方法,把基因組作為一門語言來進(jìn)行深入的研究。把雞的基因組弄明白后,對我們理解人類和其他動物的疾病等現(xiàn)象都是有幫助的,這是我們?nèi)螂u基因字典這個(gè)項(xiàng)目希望實(shí)現(xiàn)的意義。”
——中國農(nóng)業(yè)大學(xué) 胡曉湘教授
填補(bǔ)空白?
全球首個(gè)10萬規(guī)模雞參考面板項(xiàng)目
在群體基因組研究中,構(gòu)建一個(gè)高質(zhì)量、代表性強(qiáng)的參考基因組面板(reference panel)是提升基因型填充精度的關(guān)鍵。牛和豬等經(jīng)濟(jì)動物已分別建立標(biāo)準(zhǔn)化參考資源,有效推動了數(shù)量性狀位點(diǎn)(QTL)解析和候選基因識別的進(jìn)展。相比之下,作為全球飼養(yǎng)量最大的家禽——雞,此前尚缺乏一套覆蓋廣泛、樣本充足、可支持多場景應(yīng)用的高質(zhì)量參考面板。
為填補(bǔ)這一空白,研究團(tuán)隊(duì)發(fā)起并構(gòu)建了全球首個(gè)10萬規(guī)模雞參考面板項(xiàng)目——100K GCRP(Global Chicken Reference Panel)。第一階段成果于2025年4月15日,在Genomics, Proteomics & Bioinformatics雜志在線發(fā)表,題為“GCRP: Integrated Global Chicken Reference Panel from 11,951 Chicken Genomes”?。該研究由中國農(nóng)業(yè)大學(xué)胡曉湘和王宇哲團(tuán)隊(duì)牽頭,聯(lián)合國內(nèi)外多個(gè)單位合作完成,第一階段成果構(gòu)建了全球首個(gè)雞類參考基因組資源庫,有望為雞種遺傳變異圖譜構(gòu)建、人工選擇研究和精準(zhǔn)育種提供基礎(chǔ)支撐。在此項(xiàng)研究中,華大智造DNBSEQ-T7基因測序平臺以及MGISP-960高通量自動化樣本制備系統(tǒng)、MGISTP-7000分杯處理系統(tǒng)為項(xiàng)目組提供了從樣本處理到基因測序的系統(tǒng)支持。畜禽全基因組選擇通常面臨著樣本量巨大、成本要求苛刻等問題,華大智造一站式解決平臺的業(yè)務(wù)模式恰好能夠解決這一難題,華大智造超高通量基因測序儀匹配自動化產(chǎn)線,一方面能夠在樣本處理和建庫通量上實(shí)現(xiàn)高通量、高效率、低成本,另一方面也大大降低了時(shí)間成本,進(jìn)一步匹配畜禽育種的產(chǎn)業(yè)需求。
第一階段成果發(fā)布
構(gòu)建全球首個(gè)雞類參考基因組資源庫
雞的馴化歷史可追溯至約8000年前,起源于分布在南亞和東南亞的原雞(Gallus gallus)。原雞不僅是首個(gè)完成全基因組測序的鳥類,也是最早被解碼的脊椎動物基因組之一。目前,公共變異數(shù)據(jù)庫(如 dbSNP v106)已收錄約2343萬個(gè)單核苷酸多態(tài)性位點(diǎn)(SNP)和240萬個(gè)短插入/缺失變異(InDel),為雞的基因組關(guān)聯(lián)分析(GWAS)和功能基因挖掘提供了重要基礎(chǔ)。
隨著低深度測序(LCS)技術(shù)的發(fā)展,研究者得以在控制成本的同時(shí)實(shí)現(xiàn)大規(guī)模樣本測序,彌補(bǔ)傳統(tǒng)SNP芯片信息覆蓋不足的局限,為基因組選擇與精細(xì)化變異定位提供了新可能。
第一階段成果采用低深度測序獲得了 10,104 份商品雞樣本,此外搜集了1847個(gè)高深度測序樣本,構(gòu)建了兩個(gè)高質(zhì)量子面板(CBP 與 CMP),系統(tǒng)評估了不同策略下的基因型填充性能,并在模擬與真實(shí)性狀中展示了其在 GWAS 和因果變異定位中的優(yōu)勢。該資源庫有望為雞種遺傳變異圖譜構(gòu)建、人工選擇研究和精準(zhǔn)育種提供基礎(chǔ)支撐。
圖示:全球10萬規(guī)模雞基因型參考面板GCRP
以下是研究成果的相關(guān)總結(jié):
01構(gòu)建全球首個(gè)雞類參考基因組資源庫
本研究構(gòu)建了全球首個(gè)雞類參考基因組資源庫,整合了來自全球多個(gè)品種/品系的11,951個(gè)雞基因組樣本,涵蓋全球主要商品雞與地方雞種群,識別了超過48M個(gè)SNP以及4.7M個(gè)InDel突變,其中新發(fā)現(xiàn)突變占比高達(dá)67.6%,顯著擴(kuò)展了現(xiàn)有變異數(shù)據(jù)庫的覆蓋范圍。
02?構(gòu)建兩個(gè)高質(zhì)量子面板
依據(jù)群體特征構(gòu)建了兩個(gè)高質(zhì)量子面板:CBP(Commercial Breed Panel):基于10,104只商品雞的低深度測序數(shù)據(jù);CMP(Comprehensive Mix Panel):基于1847個(gè)深度測序樣本,聚焦地方雞種與遺傳多樣性。兩者可分別支持商業(yè)育種與基礎(chǔ)研究應(yīng)用,提供靈活的參考選擇。
03?優(yōu)越的基因型填充性能
通過系統(tǒng)評估顯示:GCRP在8種典型場景下均表現(xiàn)出優(yōu)越的基因型填充性能,其中CMP面板在6種場景中表現(xiàn)最優(yōu),填充準(zhǔn)確性顯著高于現(xiàn)有發(fā)布的雞參考面板資源(如AGIDB和 SNPAtlas等)。
04?GCRP填充數(shù)據(jù)有效提升了統(tǒng)計(jì)效能
在模擬和真實(shí)性狀的GWAS 分析中,GCRP填充數(shù)據(jù)有效提升了統(tǒng)計(jì)效能:檢測到的關(guān)聯(lián)信號更集中,顯著位點(diǎn)更靠近已知功能區(qū)域或候選基因,支持更高精度的因果變異定位。
05構(gòu)建并上線了開放共享的 GCRP 數(shù)據(jù)平臺
構(gòu)建并上線了開放共享的 GCRP 數(shù)據(jù)平臺,集成變異瀏覽、在線填充和文件下載三大模塊,支持全球研究者開展多樣化的雞類基因組分析任務(wù),并為后續(xù)多組學(xué)整合分析的基因組面板奠定基礎(chǔ)。
數(shù)據(jù)庫鏈接:http://farmrefpanel.com/GCRP
中國農(nóng)業(yè)大學(xué)胡曉湘教授表示,最初應(yīng)用低深度重測序技術(shù)時(shí)采用了進(jìn)口測序平臺,但經(jīng)過測序?qū)崪y數(shù)據(jù)的對比,華大智造測序儀的數(shù)據(jù)準(zhǔn)確性和數(shù)據(jù)質(zhì)量與進(jìn)口儀器相當(dāng),并且華大智造測序儀的Duplication rate(重復(fù)序列率)明顯低于進(jìn)口平臺,這將有助于得到更多的有效數(shù)據(jù)用于后續(xù)分析。
不僅如此,華大智造測序平臺以更低成本能夠釋放更多測序潛力,成本與效率的“雙突破”成為其在2018年切換為華大智造測序平臺的重要初衷。大設(shè)施遺傳系統(tǒng)已經(jīng)形成了應(yīng)用低深度重測序技術(shù)年處理100萬樣本的規(guī)模。華大智造不僅提供測序儀器,還提供一系列自動化設(shè)備配套,實(shí)現(xiàn)從提取建庫到測序的全產(chǎn)業(yè)鏈閉環(huán)的生態(tài)系統(tǒng)。未來,還將依托于華大智造測序平臺將這一技術(shù)推廣到主要的豬雞等經(jīng)濟(jì)動物家禽的育種企業(yè)。
此前,中國農(nóng)業(yè)大學(xué)國家模式動物科學(xué)中心于去年10月與華大智造達(dá)成戰(zhàn)略合作,共建國家模式動物科學(xué)中心DCS Lab,入駐包括華大智造高通量基因測序儀DNBSEQ-T7、全自動MGISTP-7000分杯處理系統(tǒng)、高通量自動化樣本制備系統(tǒng)MGISP-960、全自動核酸提取純化儀MGISP-NE384等多個(gè)平臺及設(shè)備,搭建從提取建庫到測序的完善系統(tǒng)平臺,為豬模型在異種器官移植、人類疾病模型和生物育種等領(lǐng)域發(fā)展持續(xù)貢獻(xiàn)力量。
雞是目前世界上數(shù)量最多的鳥類,也是全球飼養(yǎng)量最大的家禽?;谥袊r(nóng)業(yè)大學(xué)在模式動物表型與遺傳研究領(lǐng)域擁有的學(xué)術(shù)積累和基礎(chǔ)設(shè)施,胡曉湘教授主導(dǎo)的全球雞基因字典項(xiàng)目工作徐徐展開,將基于華大智造DNBSEQ-T7及T1+建立高通量測序技術(shù)平臺,執(zhí)行百萬級樣本的重測序任務(wù),為商業(yè)化肉雞群體的遺傳選育、GWAS研究提供重要科研支撐。
中國農(nóng)業(yè)大學(xué)王宇哲博士為本文的通訊作者,胡曉湘教授為本文最后作者。博士生朱迪以及博士后王宇占為本文的共同第一作者。中國農(nóng)業(yè)大學(xué)趙毅強(qiáng),廣東省農(nóng)科院動物科學(xué)研究所舒鼎銘、瞿浩,東北農(nóng)業(yè)大學(xué)李輝、張慧,南京農(nóng)業(yè)大學(xué)馮春剛,華中農(nóng)業(yè)大學(xué)盛哲雅,山東農(nóng)業(yè)大學(xué)姜運(yùn)良,溫氏南方家禽育種公司徐振強(qiáng)、張德祥、姜自琴,石家莊畜牧技術(shù)推廣站褚素喬,奧胡斯大學(xué)房靈昭為本文共同作者。本研究得到了國家自然科學(xué)基金 (32272862)、國家重點(diǎn)研發(fā)計(jì)劃(2021YFD1300100)以及中國農(nóng)業(yè)大學(xué)“2115人才發(fā)展計(jì)劃”的資助支持。
編輯:李麗


本文系作者 @華大集團(tuán) 授權(quán)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。