里程碑式成果!華大基因聯合破譯超大鳳丹牡丹基因組遺傳密碼
近日,上海辰山植物園聯合華大基因在國際著名期刊Nature Communications上發(fā)表了題為“Genomic basis of the giga-chromosomes and giga-genome of tree peony Paeonia ostii”(鳳丹牡丹超大染色體及巨大基因組的遺傳機制)的牡丹基因組學最新研究成果。
該研究成功破解了鳳丹牡丹高質量染色體水平的基因組遺傳密碼及其超大染色體形成與維持的潛在分子機制。這是迄今世界上已經測序的陸地植物中最大染色體(1.78-2.56Gb),也是已測序雙子葉植物中最大基因組(12.28Gb)之一。
此研究成果不僅將牡丹科學研究帶入了真正的基因組時代,而且也開啟了牡丹分子育種及優(yōu)質特異基因鑒定和功能解析與產業(yè)利用的新紀元;是牡丹科學研究領域里程碑式的標志性成果,也是植物基因組學領域(巨大基因組和超大染色體研究)中最重要的突破性研究進展之一。
圖1 鳳丹牡丹超大染色體及巨大基因組特征圖
牡丹,被譽為花中之王,是中國特有的世界著名花卉之一,也是傳統中藥材和重要的新興油用資源作物,具有極高的經濟價值、文化價值和社會價值。在基因組科學飛速發(fā)展的當今,仍然缺少高質量的染色體水平牡丹基因組。
鳳丹牡丹,即鳳丹,又名楊山牡丹(Paeonia ostii),是中國最主要栽培牡丹(P. suffruticosa)的最重要祖先親本之一,可賞、可食、可油用、可藥用,也適用于多類高值產品開發(fā),是當前中國生產和栽培面積最大的牡丹類型。
與其它被子植物相比,牡丹(2n=10)具有千兆級的超級巨大的染色體(10-15μm)和非常大的基因組(>12Gb);由于過度開發(fā)利用(如野外采挖)以及其自身超大染色體和巨大基因組的影響,野生的鳳丹植株已經不見蹤跡。
牡丹花具有大量離心發(fā)育的雄蕊,目前,在兩千多栽培牡丹品種中,有上千個具有瓣化的雄蕊,雄蕊瓣化是牡丹花豐富多樣的最重要途徑之一,但這背后的機制依然是未知的。牡丹種子中含有大量的不飽和脂肪酸(>90%,如ALA),是人類自身不能夠產生而又不可或缺的基本脂肪酸;盡管大量已有研究表明在陸地植物(包括牡丹)中脂肪酸的合成代謝路徑十分保守,為什么牡丹中以ALA為代表的不飽和脂肪酸含量如此之高,至今依然不清楚。
牡丹基因組之復雜及破解難度之大,既在研究人員初始預料之中,但歷經十年艱辛探索的周期之長卻又極大的超出預料之外。這十年來,既是基因組科學及測序組裝技術飛速發(fā)展的十年,也是鳳丹基因組艱辛探索、逐步解析復雜謎團之旅。
對鳳丹牡丹基因組,研究團隊采用了逐級梯度建庫策略(150\300\500\800bp、2k\5k\10k\20k\40k文庫)及短讀長測序技術(2.97Gb),結合長讀長測序技術(PacBio平臺 643.76Gb)和精準染色體構象捕獲技術(Hi-C數據2.50Tb);在測序組裝分析過程中,研究團隊不斷進行適用于牡丹復雜基因組特點的技術創(chuàng)新,并及時借鑒學習基因組學領域眾多前沿技術,歷經數百次/種軟件測試、開發(fā)及應用分析和反復優(yōu)化組裝,曾先后形成過5個定型組裝版本和3次完整(人工輔助)注釋的擬發(fā)表版本。
本文最終發(fā)表鳳丹基因組成熟版本為12.28Gb(Contig N50=228Kb,Scaffold N50=2.43Mb),其中11.49Gb(約93.5%)成功組裝到5條超大染色體(1.78-2.56Gb),這也是迄今人類已經測序陸地植物中最大的染色體。此版本中共注釋基因73,177條,高置信基因集59,768條,有54,451條錨定在5條不同染色體上。
研究結果表明:在鳳丹基因組中,約有33,0511條假基因和15,238個基因家族,即據我們所知,牡丹基因組中假基因和基因家族的數量是迄今已經測序的植物中最多的物種。這些大量假基因的產生可能與LTR在基因組的大量擴增相關。
與其它具有巨大基因組的單子葉植物大多經歷了全基因組加倍事件相比,鳳丹基因組似乎沒有經歷過其譜系特定的全基因組復制;而在短時間內(約200萬年)其基因間區(qū)的逆轉錄轉座子(以Del為代表的LTR)爆炸性擴張是促成了其超大基因組和超大染色體的形成的可能機制。
通過對16種代表性植物基因組中LTR的重新注釋,本研究還提出了逆轉錄轉座子Del家族相對于其它LTR亞家族在牡丹基因組中大量擴增及產生的可能機制,與其結構域的完整性(酶活性)相關。
深入綜合分析牡丹全基因組甲基化簡化測序、組蛋白甲基化測序數據與LTR數據的結果表明,雖然牡丹擁有雙子葉被子植物(迄今已測序)中最大的基因組和超級巨大的染色體,但其大部分功能基因依然可以正常的表達和轉錄,其原因就是大量的LTR是插入在遠離功能區(qū)的基因間區(qū)。
圖2 鳳丹牡丹中大量LTR爆發(fā)式插入基因組基因間區(qū)產生了超大基因組/染色體
本研究采用被子植物12種代表性物種的系統進化分析結果,進一步明確了牡丹(芍藥科)的系統位置處于核心雙子葉植物基部的虎耳草目(Saxifragales),大約出現在109百萬年前。4DTV進化分析表明以鳳丹牡丹為代表的芍藥科植物與葡萄等核心真雙子葉植物可能共同經歷了其祖先130百萬年前的6倍化事件(γ)。
同時,祖先染色推斷與進化分析表明,牡丹基因組是通過祖先染色體(7條基數)至少經過4次斷裂和20次融合等一系列復雜進化事件后才形成的當前牡丹類群中的5條染色體基數。
研究表明:牡丹基因組中約有208個組蛋白編碼基因(H1、H2A、H2B、H3和H4),結合重新分析已發(fā)表的大量基因組數據,我們深入討論了牡丹超大染色體的形成和維持所涉及的可能因素。
本文中首次明確提出了牡丹這五種組蛋白編碼基因的擴張(特別是H2A.W和H3.1)可能有助于維持其超級巨大的千兆染色體的初步科學猜想,且組蛋白數目與維持植物較大染色體相關的這一機制也可能存在普遍性,進一步的深入研究和更直接的證據仍在持續(xù)進行之中。
圖3 鳳丹染色體進化形成與維持機制
同時,鳳丹牡丹及其它芍藥科植物還以其種子油而著稱,其中富含不飽和脂肪酸,例如α-亞麻酸(ALA)。研究團隊對448個種質進行了簡化基因組測序和全基因組關聯分析(GWAS),并結合了種子時序發(fā)育轉錄組等技術,研究揭示了牡丹種子高效積累不飽和脂肪酸的重要機制,即其雖然與大多數陸地植物同樣保守的脂肪酸生物合成途徑,但是在通路中的每個關鍵節(jié)點至少有一個高表達基因在行使功能,進而保障了牡丹ALA等的大量積累;本研究還進一步鑒定了(包括SAD和FAD2等)多個候選油脂合成基因,可能在其種子高水平的ALA合成中發(fā)揮重要作用。
本研究還系統解析了陸地植物中ALA合成關鍵環(huán)節(jié)(從亞油酸LA到α亞麻酸ALA)中FAD3和FAD7/8基因的進化歷史,首次揭示了其在被子植物早期發(fā)生過一次基因復制事件及其重要意義。
圖4 GWAS揭示的牡丹高ALA合成相關的候選基因(SAD和FAD2)
鳳丹牡丹(P. ostii)同時也是一種重要的觀賞植物,是栽培牡丹(P. suffruticosa)的重要祖先親本之一,本研究發(fā)現:花發(fā)育(器官身份決定基因)A類基因AP1的異位表達和C類基因AG在部分雄蕊中的表達減少可能有助于雄蕊瓣化的形成。同時,在栽培牡丹的長期栽培馴化過程中,決定花多樣性的多個花器官發(fā)育基因明顯受到人工選擇壓力。
本研究進一步提出了牡丹花型發(fā)育的多樣性模式假說,即在祖先親本牡丹(P. ostii)的“花發(fā)育ABCE經典模型”(Strict ABCE Model)和栽培牡丹(P. suffruticosa)中的“不嚴格的花發(fā)育邊界消退模型”(Unstrict ABCE Model),結合選擇分析結果,提出了牡丹花發(fā)育模式轉變的進化驅動力就是栽培牡丹千百年來的人工馴化過程。
這一研究發(fā)現,還進一步豐富了植物花發(fā)育研究的進化模式,即人工選擇可能會打破前人研究表明的種子植物中花發(fā)育器官基因渠道化的方向性進化模式。該結果不但挖掘了栽培牡丹花多樣性的多個候選基因,為進一步培育更優(yōu)質和更高觀賞價值牡丹提供了理論依據和基因資源。
圖5 牡丹花多樣性及雄蕊瓣化的分子機制


本文系作者 @華大集團 授權發(fā)布在 肽度TIMEDOO。未經許可,禁止轉載。