Nucleic Acids Research | 湯富酬課題組實(shí)現(xiàn)基于單細(xì)胞測(cè)序數(shù)據(jù)的人類基因組從頭組裝
隨著三代測(cè)序技術(shù)(TGS,也即單分子測(cè)序技術(shù))的發(fā)展,基于大量細(xì)胞的三代基因組測(cè)序數(shù)據(jù)被廣泛應(yīng)用于各種復(fù)雜大型基因組的組裝,由于其讀長(zhǎng)相比于二代測(cè)序(NGS)技術(shù)有數(shù)百倍的增加,因此基因組中重復(fù)序列區(qū)域以及染色體重排等復(fù)雜結(jié)構(gòu)變異區(qū)域都能被更好地組裝出來(lái)。
對(duì)于人類基因組的組裝研究,端粒到端粒(T2T)聯(lián)盟在2022年3月,使用純合二倍體細(xì)胞系CHM13率先發(fā)布了首個(gè)完整的端粒到端粒的人類基因組參考序列CHM13v1.1。2022年3月,人類泛基因組聯(lián)盟(HPRC)在預(yù)印本平臺(tái)bioRxiv上發(fā)布了首個(gè)高質(zhì)量人類雜合二倍體細(xì)胞系HG002的單倍型組裝結(jié)果。
目前,高質(zhì)量的基因組組裝通常依賴于大量細(xì)胞混合樣本的三代測(cè)序數(shù)據(jù),需要大量的基因組DNA(通常需要從數(shù)百萬(wàn)個(gè)細(xì)胞中提取幾十微克基因組DNA),然而在基因組組裝的實(shí)際應(yīng)用中常常要面對(duì)兩個(gè)困難:
1、細(xì)胞群體中存在遺傳異質(zhì)性?;诖罅考?xì)胞三代測(cè)序數(shù)據(jù)的基因組組裝需要確保測(cè)序的樣本中每個(gè)細(xì)胞的遺傳背景高度一致,否則組裝結(jié)果將很難區(qū)分同一個(gè)細(xì)胞內(nèi)的不同單倍型基因組之間的差異和不同細(xì)胞亞群之間的基因組差異。只有降低或者消除細(xì)胞間的遺傳異質(zhì)性才能確保單倍型組裝的準(zhǔn)確性。但是,在人體正常組織樣本中也常常廣泛存在體細(xì)胞拷貝數(shù)變異(CNA)。與此同時(shí),正常的人類細(xì)胞也會(huì)不斷積累突變,同一塊人體組織常常是由很多包含不同突變的細(xì)胞克隆組成。在癌癥研究中,同一個(gè)腫瘤樣本中不同癌細(xì)胞亞克隆之間的基因組異質(zhì)性就更為明顯。
2、細(xì)胞數(shù)量稀少。在很多情況下,很難獲取上百萬(wàn)個(gè)細(xì)胞以提取大量(幾微克)基因組DNA。例如,在早期胚胎發(fā)育研究、司法檢驗(yàn)、特別是在癌癥基因組研究中(如循環(huán)腫瘤細(xì)胞、腫瘤活檢樣本、腦脊液中的腫瘤細(xì)胞、以及腹水中的腫瘤細(xì)胞等),能夠獲取的細(xì)胞數(shù)量常常很稀少,而且這些細(xì)胞很難在體外培養(yǎng)和擴(kuò)增;即使偶爾可以培養(yǎng)擴(kuò)增,也不能保證在體外培養(yǎng)擴(kuò)增過(guò)程中其基因組不會(huì)進(jìn)一步產(chǎn)生新的遺傳變異。
基于二代測(cè)序(NGS)平臺(tái)的單細(xì)胞基因測(cè)序技術(shù)被廣泛應(yīng)用于微生物等簡(jiǎn)單小型基因組的組裝。許多種類的細(xì)菌無(wú)法在實(shí)驗(yàn)室中培養(yǎng),單細(xì)胞基因組測(cè)序可以與宏基因組學(xué)方法結(jié)合起來(lái)完成微生物的基因組組裝。由于人類基因組結(jié)構(gòu)、大小、以及復(fù)雜程度遠(yuǎn)超細(xì)菌等微生物,單純使用基于二代測(cè)序平臺(tái)的大量細(xì)胞基因組測(cè)序數(shù)據(jù)也無(wú)法組裝出高質(zhì)量的人類基因組參考序列(NG50很難達(dá)到Mb(百萬(wàn)堿基對(duì))級(jí)別),那么使用少量DNA甚至單細(xì)胞基因組測(cè)序數(shù)據(jù)組裝人類基因組則更具挑戰(zhàn)性,它不僅需要基于三代測(cè)序平臺(tái)的單細(xì)胞基因組長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)的支持,還需要合適的組裝軟件以及良好的生物信息學(xué)分析策略。
2022年7月12日,北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)湯富酬課題組在Nucleic Acids Research發(fā)表了題為De novo assembly of human genome at single-cell levels的研究論文。該研究使用優(yōu)化的SMOOTH-seq單細(xì)胞基因組三代測(cè)序技術(shù),基于Pacific Biosciences(PacBio)HiFi和Oxford Nanopore Technologies(ONT)兩種三代測(cè)序平臺(tái)首次在單細(xì)胞水平上完成了Mb級(jí)連續(xù)性的人類基因組組裝,并使用多種評(píng)價(jià)指標(biāo),充分探索了不同測(cè)序策略和組裝工具對(duì)基因組組裝結(jié)果的影響。
1、全面優(yōu)化了SMOOTH-seq單細(xì)胞基因組三代測(cè)序技術(shù),使其同時(shí)適用于PacBio和ONT兩種主流單分子測(cè)序平臺(tái)。此前的SMOOTH-seq技術(shù)只適用于PacBio單分子測(cè)序平臺(tái),使用場(chǎng)景有較大的局限性。優(yōu)化后的SMOOTH-seq技術(shù)既可以用于PacBio單分子測(cè)序平臺(tái),也可以用于ONT單分子測(cè)序平臺(tái),使用場(chǎng)景更加靈活,可以兼顧測(cè)序數(shù)據(jù)準(zhǔn)確性和測(cè)序成本。
2、使用hifiasm,Hicanu,wtdbg2等主流組裝工具和95個(gè)單細(xì)胞的三代基因組測(cè)序數(shù)據(jù)(Pacbio HiFi平臺(tái)),對(duì)人類慢性粒細(xì)胞性白血?。–ML)細(xì)胞系K562進(jìn)行了高質(zhì)量基因組組裝。組裝出的主要疊連群(primary contig)的NG50(可覆蓋50%的已知基因組區(qū)域的最短疊連群的長(zhǎng)度)可達(dá)2.11Mb,也就是說(shuō)在這個(gè)組裝出的參考序列中,人類基因組中一半(15億堿基對(duì))以上的區(qū)域都被至少2.11Mb以上的疊連群覆蓋了。最長(zhǎng)疊連群可達(dá)14.12Mb,完整的通用單拷貝同源基因基準(zhǔn)(Complete BUSCOs)比例接近95%,且大部分組織相容性復(fù)合體(MHC)位點(diǎn)(基因組上的一個(gè)有代表性的復(fù)雜區(qū)域,全長(zhǎng)約6Mb)被成功組裝出來(lái)(如圖1所示)。
圖1. 95個(gè)K562細(xì)胞的基因組組裝結(jié)果(Pacbio HiFi)
3、使用hifiasm,Hicanu,wtdbg2等主流組裝工具和人類正常二倍體細(xì)胞系HG002的157個(gè)單細(xì)胞的基因組三代測(cè)序數(shù)據(jù)(Pacbio HiFi平臺(tái))對(duì)人類基因組進(jìn)行了高質(zhì)量組裝。組裝出的主要疊連群(primary contig)的NG50可達(dá)0.65Mb,最長(zhǎng)的疊連群可達(dá)6.82Mb,完整的通用單拷貝同源基因基準(zhǔn)(Complete BUSCOs)比例接近91%。在使用此數(shù)據(jù)進(jìn)行HG002的單倍型組裝的過(guò)程中該研究發(fā)現(xiàn)經(jīng)過(guò)指數(shù)擴(kuò)增的基因組數(shù)據(jù)的k-mer分布會(huì)發(fā)生偏移,因此使用有雙親二代測(cè)序數(shù)據(jù)作為輔助的Trio-binning模式進(jìn)行基因組單倍型組裝結(jié)果更為準(zhǔn)確。因此該研究分別使用Trio hifiasm和Trio Hicanu兩種組織工具進(jìn)行單倍型組裝,得到的親本疊連群的NG50可達(dá)0.3Mb左右,完整的通用單拷貝同源基因基準(zhǔn)(Complete BUSCOs)比例均超過(guò)84%。通過(guò)比較HG002親本六種經(jīng)典人類白細(xì)胞抗原(HLA)位點(diǎn)的組裝分型結(jié)果,Trio Hicanu能夠正確組裝出HLA區(qū)域的兩個(gè)親本的大部分基因位點(diǎn)(如圖2所示)。
圖2. 157個(gè)HG002細(xì)胞的基因組組裝結(jié)果(Pacbio HiFi)
4、使用Flye,Necat,wtdbg2等主流組裝工具和人類正常二倍體細(xì)胞系HG002的192個(gè)單細(xì)胞的三代基因組測(cè)序數(shù)據(jù)(ONT平臺(tái),低測(cè)序深度)對(duì)人類基因組進(jìn)行高質(zhì)量組裝。研究發(fā)現(xiàn),不同的組裝工具對(duì)最終組裝結(jié)果有很大影響,F(xiàn)lye展現(xiàn)出更為適合單細(xì)胞ONT三代測(cè)序數(shù)據(jù)的特性,組裝出的疊連群的NG50可達(dá)1.38Mb,最長(zhǎng)疊連群可達(dá)11.42Mb,完整的通用單拷貝同源基因基準(zhǔn)(Complete BUSCOs)比例超過(guò)93%,多項(xiàng)指標(biāo)都遠(yuǎn)超另外兩個(gè)組裝工具。同時(shí)組裝結(jié)果能夠補(bǔ)齊39個(gè)hg38版本的人類參考基因組中未組裝出的缺口(gap)區(qū)域,其中14個(gè)區(qū)域在hg38中注釋的長(zhǎng)度超過(guò)50Kb(如圖3所示)。
圖3. 192個(gè)HG002細(xì)胞以及30個(gè)HG002細(xì)胞的基因組組裝結(jié)果(ONT)
5、使用Flye,wtdbg2等組裝工具和人類正常二倍體細(xì)胞系HG002的30個(gè)單細(xì)胞的三代基因組測(cè)序數(shù)據(jù)(ONT平臺(tái),高測(cè)序深度)對(duì)人類基因組進(jìn)行高質(zhì)量組裝。為了探究?jī)H使用極少量單細(xì)胞的基因組測(cè)序數(shù)據(jù)進(jìn)行人類基因組組裝的極限情況,該研究分別使用1個(gè)、10個(gè)、20個(gè)和30個(gè)單細(xì)胞嘗試進(jìn)行人類基因組組裝,發(fā)現(xiàn)僅需要高測(cè)序深度的30個(gè)單細(xì)胞的基因組測(cè)序數(shù)據(jù)(平均基因組覆蓋度~41.7%)就能完成疊連群 NG50高達(dá)1.34Mb連續(xù)性的組裝。同時(shí)組裝結(jié)果能夠補(bǔ)齊38個(gè)hg38版本的人類參考基因組未組裝出的gap區(qū)域,其中15個(gè)區(qū)域在hg38注釋的長(zhǎng)度超過(guò)50Kb(如圖4所示)。
圖4. 30個(gè)基因組高覆蓋度HG002細(xì)胞的基因組組裝結(jié)果(ONT)
6、通過(guò)對(duì)K562細(xì)胞系基因組的從頭組裝,該研究相比于使用原始單細(xì)胞基因組三代測(cè)序數(shù)據(jù)能更精準(zhǔn)地鑒定出更多的基因組插入事件和復(fù)雜結(jié)構(gòu)變異事件。對(duì)于K562這樣的白血病細(xì)胞系,基因組從頭組裝之后是否能更好地鑒定出基因組結(jié)構(gòu)變異(SV)事件是癌癥研究中的重要問(wèn)題。該研究分別使用hifiasm和Hicanu組裝出的主要(primary)疊連群和替代(alternate) 疊連群來(lái)進(jìn)行結(jié)構(gòu)變異鑒定。發(fā)現(xiàn)組裝后的疊連群比起原始單細(xì)胞數(shù)據(jù)直接比對(duì)能更準(zhǔn)確地鑒定出基因組插入事件,召回率達(dá)到70%以上,精確度達(dá)到90%以上。同時(shí),K562中的三對(duì)經(jīng)典融合基因:CDC25A-GRID1、BCR-ABL1和NUP214-XKR3都能被精準(zhǔn)地鑒定出來(lái),而CDC25A-GRID1融合在原始單細(xì)胞基因組數(shù)據(jù)直接比對(duì)到參考基因組時(shí)是無(wú)法被發(fā)現(xiàn)的 (如圖5所示) 。為了進(jìn)一步驗(yàn)證基因組從頭組裝后找到的結(jié)構(gòu)變異事件的準(zhǔn)確性,該研究挑選了20個(gè)(14個(gè)插入事件,6個(gè)缺失事件)在組裝后的疊連群中被鑒定到、但是在單細(xì)胞基因組原始測(cè)序數(shù)據(jù)直接比對(duì)到參考基因組時(shí)沒(méi)有被鑒定出來(lái)的結(jié)構(gòu)變異事件進(jìn)行了PCR驗(yàn)證,準(zhǔn)確率高達(dá)80%,證明了組裝后的疊連群對(duì)結(jié)構(gòu)變異事件的鑒定是精準(zhǔn)可靠的(如圖6所示)。
圖5. 組裝后疊連群(contig)中結(jié)構(gòu)變異事件檢測(cè)的準(zhǔn)確性
?
圖6. PCR驗(yàn)證基因組結(jié)構(gòu)變異事件的結(jié)果
綜上,為了解決基因組從頭組裝在實(shí)際應(yīng)用中遇到的細(xì)胞遺傳異質(zhì)性和細(xì)胞稀缺性的問(wèn)題,該研究使用優(yōu)化的SMOOTH-seq技術(shù)在兩種不同的主流三代測(cè)序平臺(tái)上,采用不同的測(cè)序策略(高通量、低深度測(cè)序策略(multi-cells with low sequencing depth)和低通量、高深度測(cè)序策略(few-cells with high sequencing depth)),使用多種不同組裝軟件(hifiasm,Hicanu,wtdbg2, Flye,Necat等)、多個(gè)評(píng)價(jià)指標(biāo)、以及不同組裝策略,探討了利用單細(xì)胞測(cè)序數(shù)據(jù)從頭組裝人類基因組的可行性,并確定了影響組裝結(jié)果的主要因素,將基因組組裝的分辨率提高到單細(xì)胞水平(少至30個(gè)單細(xì)胞)。未來(lái)隨著單細(xì)胞測(cè)序技術(shù)和基因組組裝策略的進(jìn)一步發(fā)展,最終必將實(shí)現(xiàn)只用一個(gè)單細(xì)胞的測(cè)序數(shù)據(jù)就能組裝出Mb級(jí)連續(xù)性的人類參考基因組的夢(mèng)想。
北京大學(xué)生命科學(xué)學(xué)院博士生謝昊伶以及北京大學(xué)前沿交叉學(xué)科研究院博士生李文為該論文的并列第一作者。北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心湯富酬教授為該論文的通訊作者。該研究項(xiàng)目得到了北大-清華生命科學(xué)聯(lián)合中心、國(guó)家自然科學(xué)基金委、北京市科技委和北京未來(lái)基因診斷高精尖創(chuàng)新中心的支持。
論文鏈接:
https://doi.org/10.1093/nar/gkac586



本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。