暨南大學(xué)與承啟生物開發(fā)高性能大規(guī)模測(cè)序比對(duì)算法FANSe3
2021年2月22日,《表型組學(xué)》(Phenomics)期刊在線發(fā)表了暨南大學(xué)張弓和金靜潔團(tuán)隊(duì)以及深圳承啟生物科技有限公司合作題為The Ultrafast and Accurate Mapping Algorithm?FANSe3: Mapping a Human Whole?Genome Sequencing Dataset Within 30 Minutes的研究論文。該研究通過全新的數(shù)據(jù)結(jié)構(gòu)和并行策略,開發(fā)了FANSe3代算法,該算法在高達(dá)12%的錯(cuò)配率情況下可保證給出數(shù)學(xué)上的最優(yōu)解,提供準(zhǔn)確而快速的測(cè)序數(shù)據(jù)處理。
目前,科學(xué)界超過95%、醫(yī)學(xué)應(yīng)用領(lǐng)域超過99%的二代測(cè)序應(yīng)用需要將測(cè)序所得的reads(短讀序列)向參考基因組或參考轉(zhuǎn)錄組序列進(jìn)行比對(duì),這一過程稱為mapping,中文譯為“快速比對(duì)”、“映射”、“回帖”等等,但目前無統(tǒng)一翻譯。由于所有的生物學(xué)意義的分析,如突變檢測(cè)、基因表達(dá)量檢測(cè)等,均高度依賴于mapping的結(jié)果,因此mapping速度和精度都至關(guān)重要。
在這一領(lǐng)域,早期算法如MAQ等,利用了與BLAST相似的seed-hash原理,穩(wěn)健性較好,但內(nèi)存消耗大、運(yùn)算速度慢,在處理大規(guī)模的任務(wù)如千人基因組計(jì)劃時(shí),只能使用超級(jí)計(jì)算機(jī)來運(yùn)算,成本太高,難以普及。2009年,Burrows-Wheeler Transform (BWT) 原理的算法如BWA, Bowtie等出現(xiàn),使得mapping速度有了飛躍式提高,可以用一臺(tái)高性能臺(tái)式機(jī)在一兩天內(nèi)mapping完成一個(gè)人基因組的數(shù)據(jù)集,因而迅速成為主流。然而在算法領(lǐng)域,在原理沒有理論突破的情況下,速度和精度一般不可得兼,想快就不準(zhǔn),要準(zhǔn)就快不起來,這種情況在BWT類算法上表現(xiàn)得尤為顯著。BWT原本是為文件壓縮而開發(fā)的數(shù)據(jù)結(jié)構(gòu),并不考慮錯(cuò)配。實(shí)際遇到了read與參考序列之間有錯(cuò)配時(shí),搜索樹會(huì)導(dǎo)向錯(cuò)誤的分支,要將其糾正回正確的分支將付出很大的計(jì)算代價(jià),甚至仍然不能糾正而導(dǎo)致錯(cuò)誤mapping或直接丟棄。
在實(shí)際生物學(xué)應(yīng)用中,有生物學(xué)意義的結(jié)論往往存在于reads中的那些錯(cuò)配,例如最常見的基因組SNP、突變分析。因此使用BWT類算法,往往導(dǎo)致嚴(yán)重的假陰性和假陽(yáng)性問題,而且不同算法、不同參數(shù)設(shè)置,得出的結(jié)論大不相同,2012年時(shí)即被Nature Reviews Genetics文章斥為“可重復(fù)性危機(jī)”。
確保數(shù)學(xué)上的最優(yōu)精確度
為了解決mapping的準(zhǔn)確性和穩(wěn)健性問題,暨南大學(xué)張弓團(tuán)隊(duì)開發(fā)了FANSe系列mapping算法。該算法采用了數(shù)學(xué)上更穩(wěn)健的seed-hash原理,避開了對(duì)錯(cuò)配難以準(zhǔn)確處理的BWT原理,因此其準(zhǔn)確率有數(shù)學(xué)證明。在一定條件下(當(dāng)前主流測(cè)序儀已不難滿足),F(xiàn)ANSe可100%保證給出數(shù)學(xué)上的最優(yōu)解,而且在高達(dá)12%的錯(cuò)配率情況下可保證給出數(shù)學(xué)上的最優(yōu)解。
實(shí)際測(cè)試表明,在基因組突變檢測(cè)、轉(zhuǎn)錄組基因表達(dá)檢測(cè)、新剪切變體檢測(cè)、非模式物種分析上,F(xiàn)ANSe算法以絕對(duì)優(yōu)勢(shì)擊敗BWA, Bowtie等算法,幾乎完全符合實(shí)驗(yàn)驗(yàn)證。如此高的準(zhǔn)確度,使高度精密和穩(wěn)健的組學(xué)分析成為可能。30個(gè)生物學(xué)樣品中高豐度內(nèi)參基因測(cè)序定量誤差僅為0.0053%,全轉(zhuǎn)錄組定量生物學(xué)重復(fù)相關(guān)性高達(dá)R2=0.98,這是以往技術(shù)重復(fù)都不容易達(dá)到的高相關(guān)性。另一方面,如此高的精度也可以大幅度降低測(cè)序通量的需求。使用FANSe算法,可以只使用一般轉(zhuǎn)錄組測(cè)序通量的百分之一,便可可靠定量細(xì)胞內(nèi)單拷貝mRNA,而如此低通量下所鑒定到的基因差異表達(dá)倍數(shù),都可以被qRT-PCR所驗(yàn)證。這使轉(zhuǎn)錄組測(cè)序成本大幅度下降。
如何解決速度問題
FANSe1代的速度非常慢,只能滿足原核生物基因組和真核生物轉(zhuǎn)錄組的需求。FANSe2代開始采用并行策略,并優(yōu)化了索引表結(jié)構(gòu),使mapping人基因組成為可能,速度達(dá)到了同期Bowtie2的水平。但FANSe2并不適應(yīng)高性能的眾核平臺(tái),且對(duì)indel運(yùn)算效率較低。
因此,張弓教授與深圳承啟生物科技有限公司的研發(fā)人員一起,開發(fā)了FANSe3代算法,采用了全新的數(shù)據(jù)結(jié)構(gòu)和并行策略,大幅度提升了匹配速度與indel處理效率,并針對(duì)Intel Xeon E5之后的CPU環(huán)形總線/Mesh總線架構(gòu)進(jìn)行優(yōu)化,在人全基因組測(cè)序數(shù)據(jù)的mapping過程中比BWA快7.5倍以上,且能更充分利用CPU超線程的能力。FANSe3可在家用電腦單機(jī)上達(dá)成半小時(shí)mapping完人全基因組、半分鐘人外顯子組的驚人速度,同時(shí)精度不打折扣。至于轉(zhuǎn)錄組和翻譯組測(cè)序,張弓教授團(tuán)隊(duì)已在2017年展示了平均1秒多分析一個(gè)轉(zhuǎn)錄組測(cè)序數(shù)據(jù)集的云平臺(tái),就是基于FANSe3的。不僅mapping速度刷新世界紀(jì)錄,由于其結(jié)果準(zhǔn)確,使得突變檢測(cè)等次級(jí)分析十分方便,不再需要如GATK那樣的多步校正與過濾。與FANSe3配搭的突變分析模塊,可以在單機(jī)上5分鐘內(nèi)完成SNV列表的輸出,而GATK需要5小時(shí)以上。
由于其極高的處理效率,深圳承啟生物科技有限公司已將FANSe3部署在云平臺(tái)上,為公眾提供準(zhǔn)確快速的測(cè)序數(shù)據(jù)處理,用戶不必自己學(xué)習(xí)復(fù)雜的生物信息學(xué)知識(shí),也不需要自己購(gòu)買維護(hù)高性能計(jì)算集群,通過網(wǎng)絡(luò)即可享受立等可取的測(cè)序分析。這將徹底改變目前業(yè)界分析成本高昂的現(xiàn)狀。
全自主開發(fā)保證在國(guó)際貿(mào)易嚴(yán)峻形勢(shì)下不被卡脖子
FANSe3另一個(gè)特性是全自主開發(fā),不使用任何商業(yè)化的函數(shù)庫(kù),不使用SSE等高級(jí)指令集,也不使用GPU、FPGA等專用芯片加速(因?yàn)楦緵]有必要)。這使得其可移植性和擴(kuò)展性幾乎沒有任何限制。在目前國(guó)際貿(mào)易爭(zhēng)端形勢(shì)嚴(yán)峻的情況下,無論在軟件和硬件層面,使用FANSe算法都幾乎不會(huì)被國(guó)外卡脖子。
目前雖有其他一些國(guó)內(nèi)研發(fā)的同類軟件,但幾乎均采用BWT類原理,其使用的運(yùn)行庫(kù)和函數(shù)庫(kù)大部分需要國(guó)外授權(quán)(如SOAP2);或者依賴專用硬件(如Aurora系統(tǒng)),但國(guó)內(nèi)尚無法自主研發(fā)生產(chǎn)高性能的GPU、FPGA等專用芯片。FANSe3則可以通過略微的修改和重新編譯,運(yùn)行在各種國(guó)產(chǎn)CPU上。雖然國(guó)產(chǎn)CPU的性能離國(guó)際先進(jìn)水平尚有差距,但FANSe3超高效能以及幾乎完全線性的并行性能增長(zhǎng),使得使用體驗(yàn)可以比肩國(guó)外的計(jì)算硬件。這無疑為精準(zhǔn)醫(yī)學(xué)領(lǐng)域的國(guó)家安全提供了堅(jiān)實(shí)保障。
正因?yàn)槿绱?,基于FANSe3的高精度分析流程被作為國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目“醫(yī)學(xué)生命組學(xué)數(shù)據(jù)質(zhì)量控制關(guān)鍵技術(shù)研發(fā)與應(yīng)用示范”的標(biāo)準(zhǔn)流程,今后將對(duì)整個(gè)行業(yè)起到引領(lǐng)和規(guī)范的作用。
當(dāng)然,F(xiàn)ANSe3代仍然不是終點(diǎn)。由于是全自主開發(fā),因此研發(fā)團(tuán)隊(duì)可以持續(xù)增加新功能和優(yōu)化性能。目前,深圳承啟生物科技有限公司已部署下一代的FANSe4算法,直接舍棄了單機(jī)版本的支持,充分利用云平臺(tái)的硬件架構(gòu)特性進(jìn)行加速,進(jìn)一步提高并行效率,針對(duì)人基因組應(yīng)用做專門優(yōu)化,內(nèi)置SNV檢測(cè)輔助功能和RNA定量計(jì)算功能,使得分析效率進(jìn)一步成倍提高。2020年6月,承啟生物公開展示了5分鐘分析完成一個(gè)人基因組測(cè)序數(shù)據(jù)集并輸出SNV列表的驚人速度,被福布斯、央廣網(wǎng)、中國(guó)科技網(wǎng)等新聞媒體廣泛報(bào)道。
暨南大學(xué)張弓教授為本文第一作者,張弓教授和金靜潔為本文通訊作者。該研究獲得科技部國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目“醫(yī)學(xué)生命組學(xué)數(shù)據(jù)質(zhì)量控制關(guān)鍵技術(shù)研發(fā)與應(yīng)用示范”的資助。
論文DOI鏈接:https://link.springer.com/article/10.1007/s43657-020-00008-5。
來源:暨南大學(xué)

