隨著生物測(cè)序技術(shù)突破,全球天然基因庫(kù)已積累數(shù)十億量級(jí)序列,其中蘊(yùn)藏海量高價(jià)值功能基因。然而,當(dāng)前僅有少數(shù)明星基因被深度挖掘,絕大多數(shù)仍處于“沉睡”狀態(tài)。如何突破傳統(tǒng)注釋與建模局限,利用AI等手段激活“基因?qū)殠?kù)”,正成為合成生物學(xué)與生物制造領(lǐng)域的關(guān)鍵挑戰(zhàn)。

4月9日,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院定量合成生物學(xué)全國(guó)重點(diǎn)實(shí)驗(yàn)室、合成生物學(xué)研究所婁春波團(tuán)隊(duì)與北京大學(xué)定量生物學(xué)中心錢瓏團(tuán)隊(duì)合作在國(guó)際學(xué)術(shù)期刊Science Advances上發(fā)表題為”Discovery of Diverse and High-quality mRNA Capping Enzymes through a Language Model-enabled Platform”的研究論文,報(bào)道了全球首個(gè)面向合成生物學(xué)元件挖掘與生物制造應(yīng)用的大語言模型——”SYMPLEX”,并將SYMPLEX模型應(yīng)用于mRNA加帽酶基因的挖掘,展示了大語言模型賦能生物制造的巨大潛力。

該模型通過融合領(lǐng)域大語言模型訓(xùn)練、合成生物專家知識(shí)對(duì)齊和大規(guī)模生物信息分析,實(shí)現(xiàn)了從海量文獻(xiàn)中自動(dòng)化挖掘功能基因元件,并精準(zhǔn)評(píng)估其工程化應(yīng)用潛力。研究團(tuán)隊(duì)將SYMPLEX應(yīng)用于mRNA疫苗生物制造關(guān)鍵酶——加帽酶的挖掘,成功獲得多種高性能新型加帽酶。第三方公司實(shí)驗(yàn)驗(yàn)證顯示,這些酶在催化效率上超越國(guó)際頭部企業(yè)New England Biolabs(NEB)商業(yè)化加帽酶2倍以上,顯著提升了mRNA疫苗生產(chǎn)率和成本效益。此項(xiàng)成果不僅為合成生物學(xué)元件設(shè)計(jì)提供了AI驅(qū)動(dòng)的新范式,更展現(xiàn)了大語言模型等人工智能技術(shù)在生物制造中的廣闊應(yīng)用前景。

■破局傳統(tǒng):功能基因深度挖掘的大語言模型

天然生物基因組蘊(yùn)藏著海量功能基因,這些基因在進(jìn)化過程中不斷優(yōu)化,形成了多樣化的序列空間和復(fù)雜精巧的功能活性,賦予生物體適應(yīng)復(fù)雜環(huán)境的獨(dú)特優(yōu)勢(shì)。隨著高通量測(cè)序技術(shù)的發(fā)展,全球生物序列數(shù)據(jù)庫(kù)已突破數(shù)十億規(guī)模,為生物制造和合成生物學(xué)提供了前所未有的基因元件資源庫(kù)。然而,盡管這些天然基因蘊(yùn)含著巨大的應(yīng)用潛力,目前僅有少數(shù)明星基因(如基因編輯工具酶)得到了系統(tǒng)的注釋和結(jié)構(gòu)解析。這種研究的不均衡導(dǎo)致現(xiàn)有基于序列、結(jié)構(gòu)或深度學(xué)習(xí)的基因挖掘技術(shù)和蛋白質(zhì)設(shè)計(jì)方法難以應(yīng)用于更復(fù)雜的基因系統(tǒng),嚴(yán)重制約了高價(jià)值功能基因的開發(fā)與利用。

針對(duì)上述問題,研究團(tuán)隊(duì)創(chuàng)造性地將大型語言模型(LLM)與結(jié)構(gòu)化生物知識(shí)庫(kù)深度融合,開發(fā)出SYMPLEX智能基因挖掘平臺(tái)(圖1)。SYMPLEX是強(qiáng)大的功能基因搜索引擎,通過自動(dòng)化閱讀和理解千萬級(jí)體量的生物學(xué)文獻(xiàn),在基因、功能和知識(shí)水平上提取分析文獻(xiàn)內(nèi)容,并與專家數(shù)據(jù)庫(kù)進(jìn)行概念對(duì)齊、交互和基于先進(jìn)生物信息技術(shù)的統(tǒng)計(jì)模式生成,從而提供證據(jù)鏈完整的高質(zhì)量候選基因集合。SYMPLEX不僅有效規(guī)避了大語言模型幻覺,還能自動(dòng)生成基因功能相關(guān)的細(xì)粒度知識(shí)樹,引導(dǎo)科學(xué)家探索廣泛的生物機(jī)制和分子過程(圖1)。

對(duì)比結(jié)果表明,SYMPLEX大模型在挖掘基因的深度、數(shù)量和多樣性上均顯著優(yōu)于傳統(tǒng)生物信息學(xué)方法,其挖掘的基因多樣性也超越了現(xiàn)有蛋白質(zhì)功能預(yù)測(cè)模型的邊界(圖2)。

■應(yīng)用案例:解鎖mRNA疫苗高效生產(chǎn)的蛋白質(zhì)密碼

近年來,mRNA疫苗以其高效、可快速開發(fā)等特點(diǎn)在全球抗疫中發(fā)揮了關(guān)鍵作用。然而,mRNA疫苗背后的一項(xiàng)關(guān)鍵工藝——mRNA 5’端加帽(capping),卻因其效率較低、成本高昂成為“卡脖子”環(huán)節(jié)。加帽過程對(duì)穩(wěn)定mRNA、促進(jìn)翻譯和減少免疫反應(yīng)至關(guān)重要,而目前mRNA疫苗生產(chǎn)工藝中使用的仍是傳統(tǒng)的痘病毒雙蛋白(Vaccinia D1/D12)加帽酶,選擇有限且價(jià)格昂貴。

研究團(tuán)隊(duì)利用SYMPLEX大規(guī)模挖掘mRNA加帽酶,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。SYMPLEX通過批量處理生物學(xué)文獻(xiàn)和生物信息分析,識(shí)別出16,685個(gè)與 mRNA 加帽相關(guān)的基因,并進(jìn)一步篩選出75類(18,779 條序列)高置信度的完整加帽酶基因。經(jīng)過46種候選基因?qū)崪y(cè),研究團(tuán)隊(duì)獲得了14種可在哺乳動(dòng)物和酵母細(xì)胞中穩(wěn)定發(fā)揮作用的加帽酶,其中2種新型加帽酶的體外活性比商業(yè)化痘病毒加帽酶高出兩倍(圖3)。值得一提的是,本研究挖掘的新型加帽酶與已知加帽酶的序列相似性低于20%,且編碼序列長(zhǎng)度縮減30%,有望為mRNA疫苗和基于mRNA的基因療法研究提供關(guān)鍵使能技術(shù)支持。

此外,SYMPLEX的挖掘還揭示了加帽酶在自然界中多樣的構(gòu)型與進(jìn)化策略。研究發(fā)現(xiàn),加帽酶TPase功能域的桶狀外圍結(jié)構(gòu)具有保守與可設(shè)計(jì)區(qū)間,而MTase功能域則存在新的酶活中心模體。這些發(fā)現(xiàn)表明,SYMPLEX不僅能助力于理解生物過程的多樣化策略,還可為酶的理性工程優(yōu)化或生成式蛋白設(shè)計(jì)提供高質(zhì)量數(shù)據(jù)集。

■平臺(tái)賦能:合成生物制造的“智能基座”

目前,SYMPLEX在線交互式平臺(tái)已上線供研究人員免費(fèi)使用(https://bdainformatics.org/page?type=SYMPLEX)(圖4)。平臺(tái)采用模塊化設(shè)計(jì),提供三個(gè)核心功能:

(1)文獻(xiàn)智能提取引擎PubEngine:支持高通量的文獻(xiàn)智能檢索分析與可視化交互;

(2)基因功能標(biāo)注系統(tǒng)GeneTagger:實(shí)現(xiàn)從分子機(jī)制到生物過程的細(xì)粒度自動(dòng)化基因與功能提?。?/p>

(3)標(biāo)準(zhǔn)化知識(shí)中樞GeneNorm:實(shí)現(xiàn)與專家知識(shí)庫(kù)的概念對(duì)齊與標(biāo)準(zhǔn)化,支持知識(shí)樹構(gòu)建和功能模式識(shí)別。

各模塊既可無縫協(xié)同實(shí)現(xiàn)高效數(shù)據(jù)流轉(zhuǎn),又能獨(dú)立運(yùn)行,以加速功能基因挖掘以及蛋白質(zhì)設(shè)計(jì)。平臺(tái)現(xiàn)有注冊(cè)用戶200余人,2024年訪問量達(dá)6000余次。

本項(xiàng)研究開創(chuàng)了功能基因深度挖掘的新范式,利用大語言模型高效推動(dòng)生物知識(shí)轉(zhuǎn)化,為mRNA疫苗規(guī)?;a(chǎn)提供了關(guān)鍵酶資源庫(kù)。研究團(tuán)隊(duì)正利用SYMPLEX挖掘更多可用于生物制造和合成生物學(xué)的關(guān)鍵酶元件,并將該平臺(tái)拓展至合成通路設(shè)計(jì)等領(lǐng)域,有望推動(dòng)生物制造進(jìn)入“AI for Science”新紀(jì)元。

北京大學(xué)研究員錢瓏、中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院研究員婁春波為本文共同通訊作者。北京大學(xué)博士研究生王天澤、覃博文、厲思宏,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院博士研究生王子陌為共同第一作者。本研究獲得了浙江大學(xué)歐陽頎教授團(tuán)隊(duì)和北京遠(yuǎn)軒科技有限公司的大力支持,并得到國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、北京市重點(diǎn)基金以及深圳合成生物學(xué)創(chuàng)新研究院等項(xiàng)目的資助。

科學(xué)家開發(fā)大語言模型SYMPLEX,賦能生物制造-肽度TIMEDOO
科學(xué)家開發(fā)大語言模型SYMPLEX,賦能生物制造-肽度TIMEDOO圖1.SYMPLEX大模型的技術(shù)路線及其與傳統(tǒng)基因挖掘流程對(duì)比
科學(xué)家開發(fā)大語言模型SYMPLEX,賦能生物制造-肽度TIMEDOO圖2.SYMPLEX挖掘結(jié)果多樣性對(duì)比和細(xì)粒度知識(shí)樹生成
科學(xué)家開發(fā)大語言模型SYMPLEX,賦能生物制造-肽度TIMEDOO圖3.候選加帽酶在細(xì)胞體系和體外轉(zhuǎn)錄體系中表現(xiàn)出跨物種、跨體系的高加帽效率
科學(xué)家開發(fā)大語言模型SYMPLEX,賦能生物制造-肽度TIMEDOO圖4.SYMPLEX平臺(tái)

來源:中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院