中國科學(xué)院上海藥物研究所研究員鄭明月團隊,報道了一種名為ReactSeq反應(yīng)描述語言,該語言可以編碼化學(xué)反應(yīng)中的分子編輯操作,使自然語言處理模型(NLP)在逆合成預(yù)測、反應(yīng)表征檢索、交互問答等方面表現(xiàn)得更為出色。5月13日,相關(guān)研究發(fā)表于《自然-機器智能》。

以大語言模型為代表的人工智能(AI)技術(shù)在自然語言處理方面取得了前所未有的突破,正在深刻改變科學(xué)研究的范式。近年來,在化學(xué)與藥物研發(fā)領(lǐng)域,處理化學(xué)分子與反應(yīng)的化學(xué)語言模型(CLMs)逐漸興起。由于化學(xué)分子缺乏固有的順序表示,CLM利用化學(xué)家定義的分子線性編碼來學(xué)習(xí)和生成分子結(jié)構(gòu),目前最常用的分子線性編碼是簡化分子輸入線輸入系統(tǒng)(SMILES)。

為了提升CLMs在特定任務(wù)中的表現(xiàn),學(xué)界設(shè)計了一些新的分子線性編碼語言,用于描述化學(xué)分子的靜態(tài)結(jié)構(gòu)。然而,這些語言無法明確描述化學(xué)反應(yīng)過程中分子中原子和鍵的變化過程,嚴(yán)重限制了語言模型在化學(xué)反應(yīng)預(yù)測和表示中的應(yīng)用。

為了克服上述挑戰(zhàn),研究團隊設(shè)計了一種新的化學(xué)反應(yīng)描述語言ReactSeq。ReactSeq定義了從產(chǎn)物結(jié)構(gòu)出發(fā),將其轉(zhuǎn)化為反應(yīng)物分子所需的一系列分子編輯操作(MEO),包括化學(xué)鍵的斷裂和變化、原子電荷的改變以及離去基團的附著。在基于ReactSeq的逆合成模型中,反應(yīng)物通過這些MEO從產(chǎn)物分子轉(zhuǎn)化而來,確保了預(yù)測反應(yīng)物和產(chǎn)物之間的精確原子映射,增強了模型的可解釋性。

全新反應(yīng)描述語言可編碼化學(xué)反應(yīng)中分子編輯操作-肽度TIMEDOO
基于SMILES的傳統(tǒng)反應(yīng)預(yù)測語言模型與基于ReactSeq的方法之間的對比。圖片由研究團隊提供

利用ReactSeq,在不改變基本變換器(Transformer)架構(gòu)的情況下便能在逆合成預(yù)測中實現(xiàn)最先進的性能。同時,ReactSeq具有表示MEO的顯式令牌,可以對人類指令進行編碼和上下文提示。測試結(jié)果表明,人類專家的提示可以顯著提高模型的性能,甚至指導(dǎo)語言模型探索新的反應(yīng),這些MEO令牌也有利于提取反應(yīng)表示,且可以產(chǎn)生更加精準(zhǔn)且具有內(nèi)在化學(xué)意義的反應(yīng)表示。

基于該策略并結(jié)合自監(jiān)督學(xué)習(xí),研究團隊構(gòu)建了一種通用且可靠的反應(yīng)表示方法,能夠自然地區(qū)分反應(yīng)類型并評估其相似性,從而提升相似反應(yīng)檢索、實驗流程推薦以及反應(yīng)收率預(yù)測等一系列下游任務(wù)上的表現(xiàn)。

研究團隊表示,這項研究為垂直領(lǐng)域的大語言模型賦予了多項涌現(xiàn)的新能力,顯著提升了自然語言處理模型應(yīng)對復(fù)雜化學(xué)問題的能力,為化學(xué)領(lǐng)域的人工智能基礎(chǔ)模型開發(fā)提供了新的思路。

相關(guān)論文信息:https://doi.org/10.1038/s42256-025-01032-8

來源:中國科學(xué)報