北京大學(xué)深圳研究生院陳語謙團(tuán)隊(duì)在AI4S領(lǐng)域領(lǐng)域取得進(jìn)展
近年來,人工智能技術(shù)在藥物設(shè)計(jì)中發(fā)揮關(guān)鍵作用,尤其是在蛋白質(zhì)-配體結(jié)合親和力(Protein-Ligand Binding Affinity, PLA)預(yù)測、藥物-藥物相互作用(Drug-Drug Interactions, DDI)預(yù)測、化合物性質(zhì)預(yù)測、化合物逆合成設(shè)計(jì)等方面,加快了從龐大的化學(xué)空間中篩選出潛在藥物的過程。北京大學(xué)深圳研究生院研究員、科學(xué)智能(AI for Science, AI4S)中心主任陳語謙團(tuán)隊(duì)在人工智能輔助藥物設(shè)計(jì)領(lǐng)域取得了重要進(jìn)展,成果發(fā)表在2024年12月的IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI, 人工智能頂級期刊,IF=”20.8),相關(guān)工作還包括了三篇發(fā)表于2024年的IEEE” Transactions on Neural Networks and Learning Systems(TNNLS, 人工智能頂級期刊,IF=”10.2)和2023年基于AI技術(shù)推斷逆合成步驟的Nature Communications(NC,綜合頂刊,IF=”14.7)。
當(dāng)前,在蛋白質(zhì)-配體結(jié)合親和力預(yù)測研究中,基于相互作用圖神經(jīng)網(wǎng)絡(luò)(Interaction Graph Neural Network, IGNN)的深度學(xué)習(xí)打分函數(shù)表現(xiàn)出出色的性能和發(fā)展?jié)摿?。這主要得益于此類模型在蛋白-配體相互作用表征中融入了一定的物理化學(xué)歸納偏置,使其有機(jī)會學(xué)習(xí)并捕捉復(fù)合物結(jié)構(gòu)中關(guān)鍵的相互作用特征,從而實(shí)現(xiàn)幾何親和力的有效預(yù)測。然而,許多IGNN模型仍然采用同質(zhì)圖進(jìn)行表征,這在一定程度上忽略了對配體而言占主導(dǎo)地位的非共價(jià)相互作用。在消息傳遞過程中,該做法弱化了配體分子內(nèi)部共價(jià)鍵對節(jié)點(diǎn)特征更新的影響,從而導(dǎo)致潛在信息的丟失,如圖1(a)所示。此外,大多數(shù)3D-GNN模型采用“瓶頸”架構(gòu):輸入的圖結(jié)構(gòu)經(jīng)過多層圖卷積后,通常通過全局池化將其壓縮為單一向量表征(如圖1(b)所示)。然而,這一處理方式可能會使得3D結(jié)構(gòu)信息在壓縮過程丟失。針對上述問題,論文提出了一種改進(jìn)的親合性打分方法EHIGN。EHIGN采用異質(zhì)圖建模方法(如圖1(c)),并將結(jié)合親和力視為蛋白-配體原子間非共價(jià)相互作用貢獻(xiàn)的加和,再通過偏差校正項(xiàng)對潛在偏差進(jìn)行校正(如圖1(d)),對于模型的泛化能力起到了明顯的提升作用,相關(guān)成果發(fā)表在TPAMI上(https://ieeexplore.ieee.org/abstract/document/10530021)。
EHIGH總體框架
在藥物-藥物相互作用預(yù)測領(lǐng)域,深度學(xué)習(xí)方法雖然已被廣泛應(yīng)用,但其在跨域泛化方面仍存在較大局限性。針對這一問題,論文提出了一種域不變子結(jié)構(gòu)相互作用學(xué)習(xí)方法用于預(yù)測DDI(DSIL-DDI)。DSIL-DDI將子結(jié)構(gòu)相互作用視為DDI的域不變表示。在使用圖神經(jīng)網(wǎng)絡(luò)(GNN)提取子結(jié)構(gòu)后,子結(jié)構(gòu)交互模塊用于學(xué)習(xí)領(lǐng)域不變子結(jié)構(gòu)交互模式。對于提出的子結(jié)構(gòu)交互模塊,其模擬子結(jié)構(gòu)中屬性的交互。為了學(xué)習(xí)領(lǐng)域不變表示,DSIL-DDI中設(shè)計(jì)了一個(gè)額外的損失函數(shù),可以從不相關(guān)的子結(jié)構(gòu)相互作用中去除噪聲。對于一對藥物,模塊會輸出DDI表示。該表示包含與此DDI事件對應(yīng)的最重要的子結(jié)構(gòu)交互模式。將表示提供給分類器以獲得此DDI的類別。對于分布外DDI預(yù)測,計(jì)算陌生域上的DDI表示(無需重新訓(xùn)練),然后按指定數(shù)量的類別對這些表示進(jìn)行聚類。DSIL-DDI 的總體架構(gòu)如圖2所示。相關(guān)成果發(fā)表在TNNLS(https://ieeexplore.ieee.org/abstract/document/10044475)。
DSIL-DDI總體框架
在化合物性質(zhì)預(yù)測領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)在加速與提升藥物發(fā)現(xiàn)過程方面已取得顯著進(jìn)展。然而,這些技術(shù)往往需要大量標(biāo)注數(shù)據(jù),才能對分子特性進(jìn)行精確預(yù)測。現(xiàn)實(shí)中,在藥物研發(fā)初期階段,對于新型分子或其類似物,相關(guān)理化性質(zhì)與生物活性數(shù)據(jù)的缺失依然是重大難題。這一困境使得將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于少樣本藥物發(fā)現(xiàn)面臨嚴(yán)峻挑戰(zhàn)。為此,論文提出了一種結(jié)合圖注意力網(wǎng)絡(luò)(Graph Attention Network, GAT)的元學(xué)習(xí)框架——Meta-GAT,用以在低數(shù)據(jù)條件下預(yù)測化合物性質(zhì),如圖3所示。GAT通過三重注意力機(jī)制從原子層面捕捉原子團(tuán)的局部影響,從而有效學(xué)習(xí)原子團(tuán)對化合物整體性質(zhì)的貢獻(xiàn)。此外,課題組還構(gòu)建了一個(gè)專用于化合物性質(zhì)預(yù)測的元學(xué)習(xí)基準(zhǔn)數(shù)據(jù)集(Meta-molnet),如圖4所示。相關(guān)研究成果已發(fā)表在TNNLS(https://ieeexplore.ieee.org/abstract/document/10436119,
https://ieeexplore.ieee.org/abstract/document/10059171)。
Meta-GAT的總體框架
Meta-molnet總體框
在逆合成最佳步驟預(yù)測領(lǐng)域中,目前逆的合成模型在預(yù)測精度、多樣性以及可解釋性等方面的局限性限制了其在合成路線規(guī)劃中的實(shí)際應(yīng)用。如何從化學(xué)家思考反應(yīng)發(fā)生的角度出發(fā)提升基于AI的逆合成預(yù)測模型的效果和適用性仍然是一個(gè)迫切重要的研究課題。為此,論文基于反應(yīng)轉(zhuǎn)化的簡易機(jī)理提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的圖到編輯架構(gòu)Graph2Edits,用于逆合成預(yù)測,如圖5所示。具體地說,模型將逆合成反應(yīng)預(yù)測表示為通過一系列相互關(guān)聯(lián)的圖編輯來完成產(chǎn)物-中間體-反應(yīng)物推導(dǎo)的過程來學(xué)習(xí)反應(yīng)轉(zhuǎn)化的規(guī)則,就像化學(xué)家思考反應(yīng)是如何發(fā)生的一樣;端到端的模型架構(gòu)以自回歸的方式生成任意長度的圖編輯序列,能夠增強(qiáng)多個(gè)生成步驟之間的緊密聯(lián)系,提高其在多中心反應(yīng)中的適用性和預(yù)測的多樣性;使用定向消息傳遞神經(jīng)網(wǎng)絡(luò)D-MPNN對局部原子/鍵和全局圖特征進(jìn)行編碼以充分利用化合物的結(jié)構(gòu)信息來預(yù)測原子/鍵編輯和生成終止符,并將作為離去基團(tuán)的子圖添加到中間體完成反應(yīng)物的生成以貼近更真實(shí)的反應(yīng)轉(zhuǎn)化過程,可以顯著減少生成步驟,提升其預(yù)測性能。相關(guān)研究成果已發(fā)表在Nature Communications(https://www.nature.com/articles/s41467-023-38851-5)。
Graph2Edits總體框架
上述工作論文通訊作者為陳語謙,研究得到國家自然科學(xué)基金面上和廣州市、深圳市項(xiàng)目支持。
參考文獻(xiàn)
[1] Z. Yang, W. Zhong, Q. Lv, T. Dong, G. Chen and C. Y. -C. Chen, “Interaction-Based Inductive Bias in Graph Neural Networks: Enhancing Protein-Ligand Binding Affinity Predictions From 3D Structures,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 12, pp. 8191-8208, Dec. 2024.
[2] Z. Tang, G. Chen, H. Yang, W. Zhong and C. Y. -C. Chen, “DSIL-DDI: A Domain-Invariant Substructure Interaction Learning for Generalizable Drug–Drug Interaction Prediction,” in?IEEE Transactions on Neural Networks and Learning Systems, vol. 35, no. 8, pp. 10552-10560, Aug. 2024.
[3] Q. Lv, G. Chen, Z. Yang, W. Zhong and C. Y. -C. Chen, “Meta Learning With Graph Attention Networks for Low-Data Drug Discovery,” in?IEEE Transactions on Neural Networks and Learning Systems, vol. 35, no. 8, pp. 11218-11230, Aug. 2024.
[4] Q. Lv, G. Chen, Z. Yang, W. Zhong and C. Y. -C. Chen, “Meta-MolNet: A Cross-Domain Benchmark for Few Examples Drug Discovery,” in?IEEE Transactions on Neural Networks and Learning Systems, doi: 10.1109/TNNLS.2024.3359657.
[5] Zhong W, Yang Z, Chen C Y C. Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing[J]. Nature Communications, 2023, 14(1): 3009.
來源:北京大學(xué)


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。