人工智能(AI)已經(jīng)顛覆了蛋白質(zhì)的研究工作,比如它能幫助研究人員輕松預(yù)測蛋白質(zhì)的3D結(jié)構(gòu)。相關(guān)成就獲得了2024年的諾貝爾化學(xué)獎。

現(xiàn)在,AI深入蛋白質(zhì)測序,通過組成蛋白質(zhì)的氨基酸序列識別蛋白質(zhì)。與傳統(tǒng)方法相比,AI更快,還能幫助研究人員對以前從未見過的蛋白質(zhì)進行測序。對未知蛋白進行測序,一直是醫(yī)學(xué)診斷、環(huán)境研究和考古學(xué)中的常見挑戰(zhàn)。

近日,一項發(fā)表于《自然-機器智能》的研究中,名為InstaNova的蛋白質(zhì)測序AI,可以識別傷口中的致病蛋白和海水樣本中微生物產(chǎn)生的未知蛋白。

事實上,InstaNova并非個例,在過去4年里,研究人員已經(jīng)推出了20多種蛋白質(zhì)測序AI。

“很明顯,這是該領(lǐng)域的發(fā)展方向。”美國華盛頓大學(xué)蛋白質(zhì)組學(xué)AI開發(fā)人員William Noble說。

蛋白質(zhì)遠比DNA和RNA要復(fù)雜得多。人類基因組包含約2萬個基因,但這些基因會產(chǎn)生1000萬種不同的蛋白質(zhì)。

傳統(tǒng)上,生物學(xué)家通過將蛋白質(zhì)分解成肽這樣的短片段來識別蛋白質(zhì)。每個肽由5到20個氨基酸組成。研究人員利用質(zhì)譜儀中測量這些短片段,將其重量與數(shù)十個數(shù)據(jù)庫中已知肽的重量進行匹配,以確定其身份,然后在將這些片段拼成完整的分子。

但這種傳統(tǒng)方法存在一些問題。比如,質(zhì)譜法發(fā)現(xiàn)的高達70%的肽并不存在于現(xiàn)有的數(shù)據(jù)庫中。

“傳統(tǒng)蛋白質(zhì)組學(xué)有點像利用搜索引擎進行搜索。如果它不在數(shù)據(jù)庫中,你就搜索不到它?!钡溂夹g(shù)大學(xué)蛋白質(zhì)組學(xué)專家Timothy Patrick Jenkins說,特別是隨著肽數(shù)據(jù)庫的不斷擴充,發(fā)現(xiàn)匹配項所需的計算機時間變得越來越長。

而AI則不會費力尋找匹配的已知肽選線。它們計算了所有可能由給定長度肽化學(xué)修飾產(chǎn)生的潛在肽片段的重量。如果產(chǎn)生了與實際樣本中的肽片段相匹配的片段,它會嘗試將其組裝成全長蛋白質(zhì)。

為了提高準確性,蛋白質(zhì)測序AI在數(shù)百萬個已知肽及其如何組裝成已知蛋白質(zhì)的基礎(chǔ)上進行訓(xùn)練。這使得AI能夠習(xí)得氨基酸鏈結(jié)合的最常見方式。

Jenkins說,這種方法類似于大型語言模型,就像ChatGPT在大量文本上訓(xùn)練,以學(xué)習(xí)語法規(guī)則一樣,蛋白質(zhì)組學(xué)AI習(xí)得了一種蛋白質(zhì)“語法”,為給定的一組肽提供了最可能的序列。

2021年,Noble和同事推出了Casanovo。這是第一個使用深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)測序AI。在2024年發(fā)表于《自然-通訊》的論文中,Noble團隊報告說,AI被證明擅長識別訓(xùn)練數(shù)據(jù)中沒有的新肽序列。額外的實驗表明,Casanovo擅長識別免疫系統(tǒng)攻擊癌癥時靶向的細胞表面肽,以及海水樣本中的未知蛋白質(zhì)。

而Jenkins和同事們開發(fā)的InstaNova在使用深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入了擴散模型。AlphaFold等蛋白質(zhì)結(jié)構(gòu)預(yù)測模型也采用了這種策略。

在與Casanovo的面對面測試中,InstaNova與升級款I(lǐng)nstanNova+結(jié)合,在9種生物的實驗室蛋白質(zhì)混合物中鑒定出42%的肽。

當Jenkins團隊將InstaNova應(yīng)用于現(xiàn)實中的蛋白質(zhì)組學(xué)測試時,除其他結(jié)果外,它從感染的腿部傷口中鑒定出1225種人血白蛋白特有的肽,是傳統(tǒng)方法檢索結(jié)果的10倍。其中254種是數(shù)據(jù)庫中沒有的新肽。

其他領(lǐng)域的研究人員也在用蛋白質(zhì)測序AI。英國劍橋大學(xué)蛋白質(zhì)組學(xué)研究員Matthew Collins最近就在測試幾種蛋白質(zhì)測序AI工具分析考古樣本的能力。

Collins指出,大多數(shù)情況下,樣本中的蛋白質(zhì)在地下經(jīng)過漫長歲月后發(fā)生了化學(xué)變化,或者它們來自早已滅絕的動植物,因此不太可能存在于傳統(tǒng)蛋白質(zhì)和肽數(shù)據(jù)庫中,而這些AI模型尤其適用于混亂環(huán)境中蛋白質(zhì)的檢測。

利用AI工具,Collins團隊已經(jīng)在尼安德特人遺址中發(fā)現(xiàn)兔子蛋白質(zhì)的特征,并在古代巴西的盆中發(fā)現(xiàn)魚類肌肉蛋白質(zhì)特征。

來源:中國科學(xué)報