Deep Mind遇上對手 Meta AI預(yù)測6億蛋白質(zhì)結(jié)構(gòu)-肽度TIMEDOO

ESM宏基因組圖譜數(shù)據(jù)庫包含6.17億個蛋白質(zhì)的結(jié)構(gòu)預(yù)測。圖片來源:ESM宏基因組圖譜

谷歌旗下人工智能(AI)公司Deep Mind今年公布了2.2億個蛋白質(zhì)的預(yù)測結(jié)構(gòu),幾乎涵蓋了DNA數(shù)據(jù)庫中已知生物的所有蛋白質(zhì)?,F(xiàn)在,另一個科技巨頭正在填補蛋白質(zhì)宇宙中的暗物質(zhì)。

Meta公司(前身為Facebook)的研究人員使用人工智能預(yù)測了約6億個蛋白質(zhì)的結(jié)構(gòu),這些蛋白質(zhì)來自細菌、病毒和其他尚未被表征的微生物。相關(guān)研究11月1日發(fā)表于預(yù)印本網(wǎng)站BioRxiv。

“這些是非常神秘的蛋白質(zhì),為深入了解生物學(xué)提供了可能性?!盡eta人工智能蛋白質(zhì)團隊研究負責(zé)人Alexander Rives說。

該團隊使用“大型語言模型”生成了這些預(yù)測?!按笮驼Z言模型”是一種人工智能,可作為通過幾個字母或單詞預(yù)測文本的工具的基礎(chǔ)。

通常語言模型是在大量文本的基礎(chǔ)上進行訓(xùn)練的。為了將其應(yīng)用于蛋白質(zhì),Rives團隊將已知蛋白質(zhì)序列“喂”給它們,這些蛋白質(zhì)可以由20個不同的氨基酸鏈表示,每個氨基酸鏈由一個字母表示。然后,該模型學(xué)會了在氨基酸比例模糊的情況下“自動補全”蛋白質(zhì)。

Rives說,這種訓(xùn)練使模型對蛋白質(zhì)序列有了直觀的理解,蛋白質(zhì)序列包含了蛋白質(zhì)形狀的信息。

第二步,受DeepMind開創(chuàng)性蛋白質(zhì)結(jié)構(gòu)人工智能算法AlphaFold的啟發(fā),模型將這種洞察力與已知蛋白質(zhì)結(jié)構(gòu)和序列之間關(guān)系的信息相結(jié)合,從蛋白質(zhì)序列中生成預(yù)測結(jié)構(gòu)。

今年夏天早些時候,Rives團隊報告稱,其模型算法名為ESMFold,雖準確性不如AlphaFold,但在預(yù)測結(jié)構(gòu)方面要快60倍左右?!斑@意味著我們可以將結(jié)構(gòu)預(yù)測擴展到更大的數(shù)據(jù)庫中。”Rives說。

作為一個測試案例,研究團隊決定將模型應(yīng)用于大規(guī)模測序的“宏基因組”DNA數(shù)據(jù)庫,這些DNA來自于環(huán)境,包括土壤、海水、人類腸道、皮膚和其他微生物棲息地。絕大多數(shù)編碼潛在蛋白質(zhì)的DNA條目來自從未被培養(yǎng)過的生物,也不為科學(xué)家所知。

Meta團隊總共預(yù)測了超過6.17億個蛋白質(zhì)的結(jié)構(gòu),這項工作只花了兩周時間。Rives表示,預(yù)測是免費的,任何人都可以使用,就像模型的底層代碼一樣。

在這6.17億個預(yù)測中,該模型認為超過1/3的預(yù)測是高質(zhì)量的,因此研究人員可以確信蛋白質(zhì)的整體形狀是正確的,在某些情況下,模型可以識別更精細的原子級細節(jié)。值得一提的是,其中數(shù)以百萬計的結(jié)構(gòu)都是全新的,與實驗確定的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,或從已知生物體預(yù)測的AlphaFold數(shù)據(jù)庫中的結(jié)構(gòu)都不同。

AlphaFold數(shù)據(jù)庫的很大一部分是由彼此幾乎相同的結(jié)構(gòu)組成的,而宏基因組數(shù)據(jù)庫則應(yīng)該涵蓋以前從未見過的蛋白質(zhì)宇宙的很大一部分。

美國哈佛大學(xué)進化生物學(xué)家Sergey Ovchinnikov對ESMFold做出的數(shù)億個預(yù)測表示懷疑。他認為,有些蛋白質(zhì)可能缺乏確定的結(jié)構(gòu),而另一些可能是非編碼DNA,被誤認為是蛋白質(zhì)編碼材料。

德國慕尼黑工業(yè)大學(xué)計算生物學(xué)家Burkhard Rost對Meta公司模型的速度和準確性的結(jié)合印象深刻。但他質(zhì)疑,從宏基因組數(shù)據(jù)庫預(yù)測蛋白質(zhì)是否真的比AlphaFold的精確度更高?;谡Z言模型的預(yù)測方法,更適合快速確定突變?nèi)绾胃淖兊鞍踪|(zhì)結(jié)構(gòu),這是AlphaFold無法做到的。

據(jù)DeepMind的一位代表說,該公司目前沒有計劃在其數(shù)據(jù)庫中進行宏基因組結(jié)構(gòu)預(yù)測,但不排除在未來這樣做的可能性。

韓國首爾國立大學(xué)計算生物學(xué)家Martin Steinegger認為,這類工具的下一步顯然是研究生物學(xué)中的暗物質(zhì)。“我們很快就會在這些宏基因組結(jié)構(gòu)的分析方面出現(xiàn)爆炸式增長?!?/p>

相關(guān)論文信息:https://doi.org/10.1101/2022.07.20.500902

來源:中國科學(xué)報