伽利略曾認(rèn)為自然是用數(shù)學(xué)書(shū)寫(xiě),而生物學(xué)可能是用文字來(lái)書(shū)寫(xiě)。自然語(yǔ)言處理(下文簡(jiǎn)稱(chēng) NLP)算法現(xiàn)在能夠生成蛋白質(zhì)序列,并預(yù)測(cè)病毒突變、包括預(yù)測(cè)能幫助新冠病毒躲避免疫系統(tǒng)攻擊的關(guān)鍵突變。

上述之所以能實(shí)現(xiàn),得益于一重要洞見(jiàn),即生物系統(tǒng)許多特性可以用單詞和句子來(lái)解釋。麻省理工學(xué)院計(jì)算生物學(xué)家邦妮·伯格說(shuō):“我們正在學(xué)習(xí)進(jìn)化的語(yǔ)言?!?/p>

過(guò)去幾年里,遺傳學(xué)家喬治·丘奇的實(shí)驗(yàn)室團(tuán)隊(duì)、Salesforce 團(tuán)隊(duì)等研究人員已經(jīng)證明,蛋白質(zhì)序列和遺傳密碼可以使用 NLP 技術(shù)建模。

MIT科學(xué)家發(fā)現(xiàn)識(shí)別文字的AI也能發(fā)現(xiàn)新冠病毒變異-肽度TIMEDOO

最近,伯格及其同事的研究發(fā)表于《科學(xué)》雜志。在研究中,伯格等人將幾種毒株集合在一起,利用 NLP 來(lái)預(yù)測(cè)能幫助病毒躲避人體免疫系統(tǒng)抗體的突變。病毒躲過(guò)抗體稱(chēng)作“病毒免疫逃逸”,該研究的基本觀點(diǎn)認(rèn)為,免疫系統(tǒng)解讀病毒類(lèi)似于人類(lèi)解讀句子。

Salesforce 科學(xué)家阿里·馬達(dá)尼正利用 NLP 預(yù)測(cè)蛋白質(zhì)序列,他說(shuō):“論文寫(xiě)得很好,延續(xù)之前工作的發(fā)展勢(shì)頭。”

伯格團(tuán)隊(duì)使用了語(yǔ)法和語(yǔ)義(或稱(chēng)意義)這兩種語(yǔ)言學(xué)概念,病毒感染宿主的能力等遺傳或進(jìn)化適應(yīng)性特征,可從語(yǔ)法正確程度的角度來(lái)解讀。病毒傳染性強(qiáng),在語(yǔ)法層面為正確;病毒傳染性不強(qiáng),則為不正確。

同樣,病毒突變可以用語(yǔ)義來(lái)解釋。比如,病毒表面蛋白質(zhì)突變,某些抗體便無(wú)法發(fā)現(xiàn)病毒,像這樣導(dǎo)致病毒在環(huán)境中與其它事物區(qū)分開(kāi)來(lái)的變異,便是改變了病毒的語(yǔ)義。病毒突變可以有不同語(yǔ)義,而每一種有自身語(yǔ)義的病毒可能需要不同抗體來(lái)解讀。

為建立這些特性的模型,研究人員使用了 LSTM 神經(jīng)網(wǎng)絡(luò),LSTM 誕生在基于變形金剛的神經(jīng)網(wǎng)絡(luò)出現(xiàn)之前,后者現(xiàn)為 GPT-3 等大型語(yǔ)言模型所使用。LSTM 等存在較久的網(wǎng)絡(luò)所需訓(xùn)練數(shù)據(jù)比變形金剛少得多,并且在許多應(yīng)用中仍然表現(xiàn)良好。

研究人員不是用數(shù)百萬(wàn)個(gè)句子,而是利用取自三種病毒的數(shù)千個(gè)基因序列訓(xùn)練 NLP 模型。這些序列為流感病毒株的 4.5 萬(wàn)個(gè)獨(dú)特序列、HIV 病毒株的 6 萬(wàn)個(gè)獨(dú)特序列、以及新冠病毒病毒株的 3000 到 4000 個(gè)獨(dú)特序列。麻省理工學(xué)院研究生布萊恩·希建立了模型。他說(shuō):“由于對(duì)新冠病毒的監(jiān)測(cè)較少,新冠病毒的數(shù)據(jù)較少?!?/p>

NLP 模型在數(shù)學(xué)空間中對(duì)單詞進(jìn)行編碼,單詞和單詞間若含義相近,距離會(huì)更近,反之,距離則更遠(yuǎn)。這一過(guò)程稱(chēng)為“嵌入”。在病毒層面,基因序列的嵌入便是根據(jù)病毒突變的相似性,對(duì)病毒進(jìn)行分組。

該方法的總目標(biāo),是識(shí)別那些可能幫助病毒逃逸免疫系統(tǒng)、且不降低病毒傳染性的突變,也就是說(shuō)要識(shí)別那些改變病毒含義、而又不導(dǎo)致病毒語(yǔ)法錯(cuò)誤的突變。為測(cè)試模型,研究團(tuán)隊(duì)使用評(píng)估機(jī)器學(xué)習(xí)模型所做預(yù)測(cè)的通用度量標(biāo)準(zhǔn),該標(biāo)準(zhǔn)給精確度打分的區(qū)間為 0.5(相當(dāng)于意外發(fā)生的概率)到1(完美)。

研究中,研究人員采用由模型識(shí)別、最有可能出現(xiàn)的突變,并在實(shí)驗(yàn)室中利用病毒,檢查這些突變中有多少確實(shí)是會(huì)幫助病毒逃逸免疫的突變。精確度分?jǐn)?shù)最低值為針對(duì) HIV 病毒株的預(yù)測(cè)結(jié)果精確度,為 0.69;最高值為針對(duì)新冠病毒病毒株的預(yù)測(cè)結(jié)果精確度,為 0.85。研究人員表示,實(shí)驗(yàn)結(jié)果比其他最先進(jìn)模型的結(jié)果要好。

預(yù)先警告

知道可能會(huì)有哪些突變,醫(yī)院和公共衛(wèi)生當(dāng)局便更容易提前計(jì)劃。例如,要模型顯示出某種流感病毒的語(yǔ)義自 2020 年以來(lái)發(fā)生了多大變化,就能預(yù)計(jì)人們已經(jīng)產(chǎn)生的抗體在今年會(huì)發(fā)揮多大作用。

該研究團(tuán)隊(duì)表示,正在根據(jù)新冠病毒新變種運(yùn)行模型。針對(duì)的新變種包括英國(guó)出現(xiàn)的變異病毒、丹麥水貂體內(nèi)出現(xiàn)的變異病毒、以及南非、新加坡和馬來(lái)西亞出現(xiàn)的變異病毒。研究人員已經(jīng)發(fā)現(xiàn),這些變異病毒免疫逃逸潛力可能很高,但尚未在實(shí)驗(yàn)室外進(jìn)行測(cè)試。

不過(guò),模型沒(méi)有預(yù)測(cè)到南非變異病毒出現(xiàn)的一種變異。人們已經(jīng)開(kāi)始擔(dān)心,這種變異可能幫助病毒躲避疫苗接種,目前研究人員正在嘗試探明原因。伯格說(shuō):“南非變異病毒里包含多個(gè)突變,我們認(rèn)為,這些突變組合起來(lái)產(chǎn)生的效應(yīng)可能會(huì)導(dǎo)致免疫逃逸?!?/p>

使用 NLP 可以加速原本緩慢的研究進(jìn)程,以前是從醫(yī)院里一名新冠患者身上提取病毒、測(cè)序基因組,并在實(shí)驗(yàn)室里重新創(chuàng)造和研究相應(yīng)突變。項(xiàng)目研究人員麻省理工學(xué)院生物學(xué)家布賴(lài)恩·布萊森說(shuō),以前的做法可能需要幾周時(shí)間,NLP 模型可以直接預(yù)測(cè)潛在突變,實(shí)驗(yàn)室研究便找到重點(diǎn)、工作速度也加快。

布萊森說(shuō):“整個(gè)工作很大開(kāi)眼界?!泵恐芏加行虏《拘蛄?。布萊森說(shuō):“一邊更新模型,一邊跑去實(shí)驗(yàn)室進(jìn)行實(shí)驗(yàn)測(cè)試,很奇妙。計(jì)算生物學(xué)好就好在這?!?/p>

但這也只是開(kāi)始。將基因突變視為語(yǔ)義變化,可以在生物學(xué)中有不同應(yīng)用。布萊森說(shuō):“一個(gè)好類(lèi)比,能起很大作用?!?/p>

例如,希認(rèn)為研究團(tuán)隊(duì)的方法可以應(yīng)用于研究抗藥性。希說(shuō),“比如癌細(xì)胞蛋白質(zhì)對(duì)化療產(chǎn)生耐藥性、或者細(xì)菌蛋白質(zhì)對(duì)抗生素產(chǎn)生耐藥性”,這些變異也可以看作是意義上出現(xiàn)變化,“我們解讀語(yǔ)言模型,可以有很多創(chuàng)意?!?/p>

馬達(dá)尼說(shuō):“我認(rèn)為,生物學(xué)正處在革命邊緣。我們不再僅僅收集大量數(shù)據(jù),而正在轉(zhuǎn)向?qū)W習(xí)如何深入理解數(shù)據(jù)?!?/p>

總體來(lái)說(shuō),研究人員正在關(guān)注 NLP 的發(fā)展,同時(shí)發(fā)掘語(yǔ)言和生物學(xué)之間的新類(lèi)比,來(lái)利用NLP取得的進(jìn)步。不過(guò),布萊森、伯格和希都認(rèn)為,生物學(xué)和 NLP 算法交叉可以是雙向,即新 NLP 算法受生物學(xué)概念啟發(fā)而誕生。伯格說(shuō):“生物學(xué)有自己的語(yǔ)言。”

來(lái)源:麻省理工科技評(píng)論