對于包括新型冠狀病毒在內(nèi)的醫(yī)學(xué)研究,我其實是“門外漢”,但是因為從事高性能計算這個行業(yè),認(rèn)識很多使用高性能計算的應(yīng)用專家,其中包括生物、化學(xué)和醫(yī)學(xué)的專家,所以有機(jī)會從門外一窺他們的工作。

使用生物信息學(xué)找到病毒來源

病毒進(jìn)行基因測序,并利用測序結(jié)果,采用生物信息學(xué)的方法來比對和查找,找到病毒來源以及傳播的最大概率宿主。

這其中,“生物信息學(xué)方法比對和查找病毒來源”部分需要計算資源。

要得到正確的結(jié)果,最重要的還是科學(xué)家采用科學(xué)嚴(yán)謹(jǐn)?shù)姆椒▉碜龉ぷ?,高性能計算設(shè)施能夠加速這一過程。

這個過程中可能需要跑BLAST程序。BLAST主要用來尋找同源序列,此外還可能要用到基因組組裝,多序列比對,進(jìn)化分析相關(guān)的軟件。

生物信息學(xué)相關(guān)軟件非常非常多,我們在北京大學(xué)高性能計算公共平臺上安裝過一百多個,但在這個問題中科學(xué)家具體用哪些,與科學(xué)家的工作習(xí)慣關(guān)系很大。

目前,病毒的序列都已經(jīng)是公開的,病毒的簡單序列比對消耗的資源并不多,在線數(shù)據(jù)庫就能做。

但是要做復(fù)雜詳細(xì)的研究,還是必須要有高性能算的環(huán)境來加速。想必現(xiàn)在已有大量科學(xué)家如此開展工作。

2019新型冠狀病毒資源庫(http://www.cas.cn/syky/202001/t20200122_4732764.shtml)已經(jīng)公布。

但是目前還沒有完全確認(rèn)病毒來源,所以序列比對的工作還要繼續(xù)。

使用超算加速病毒疫苗或者特效藥的研制

現(xiàn)代制藥一般首先是搞清楚病毒的結(jié)構(gòu),然后再研究什么樣的小蛋白分子能夠與病毒結(jié)合,使病毒失去功能。

獲知病毒結(jié)構(gòu)

要獲知病毒結(jié)構(gòu),常見有兩種方法。

第一種方法是,通過基因測序結(jié)果搞清楚結(jié)構(gòu)。

這種方法主要靠“猜”,但要使用統(tǒng)計的方法保證“猜”的結(jié)果比較靠譜。一般而言,對蛋白質(zhì)結(jié)構(gòu)預(yù)測“猜”的方法主要有兩個途徑。

一個途徑是從頭模擬,目前Google的人工智能程序AlphaFold大概是猜測蛋白質(zhì)結(jié)構(gòu)最好的方法。

訓(xùn)練AlphaFold使用了相當(dāng)大的算力,當(dāng)然最主要還是設(shè)計AlphaFold的想法。

另一個途徑就是根據(jù)序列上類似的蛋白直接進(jìn)行同源建模,序列相似性越高結(jié)構(gòu)模擬可靠性就越高。這方面的軟件很多,常用的如swiss-model和I-TASSER等。

新冠病毒的基因序列和SARS等同源病毒的序列同源性非常高。

這些同源病毒都已經(jīng)有高分辨率的結(jié)構(gòu),新冠病毒可以根據(jù)SARS病毒的結(jié)構(gòu)進(jìn)行結(jié)構(gòu)預(yù)測,所以從頭模擬(第一個途徑)可能用得不多。

用AlphaFold等做蛋白質(zhì)結(jié)構(gòu)預(yù)測需要獲得蛋白質(zhì)序列,一般可獲得的是基因序列。

從基因序列也可以獲得蛋白質(zhì)序列,所以利用AlphaFold獲得病毒結(jié)構(gòu)也是可能的。

第二種方法是,通過成像技術(shù)獲知病毒結(jié)構(gòu)。

成像技術(shù)是搞懂生物微觀基本結(jié)構(gòu)的最主要方法。

常用的分析蛋白結(jié)構(gòu)成像技術(shù)主要分三類:核磁共振、冷凍電鏡和X射線晶體學(xué)方法,且三種方法各有適用范圍。

X射線晶體學(xué)方法最近有一個較好的結(jié)果,這里簡單介紹一下。

近幾年冷凍電鏡破解結(jié)構(gòu)相對熱門,最近還拿了諾貝爾獎。

不過,使用冷凍電鏡技術(shù),病毒的培養(yǎng)、提純和制樣需要一定時間,沒有測序那么快,不過一旦制樣完成后就可以成像(拍照片)和重建(通過照片算三維結(jié)構(gòu))了。

在這過程中,高性能計算能夠加速三維結(jié)構(gòu)的重建,主要用到RELION軟件。冠狀病毒整體分子量較大,非常適合利用冷凍電鏡方法對這個病毒的結(jié)構(gòu)進(jìn)行重建。

使用X射線獲得的新冠病毒組成蛋白之一的結(jié)構(gòu)也有人給出,上??萍即髮W(xué)和中國科學(xué)院上海藥物研究所聯(lián)合研究團(tuán)隊公布的“新型肺炎冠狀病毒3CL水解酶高分辨率晶體結(jié)構(gòu)”就是這種方法。

一般X射線晶體學(xué)方法進(jìn)行結(jié)構(gòu)解析要先對蛋白質(zhì)進(jìn)行純化、結(jié)晶,需要一定的時間。

所以在如此短的時間內(nèi)就就做出其中一個蛋白的結(jié)構(gòu)很不容易,為他們點(diǎn)贊!

找到能夠讓病毒蛋白質(zhì)分子失效的小分子

小分子藥物可競爭性地結(jié)合病毒蛋白質(zhì)的功能位點(diǎn),這樣一來病毒蛋白質(zhì)就不能和它真正的底物結(jié)合,從而抑制病毒蛋白質(zhì)的活性。

Autodock是一個比較普遍使用的方法,目前大約有700萬個小分子的小分子庫。

每個小分子,要通過各個角度與蛋白質(zhì)結(jié)合來觀察能量釋放情況,結(jié)合之后釋放能量越多,結(jié)合就越穩(wěn)定,那么這個小分子就越有可能做成藥物。

這其中的計算任務(wù)不是很大,但是需要的計算總量很大,任務(wù)極其多,使用高性能計算(HPC)或者高通量計算(HTC)方法比較合適。

現(xiàn)在應(yīng)該也有很多組在做這個工作,中國科學(xué)院上海藥物研究所和上海科技大學(xué)聯(lián)合研究團(tuán)隊發(fā)現(xiàn)一批可能對新型肺炎有治療作用的老藥和中藥,就是這方面的工作。

另外,通過計算的方法找到一批可能的小分子后,接下來就是生化實驗,以確定計算軟件找到的東西是否真的可用。

目前疫苗的研發(fā)應(yīng)該還是研發(fā)周期的問題,考慮到安全性試驗,需要較長的時間。從一個外行的角度看,現(xiàn)在情況特殊,也許速度會快一些。

事實上現(xiàn)在沒有任何一種冠狀病毒的疫苗,不管新的舊的,包括S蛋白(S蛋白是病毒入侵的關(guān)鍵蛋白)入侵的分子結(jié)構(gòu)機(jī)理都是不清楚的。

搞清楚這些過程也許需要成像技術(shù)(冷凍電鏡)與分子動力學(xué)(MD)共同作用。

成像技術(shù)中大多用冷凍電鏡,分子動力學(xué)用NAMD、gromacs等模擬軟件。這些分子動力學(xué)軟件運(yùn)行一般也需要高性能計算平臺。

不過,冷凍電鏡做動力學(xué)過程非常困難,因為即使靜態(tài)的成像,所用到的數(shù)據(jù)量和已經(jīng)非常大,相應(yīng)的的算力要求已經(jīng)非常高。

(這篇文章在使用冷凍電鏡做動力學(xué)過程領(lǐng)域做了一些探索:https://www.nature.com/articles/s41586-018-0736-4)

除此以外,還可以通過分子動力學(xué)的模擬,大致確定病毒的傳染性。目前也有許多科學(xué)家做相關(guān)工作。

來源:科學(xué)網(wǎng)微信公號