9月27日,“新冠病毒基因組大數(shù)據(jù)在線分析系統(tǒng)”攻關(guān)項(xiàng)目在生物島實(shí)驗(yàn)室領(lǐng)導(dǎo)的大力支持下,上線運(yùn)行并正式通過驗(yàn)收。這是一套能夠支撐重大突發(fā)性傳染病病原基礎(chǔ)研究的生物信息學(xué)和計(jì)算生物學(xué)技術(shù)中臺(tái)及數(shù)據(jù)中臺(tái),為新冠病毒基礎(chǔ)科研、防控與預(yù)警研究提供強(qiáng)有力的支持,填補(bǔ)了我國相關(guān)領(lǐng)域的空白。

病毒將長期威脅人類,積極防控急需科技創(chuàng)新

新冠疫情爆發(fā)以來,國內(nèi)疫情防控取得了舉世矚目的成效,在基礎(chǔ)研究方面也取得了大量的科研成果。

但是,新冠疫情防控形勢(shì)仍不容掉以輕心。一方面,各地輸入性病例導(dǎo)致的疫情反彈時(shí)有發(fā)生;另一方面,近期有研究表明,世界上有五億人生活在由蝙蝠帶來的冠狀病毒可能溢出的地區(qū),而我國南部地區(qū)和周邊國家大都位于這一區(qū)域,類似于新冠肺炎這樣的新型突發(fā)性傳染性疾病將會(huì)如“達(dá)摩克利斯之劍”始終高懸在人類頭頂,必須時(shí)刻警惕并采取積極措施。

有效、快速地對(duì)病毒預(yù)警預(yù)防,需要在病毒溯源、病毒基因組注釋、基因組變異和疫苗的有效性分析、病毒對(duì)人類可能的長期危害研究、新的藥物作用靶點(diǎn)發(fā)現(xiàn)等方面予以長期關(guān)注。而此前國內(nèi)一直缺少一個(gè)系統(tǒng)性的、依托前沿IT技術(shù)、能支撐包括新冠病毒在內(nèi)的重大突發(fā)性傳染病病原基礎(chǔ)研究的生物信息學(xué)和計(jì)算生物學(xué)技術(shù)中臺(tái)和數(shù)據(jù)中臺(tái)。

為此,生物島實(shí)驗(yàn)室牽頭整合中科院北京基因組研究所(國家生物信息中心)、中科院上海營養(yǎng)與健康研究所、中國醫(yī)學(xué)科學(xué)院系統(tǒng)生物學(xué)研究所、中山大學(xué)、上海同濟(jì)大學(xué)的科研力量,在中科院北京基因組研究所(國家生物信息中心)新冠大數(shù)據(jù)平臺(tái)和中科院B類戰(zhàn)略性先導(dǎo)科技專項(xiàng)”多維大數(shù)據(jù)驅(qū)動(dòng)的中國人群精準(zhǔn)健康“的項(xiàng)目支持下,協(xié)同攻關(guān),基于實(shí)驗(yàn)室與“火山引擎”合作開發(fā)的生物醫(yī)學(xué)大數(shù)據(jù)“操作系統(tǒng)”-Bio2S的開源框架體系,構(gòu)建了部署在云端的“新冠病毒基因組大數(shù)據(jù)在線分析系統(tǒng)”。該系統(tǒng)于2021年9月27日正式上線運(yùn)行,除支撐本實(shí)驗(yàn)室的科學(xué)研究外,也為全國的科研工作者開展新冠病毒基礎(chǔ)科研、防控與預(yù)警研究提供強(qiáng)有力的數(shù)據(jù)中臺(tái)和技術(shù)中臺(tái),正好填補(bǔ)了這一空白。

大數(shù)據(jù)分析系統(tǒng)將為疫情防控提供有力保障

據(jù)實(shí)驗(yàn)室介紹,“新冠病毒基因組大數(shù)據(jù)在線分析系統(tǒng)”具有統(tǒng)一的、一站式的方便用戶訪問的服務(wù)界面,其具備八大功能模塊。

一、新冠變異株檢測(cè)系統(tǒng)-CMM-Group。該應(yīng)用模塊通過合并新冠病毒基因組上共出現(xiàn)的核苷酸突變對(duì),抽提出完整的共突變模塊,用于表征不同基因型組別的新冠病毒,實(shí)現(xiàn)對(duì)新冠病毒變異體的簡單直觀的分類。同時(shí)能夠識(shí)別當(dāng)前流行變異株以及有潛在流行能力的變異株,通過它們的時(shí)空分布揭示主要流行時(shí)間和流行區(qū)域,并提供在線分組信息、進(jìn)化樹和突變信息展示。用戶可通過該應(yīng)用實(shí)時(shí)追蹤新冠病毒的進(jìn)化方向和傳播路徑,為新冠病毒疫情防控的快速響應(yīng)提供科學(xué)依據(jù)。

二、新冠病毒變異分析系統(tǒng)-VASS。該應(yīng)用模塊可以在線實(shí)時(shí)分析新冠病毒基因組變異、變異注釋及其可視化。用戶通過在線上傳新冠病毒序列,進(jìn)行變異檢測(cè)與功能注釋。應(yīng)用會(huì)根據(jù)序列進(jìn)行變異檢測(cè),并反饋檢測(cè)到的變異在所有新冠菌株中的時(shí)空信息,如變異的地理分布特征、最早出現(xiàn)時(shí)間等,還能在結(jié)果中提醒用戶注意可能影響較大的基因組變異,如與引物/探針相關(guān)的變異或影響病毒與宿主ACE2結(jié)合親和力的變異。

三、新冠病毒抗原表位分析系統(tǒng)-SAS。該應(yīng)用模塊能夠計(jì)算分析所有S蛋白突變體的表位、表位區(qū)域和潛在的抗原性。在此基礎(chǔ)上,針對(duì)新出現(xiàn)的漂移突變體生成監(jiān)測(cè)報(bào)告,并進(jìn)一步提示具有代表性的mAbs的免疫保護(hù)覆蓋率的動(dòng)態(tài)變化。數(shù)據(jù)庫預(yù)先定義的表位區(qū)域包括驗(yàn)證表位和預(yù)測(cè)表位。對(duì)于每個(gè)被查詢的突變體,用戶可以操作抗原聚類樹或熱圖來可視化查詢、對(duì)比S和基準(zhǔn)S蛋白之間的抗原性相似度。提供mAbs動(dòng)態(tài)監(jiān)控,支持以折線圖圖標(biāo)形式,幫助監(jiān)測(cè)抗原性的變化,方便mAbs疫苗的開發(fā),同時(shí)還可以針對(duì)S蛋白突變,評(píng)估其對(duì)疫苗保護(hù)作用的影響。

四、新冠病毒基因組分析工具集-ViGTK。該應(yīng)用模塊整合了超過四百萬條來自所有公開數(shù)據(jù)庫中的新冠病毒全基因組序列、全球疫情數(shù)據(jù)、科研論文數(shù)據(jù),實(shí)現(xiàn)日級(jí)的數(shù)據(jù)更新,整合病毒系統(tǒng)分類、序列聯(lián)配、變異分析、進(jìn)化網(wǎng)絡(luò)、病毒鑒定、免疫抗原等工具,持續(xù)對(duì)新冠病毒組學(xué)數(shù)據(jù)進(jìn)行跟蹤分析,每日發(fā)布新冠病毒疫情日?qǐng)?bào)和變異日?qǐng)?bào),持續(xù)跟蹤病毒的疫情變化、數(shù)據(jù)變化和變異情況??梢詫?shí)現(xiàn)針對(duì)病毒基因組的所有信息的全方位智能化檢索、關(guān)聯(lián)統(tǒng)計(jì)分析、直觀展示基因組變異信息,病毒動(dòng)態(tài)演化趨勢(shì)、時(shí)空傳播路徑,方便科學(xué)研究人員根據(jù)自己的科研需求,設(shè)計(jì)檢索思路,發(fā)現(xiàn)關(guān)鍵信息。

五、SARS-CoV-2基因組瀏覽-GenBrowser。該應(yīng)用模塊基于自主研發(fā)的新的理論分析體系,開發(fā)了完整的數(shù)據(jù)分析流程和數(shù)據(jù)可視化模塊。利用新的理論框架,基于建立的新冠病毒數(shù)據(jù)倉庫,GenBrowser在線版可以順利完成十萬、百萬數(shù)量級(jí)新冠病毒基因組序列的分析和日常更新,可為國內(nèi)和國際防疫防控的相關(guān)團(tuán)隊(duì),提供系列方便使用的免費(fèi)工具,用以監(jiān)測(cè)病毒變異頻率的變化,監(jiān)測(cè)境外輸入的病毒株系可能的來源。

六、新冠病毒知識(shí)圖譜系統(tǒng)-KGCoV。該應(yīng)用模塊提供可對(duì)臨床數(shù)據(jù)、基因組信息和流行病學(xué)數(shù)據(jù)進(jìn)行整合分析的知識(shí)圖譜工具。構(gòu)建并匹配新冠肺炎(COVID-19)的流行病學(xué)信息和新型冠狀病毒(SARS-CoV-2)的基因組數(shù)據(jù),并采用組合管理方法,整合了生物信息學(xué)工具生成的變異信息,為重構(gòu)COVID-19感染路徑及其進(jìn)化趨勢(shì)提供有力證據(jù),同時(shí)可視化地展示基因組與流行病學(xué)相關(guān)的信息。此外,該應(yīng)用還整合了新型冠狀病毒基因組,新冠肺炎相關(guān)的流行病學(xué)、臨床癥狀、旅行史、接觸史、文獻(xiàn)以及世界167個(gè)以上國家的新聞媒體報(bào)導(dǎo)等數(shù)據(jù)資源。

七、病毒基因組自動(dòng)化鑒定注釋系統(tǒng)-VIC。該應(yīng)用模塊是病毒基因組檢測(cè)分析和注釋工具??芍苯訉?duì)接各種宿主及環(huán)境樣本的RNA二代測(cè)序原始數(shù)據(jù),具有對(duì)數(shù)據(jù)全自動(dòng)質(zhì)量控制、拼接和病毒組成分析的功能,能對(duì)樣本中可能存在的包括新型冠狀病毒在內(nèi)的各種病毒進(jìn)行快速檢測(cè),并可在線分析其相對(duì)載量。

八、新冠AI影像識(shí)別系統(tǒng)。該模塊可提供基于胸部CT影像的新冠肺炎智能輔助篩查,提供病灶智能識(shí)別與精準(zhǔn)勾畫、新冠概率百分比參考、雙肺病灶容積比、雙肺CT值密度分析、四維重構(gòu)圖顯示、影像模板參考,具有PACS系統(tǒng)基礎(chǔ)功能(手動(dòng)勾畫、窗位調(diào)節(jié)、量尺、旋轉(zhuǎn)、CT值等),產(chǎn)品能準(zhǔn)確、快速輔助醫(yī)生對(duì)個(gè)體患者進(jìn)行疾病篩查判斷,精準(zhǔn)了解個(gè)體患者在治療后病灶的精準(zhǔn)變化,為臨床醫(yī)生下一步的治療提供有力的幫助。

生物島實(shí)驗(yàn)室“新冠病毒基因組大數(shù)據(jù)在線分析系統(tǒng)”攻關(guān)項(xiàng)目驗(yàn)收專家組組長陳潤生院士、副組長趙國屏院士代表專家組對(duì)生物島實(shí)驗(yàn)室大數(shù)據(jù)團(tuán)隊(duì)在李亦學(xué)研究員的帶領(lǐng)下,快速地整合、開發(fā)和部署該系統(tǒng)給予了高度贊賞,一致認(rèn)為該系統(tǒng)將新冠大數(shù)據(jù)分析的技術(shù)中臺(tái)與大數(shù)據(jù)體系融為一體,功能豐富,性能卓越,填補(bǔ)了我國新冠病毒分析缺乏系統(tǒng)性技術(shù)中臺(tái)的空白。希望在提供服務(wù)的過程中,不斷發(fā)展優(yōu)化各模塊的功能,拓展其應(yīng)用,并強(qiáng)化該系統(tǒng)的工程化運(yùn)維能力,對(duì)新冠病毒的深入研究及其預(yù)防醫(yī)學(xué)與臨床醫(yī)學(xué)的實(shí)戰(zhàn)處置提供有力的支撐和廣泛的應(yīng)用。未來,平臺(tái)還將與國家呼吸醫(yī)學(xué)中心等醫(yī)療機(jī)構(gòu)進(jìn)行數(shù)據(jù)對(duì)接,為大數(shù)據(jù)時(shí)代感染性疾病防控研究工作奠定范式轉(zhuǎn)變、能力提升的基礎(chǔ)。

來源:新華報(bào)業(yè)網(wǎng)