制藥行業(yè)又添互聯(lián)網(wǎng)新玩家,騰訊首個AI“智藥”平臺上線
隨著 AI 向各行各業(yè)逐漸深入地滲透,“AI + 醫(yī)療”近年來在健康管理、醫(yī)學影像、輔助診斷等應用場景方面取得了不少進展,而極具技術壁壘的新藥研發(fā)場景仍然還是一片藍海,由此也博得了產(chǎn)業(yè)界和資本界的高度關注。
目前,“AI + 新藥研發(fā)”的入局者主要有兩類:一類是以 Insilico Medicine、Atomwise 等為代表的初創(chuàng)企業(yè),團隊以生物計算交叉背景居多,發(fā)展勢頭強勁;另一類是已經(jīng)具備先進的 AI 技術能力,后向醫(yī)學領域溢出的互聯(lián)網(wǎng)科技公司,比如谷歌和賽諾菲聯(lián)合推出藥物研發(fā)虛擬創(chuàng)新實驗室,微軟宣布與諾華進行為期 5 年的 “AI + 藥物研發(fā)” 合作。
在國內(nèi),騰訊也加入了這一行列,此前,騰訊曾多輪投資做藥物晶型預測的晶泰科技。本月初,騰訊首席運營官任宇昕在 “世界人工智能大會 2020 云端峰會” 對外宣布進軍 “AI + 新藥研發(fā)” 領域,其自主研發(fā)的 AI 藥物發(fā)現(xiàn)平臺 “云深智藥(iDrug)” 正式亮相。
兩個模塊已開放使用
“云深智藥” 緣起于 “只在此山中,云深不知處”, 道出了新藥研發(fā)的復雜過程。眾所周知,新藥研發(fā)周期一般為 14 年,研發(fā)費用超過 10 億美元,且研發(fā)成功率低,原研化藥研發(fā)成功率約 6%。
圖 | “云深智藥”藥物發(fā)現(xiàn)平臺(來源:“云深智藥”官網(wǎng))
“云深智藥”是一個小分子藥物發(fā)現(xiàn)平臺,其功能模塊覆蓋臨床前新藥發(fā)現(xiàn)的全流程,包括蛋白質(zhì)結構預測、虛擬篩選、分子設計 / 生成、ADMET 預測及合成路線規(guī)劃五大模塊。平臺已于 7 月 8 日上線虛擬篩選和 ADMET 性質(zhì)預測兩個模塊,供用戶免費使用;蛋白質(zhì)結構預測、分子設計 / 優(yōu)化、合成路線規(guī)劃等模塊將陸續(xù)在年內(nèi)上線。官方稱,除了能夠免費使用平臺搭載的核心功能外,藥企、科研機構還可以與騰訊共同開發(fā)定制化的 AI 工具。
圖 | “云深智藥”五大模塊,目前虛擬篩選和 ADMET 性質(zhì)預測兩個模塊已開放上線,供用戶免費使用 (來源:“云深智藥”官網(wǎng))
騰訊告訴生輝,目前 “云深智藥” 平臺上已經(jīng)在運行十個左右研發(fā)項目,包括篩選抗新冠病毒藥物的相關研究等。其合作伙伴主要包括高校等科研機構和醫(yī)藥研發(fā)企業(yè)(包括國內(nèi)外知名藥企)。
“云深智藥”是騰訊以 AI 技術賦能藥物發(fā)現(xiàn)的首個產(chǎn)品,由騰訊 AI Lab 打造。騰訊 AI Lab 于 2017 年開始 “AI + 醫(yī)療” 探索,從影像篩查、病理診斷、再到 2019 年初啟動了藥物研發(fā)項目。今年 7 月 21 日,騰訊對外披露了其在醫(yī)療健康領域的最新進展。鐘南山院士團隊與騰訊 AI Lab 聯(lián)合發(fā)布了一項利用 AI 預測 COVID-19 患者病情發(fā)展至危重概率的研究成果,可分別預測 5 天、10 天和 30 天內(nèi)病情危重的概率,有助合理地為病人進行早期分診。
當被問及緣何加入 “AI + 新藥研發(fā)” 領域,騰訊回答:“數(shù)字化、智能化的藥物研發(fā)方法已展示出重要的潛力和價值;同時,在 “AI + 醫(yī)療” 領域,騰訊已經(jīng)積累了一定的前沿算法、數(shù)據(jù)庫優(yōu)化和計算資源上的優(yōu)勢,希望通過整合自身的研究能力與應用經(jīng)驗,打造 AI 驅(qū)動的新藥研發(fā)平臺,用技術助力藥企與科研機構,縮短藥物研發(fā)周期,提高藥物研發(fā)流程的效率和準確率?!?/p>
“AI + 新藥研發(fā)”是一個交叉學科領域,只有精深的 AI 技術遠遠不夠,生物學以及物理化學等知識體系與藥物發(fā)現(xiàn)平臺息息相關。對此,騰訊向生輝透露了其團隊構成,其團隊成員包括來自頂級科研機構和知名藥企的生物醫(yī)藥專家,和國內(nèi)外一流高校的 AI 算法科學家(以 AI 相關專業(yè)博士為主),以及平臺系統(tǒng)技術開發(fā)工程師。
平臺優(yōu)勢
騰訊稱:“該平臺的一大優(yōu)勢在于各功能模塊為用戶提供騰訊自研的創(chuàng)新算法,其算法準確度達到國際領先水平,能更高效率、高質(zhì)量地完成研發(fā)任務。比如在蛋白質(zhì)結構預測模塊,平臺的自研算法在國際權威的 CAMEO 大賽中獲得驗證,比分大幅超越其他頂級學界與企業(yè)隊,保持了月度及周度冠軍。在藥物虛擬篩選和 ADMET 性質(zhì)預測上,平臺的自研算法也在多個公開數(shù)據(jù)集上取得了較高精確度、突破了業(yè)界標準。還提供數(shù)據(jù)庫 – 算法 – 算力一體化服務,藥企、科研機構登錄平臺即可開展研究,不需要再自行部署計算資源,從而能快速地將 AI 能力引入現(xiàn)有的研發(fā)流程中?!?/p>
CAMEO 平臺提供蛋白質(zhì)結構預測、三維蛋白質(zhì)結構質(zhì)量評估和氨基酸殘基接觸預測評估,采用由蛋白質(zhì)結構預測社區(qū)制定的質(zhì)量評估標準。它是全球預測蛋白質(zhì)結構領域最權威的測試平臺,也是全球唯一的蛋白質(zhì)結構預測自動評估平臺。在與包含華盛頓大學、密歇根大學在內(nèi)的 35 支頂級學界與企業(yè)隊的較量中,“云深智藥”在半年內(nèi)奪得五次月度冠軍。
圖 | 騰訊算法測評(來源:https://cloud.tencent.com/developer/article/1658085)
根據(jù)騰訊的介紹以及平臺官網(wǎng)數(shù)據(jù),以 “云深智藥” 已開放的虛擬篩選模塊為例,其具體功能是:
基于配體的藥物設計方法(ligand-based drug design,LBDD)是虛擬篩選的常見方法之一,指的是從已知有活性的配體小分子結構出發(fā),學習和建立分子結構與活性之間關系的模型,用來預測新化合物的活性,適用于在靶點和晶體結構不明確的情況下篩選分子。目前,該模塊支持對 920 個蛋白質(zhì)靶點相關的 2224 個生物測試實驗進行活性預測和分子篩選。
具體使用流程是:
第一步,在不知道 Assay ID 的情況下,通過靶點選擇相關 Assay,輸入靶點后再勾選相關的 Assay ID;在知道 Assay ID 的情況下,通過直接指定的方式選擇 Assay ID 列表,點擊 “Assay” 選項輸入 Assay ID,系統(tǒng)會根據(jù)輸入的前綴給出相關候選 Assay ID;
第二步,選擇 Safety Panel Assay;
第三步,選擇 Kinase 相關 Assay;
第四步,選擇分子庫;
第五步,設置好上述參數(shù)以后,點擊提交任務;
第六步,查詢?nèi)蝿战Y果,點擊歷史記錄按鈕,并以 csv 文件的格式導出。
圖 | 基于配體的藥物設計方法操作流程(來源:“云深智藥”官網(wǎng))
平臺開放的另一個模塊,ADMET 性質(zhì)預測,指的是對藥物的吸收、分布、代謝、排泄和毒性性質(zhì)的全面研究,藥物早期的 ADMET 性質(zhì)預測可以明顯提高藥物研發(fā)的成功率。目前,ADMET 模塊已經(jīng)上線了 50 個模型(包括 12 個基本理化性質(zhì)和 38 個 ADMET 性質(zhì))。通常,計算 100 個分子需要大約 3 分鐘。
具體操作流程是:
第一步通過分子式編輯器、SMILES 表達式和上傳分子式文件等方式輸入數(shù)據(jù);
第二步,輸入數(shù)據(jù)后,會顯示預測結果(主要包括 3 個部分即分子結構圖、基礎屬性和 ADMET 屬性),然后把預測結果保存為 csv 格式導出;
第三步,用戶可以查詢歷史記錄;
第四步,查看 ADMET 屬性。
圖 | ADMET 預測流程(來源:“云深智藥”官網(wǎng))
數(shù)據(jù)及可解釋性問題帶來的挑戰(zhàn)
雖然 AI 技術通過深度學習算法,加快新藥研發(fā)進程,但是也存在著一系列局限性。比如說 AI 對數(shù)據(jù)樣本依賴大(但是很多數(shù)據(jù)掌握在藥廠和醫(yī)院手中)以及預測指標單一,這些往往是藥物發(fā)現(xiàn)的重要制約條件。當前,國內(nèi) “AI + 新藥研發(fā)” 起步相對較晚,研發(fā)周期相對較長,加上算法需要大量的數(shù)據(jù)積累,短期之內(nèi)企業(yè)難以盈利。目前,還沒有一家 AI 藥物研發(fā)的成功案例,也還沒有一款 AI 研發(fā)的藥物被批準上市。此外,傳統(tǒng)醫(yī)藥行業(yè)對于 AI 驅(qū)動藥物研發(fā)也不乏質(zhì)疑之聲,這些都為 “AI + 新藥研發(fā)” 增添了一抹不確定性。
談及如何克服 AI 存在的局限性,騰訊認為:“‘云深智藥’平臺使用的分子大數(shù)據(jù),基于現(xiàn)有公開數(shù)據(jù)集,且進行了多個環(huán)節(jié)的精細清洗整理工作,得到可以用于直接構建深度學習模型的藥物分子大數(shù)據(jù)集,從而幫助用戶解決了數(shù)據(jù)難以對齊、字段缺失較多、總體質(zhì)量不佳等開源數(shù)據(jù)集的常見問題。此外,平臺還可提供本地版本等靈活的部署形式,藥物企業(yè)和研究機構利用自有數(shù)據(jù)開展研究,數(shù)據(jù)安全能得到有效保障。”
“從目前情況來看,藥物研發(fā)行業(yè)既希望 AI 能幫助改變藥物研發(fā)的漫長過程和低成功率,也要求此類工具能充分驗證自身能力并提供可解釋性?!粕钪撬帯脚_很重視 AI 的可解釋性問題。比如在在分子屬性預測問題上,模型缺可解釋性就是一大挑戰(zhàn)。該平臺的 ADMET 模塊,可以在精確預測分子屬性的同時,給出模型預測的依據(jù),提高模型的可信度?!?騰訊補充道。
AI 畢竟不是魔法,無法點石成金?!癆I + 新藥研發(fā)”亦是如此,還需要長期的沉淀。騰訊此番入局 “AI + 新藥研發(fā)” 能否幫助找到“云深之處”,同樣也需要時間來證明。
來源:麻省理工科技評論


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉載。