行業(yè)洞察:人工智能技術(shù)推動(dòng)藥物研發(fā)領(lǐng)域的蓬勃發(fā)展
現(xiàn)代化醫(yī)療水平逐年提高,但癌癥始終是人類亟待解決的重大醫(yī)療難題之一。靶向藥物的出現(xiàn)為癌癥患者帶來(lái)了福音,也為眾多藥物開發(fā)產(chǎn)業(yè)打開了市場(chǎng)。但藥物開發(fā)本身并非易事,腫瘤細(xì)胞受體及結(jié)合方式的多樣性使靶向藥物的開發(fā)難上加難。人工智能的出現(xiàn)為靶向藥物的開發(fā)帶來(lái)了新的可能,無(wú)論是新靶點(diǎn)的發(fā)現(xiàn)還是整合表型模式的篩選,人工智能依仗自身的特性和優(yōu)勢(shì),在兩個(gè)不同的方面都有不俗的表現(xiàn)。
一、抗癌靶向藥物研發(fā)市場(chǎng)的發(fā)展與現(xiàn)狀
伴隨著世界老齡化的進(jìn)程,癌癥的發(fā)病率和死亡率逐年攀升,而抗癌藥物在藥物市場(chǎng)中的占比份額更是飛速提升。靶向抗癌藥物自發(fā)現(xiàn)以來(lái),以其自身無(wú)可替代的優(yōu)越性(特異性高,毒副作用?。?,迅速占據(jù)抗癌藥物產(chǎn)業(yè)鏈頂端,截至2018年統(tǒng)計(jì),全球前10大抗腫瘤藥物全部為靶向抗癌藥物,市場(chǎng)占比接近50%,成為抗癌新藥研發(fā)的主流。而靶向藥物的開發(fā)成本也是不斐,具美國(guó)塔夫茨大學(xué)藥物開發(fā)研究中心的一項(xiàng)報(bào)告顯示,開發(fā)一個(gè)新藥的平均成本高達(dá)25.6億美元,而且這其中還沒有計(jì)算藥物的售后開支。在這天價(jià)的25.6億美元中,飽含著11.6億的同期投資損失,這部分損失就來(lái)自于藥物研發(fā)本身的機(jī)會(huì)成本。而人工智能的出現(xiàn)為降低藥物研發(fā)成本帶來(lái)了可能:更高效的發(fā)現(xiàn)新靶點(diǎn),更準(zhǔn)確的挖掘藥物新特性,更快速的整合表型模式。
深度學(xué)習(xí):以人工神經(jīng)網(wǎng)絡(luò)為框架,通過(guò)不同的神經(jīng)網(wǎng)絡(luò)層,層層遞進(jìn),從而有效挖掘數(shù)據(jù)中存在的直接或間接相關(guān)性。深度學(xué)習(xí)在靶向藥物開發(fā)工程中應(yīng)用廣泛,無(wú)論是文獻(xiàn)數(shù)據(jù)挖掘還是圖片信息提取,都離不開深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的構(gòu)建:利用遞歸神經(jīng)網(wǎng)絡(luò)和LSTM等模型技術(shù),可以對(duì)文獻(xiàn)文本信息進(jìn)行處理;利用卷積神經(jīng)網(wǎng)絡(luò)可以進(jìn)行更高維度的圖片處理,高效提取圖片中的特征信息。
自然語(yǔ)言處理:利用計(jì)算機(jī)技術(shù)處理文本信息或語(yǔ)言類聲音信息,使機(jī)器能夠”懂得“自然語(yǔ)言的語(yǔ)言結(jié)構(gòu),從而能夠挖掘其中的有效特征信息。自然語(yǔ)言處理技術(shù)能夠?qū)崿F(xiàn)靶向藥物開發(fā)中海量文獻(xiàn)挖掘的任務(wù),實(shí)現(xiàn)知識(shí)的匯總與進(jìn)化。
大數(shù)據(jù)技術(shù):大數(shù)據(jù)技術(shù)的體系龐大,基礎(chǔ)技術(shù)包括數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理,數(shù)據(jù)倉(cāng)庫(kù)等。利用大數(shù)據(jù)技術(shù),可以整理總結(jié)不同蛋白序列、分子結(jié)構(gòu)、小分子組成等靶向藥物的臨床藥用效果、分子動(dòng)力學(xué)特征,以及靶向分子和癌細(xì)胞受體之間的結(jié)合力及穩(wěn)定性的數(shù)據(jù),并利用這些數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)模型的精準(zhǔn)預(yù)測(cè)。
特征抽?。豪没A(chǔ)的統(tǒng)計(jì)學(xué)方法、監(jiān)督機(jī)器學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的方法,挖掘藥物數(shù)據(jù),生理數(shù)據(jù)以及病理數(shù)據(jù)之間的相關(guān)性,提取有效靶向藥物之間的共同特征,并加以總結(jié)簡(jiǎn)化,從而生成新的、結(jié)合效率更高、治療效果更好的靶向藥物。
表征學(xué)習(xí):也稱特征學(xué)習(xí),是指將抽取總結(jié)出的特征作為機(jī)器學(xué)習(xí)模型的輸入?yún)?shù),通過(guò)監(jiān)督機(jī)器學(xué)習(xí)或無(wú)監(jiān)督聚類機(jī)器學(xué)習(xí),獲得特征與結(jié)果之間的,或特征與特征之間的相關(guān)性關(guān)系。
三、人工智能在抗癌靶向藥物研發(fā)中的應(yīng)用分布
四、人工智能技術(shù)在靶向藥物研發(fā)中的落地案例
IBM Watson:藥物開發(fā)服務(wù)利用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)對(duì)海量文獻(xiàn),病理等文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理與特征抽取,構(gòu)建數(shù)據(jù)庫(kù)并試圖挖掘數(shù)據(jù)之間的相關(guān)性,從而提出新的假說(shuō),推動(dòng)新藥的研發(fā)。
Insilico Medicine:與藥明康德合作,嘗試?yán)肐nsilico Medicine獨(dú)有的生成對(duì)抗網(wǎng)絡(luò)(GAN)和強(qiáng)化學(xué)習(xí)(RL)等新型算法,針對(duì)全新的以及具有挑戰(zhàn)性的靶點(diǎn),為客戶開發(fā)理想的臨床前藥物候選分子。
AccutarBio冰洲石生物科技:作為靶向治療服務(wù)提供商,致力于通過(guò)AI技術(shù)提高篩選藥物準(zhǔn)確性和效率,打造算法平臺(tái),加速新一代藥物開發(fā),而其基于蛋白晶體學(xué)數(shù)據(jù)的人工智能解決辦法已經(jīng)在藥物設(shè)計(jì)領(lǐng)域投入生產(chǎn)實(shí)踐。而其提出的3D Molecular 算子和深度化學(xué)結(jié)構(gòu)網(wǎng)絡(luò)(Accutar ChemiNet)的計(jì)算預(yù)測(cè)比現(xiàn)有的方法的預(yù)測(cè)準(zhǔn)確率還有提升,使得實(shí)驗(yàn)開發(fā)階段的產(chǎn)率更加穩(wěn)定。
BERG:提出基于人工智能的Interrogative Biology平臺(tái)技術(shù),通過(guò)通過(guò)對(duì)多種癌細(xì)胞和健康人類細(xì)胞樣本進(jìn)行高通量對(duì)比測(cè)試,來(lái)尋找治療疾病的新靶點(diǎn)和診斷疾病的生物標(biāo)志物。
Cyclica:開發(fā)Ligand Express的云端蛋白質(zhì)組(proteome)篩選平臺(tái),利用人工智能輔助基于分子結(jié)構(gòu)的蛋白質(zhì)組篩選,作用于發(fā)現(xiàn)小分子化合物結(jié)合的新靶點(diǎn)。
五、人工智能技術(shù)在靶向藥物研發(fā)領(lǐng)域的局限性
支撐人工智能的大數(shù)據(jù)相對(duì)缺乏:部分發(fā)病率較低的癌癥和較為冷門的研究方向,其生物學(xué)樣本和文獻(xiàn)資料相對(duì)匱乏,有限的數(shù)據(jù)無(wú)法支撐大數(shù)據(jù)數(shù)據(jù)庫(kù)的需求。
驗(yàn)證人工智能挖掘的新靶點(diǎn)有成本風(fēng)險(xiǎn):利用人工智能挖掘的新靶點(diǎn)數(shù)量繁雜,由于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)“黑盒子”的特性,對(duì)挖掘出的新靶點(diǎn)缺少有效的機(jī)制上的解釋,進(jìn)而增加了驗(yàn)證靶點(diǎn)的風(fēng)險(xiǎn);
人工智能挖掘文獻(xiàn)數(shù)據(jù)的性噪比不可控:利用人工智能和自然語(yǔ)言處理挖掘得到的文獻(xiàn)數(shù)據(jù),由于其在來(lái)源、影響因子、實(shí)驗(yàn)設(shè)計(jì)科學(xué)新、數(shù)據(jù)分析可信度上的差異,導(dǎo)致收集到的信息中有效信息和噪音信息比例不一而同。
六、人工智能技術(shù)在靶向藥物研發(fā)領(lǐng)域的發(fā)展趨勢(shì)
人工智能介入藥物創(chuàng)新開發(fā)是必然趨勢(shì):基于人工智能預(yù)測(cè)本身的高效性和準(zhǔn)確度,以及其強(qiáng)大的數(shù)據(jù)處理和計(jì)算能力,越來(lái)越多的依賴人工智能的藥物開發(fā)項(xiàng)目出現(xiàn)將是必然趨勢(shì);
基于人工智能的虛擬測(cè)試和藥物篩選節(jié)約企業(yè)成本:利用大數(shù)據(jù)庫(kù)中的生理學(xué)藥理學(xué)信息的人工智能模型,可以根據(jù)新開發(fā)藥物本身的化學(xué)特征,對(duì)其實(shí)驗(yàn)表現(xiàn)和臨床表現(xiàn)進(jìn)行模擬和預(yù)測(cè),從而極大的節(jié)約了開發(fā)成本;
人工智能圖像處理能力或可催生新學(xué)科誕生:利用人工智能可以實(shí)現(xiàn)顯微圖片更為精確的信息讀取,挖掘圖片中肉眼難以發(fā)現(xiàn)的細(xì)節(jié)和趨勢(shì),并通過(guò)挖掘顯微圖片與臨床效果之間的相關(guān)性,催生類似于細(xì)胞圖像生物學(xué)的新學(xué)科。
來(lái)源:機(jī)器之能???作者:于琳洋

