上海藥物所提出機(jī)器學(xué)習(xí)輔助定向進(jìn)化新方法
定向進(jìn)化是模擬自然進(jìn)化機(jī)制,利用現(xiàn)代分子生物學(xué)方法創(chuàng)造大量的突變基因文庫,采用靈敏的定向篩選策略,創(chuàng)造出自然界不存在的或改良特性的蛋白質(zhì)等生物分子的一種方法。定向進(jìn)化已廣泛應(yīng)用于蛋白質(zhì)的分子改造和優(yōu)化,被認(rèn)為是生產(chǎn)具有改良或全新特性的蛋白質(zhì)的高效方法,對于酶工程、多肽和大分子藥物設(shè)計(jì)都具有重要意義。傳統(tǒng)的定向進(jìn)化實(shí)驗(yàn)流程包括篩選測試大量突變序列的功能,將得到的最優(yōu)序列作為親本序列進(jìn)行下一輪的突變和篩選,實(shí)行多輪突變篩選以得到功能優(yōu)化的蛋白序列。然而,傳統(tǒng)的定向進(jìn)化方式容易陷入局部最優(yōu),且實(shí)驗(yàn)所得的突變序列空間受限。
近年來,機(jī)器學(xué)習(xí)輔助定向進(jìn)化得到越來越多的關(guān)注,通過計(jì)算機(jī)模型模擬實(shí)驗(yàn)篩選過程,可以顯著減少實(shí)驗(yàn)篩選負(fù)擔(dān)、提高篩選效率。機(jī)器學(xué)習(xí)方法最重要的是建立模型學(xué)習(xí)目標(biāo)蛋白的序列突變體-功能的函數(shù)映射關(guān)系。這種映射關(guān)系被稱為蛋白質(zhì)適應(yīng)度圖景(protein fitness landscape),其中適應(yīng)度(fitness)是一個(gè)抽象概念,可定量刻畫特定蛋白質(zhì)序列具有的某種生物學(xué)功能(如蛋白的熱穩(wěn)定性、與其他蛋白質(zhì)的相互作用強(qiáng)弱、催化特定酶促反應(yīng)的效率等)。由于蛋白質(zhì)功能不同,適應(yīng)度圖景本身的內(nèi)涵各不相同。此外,蛋白質(zhì)突變效應(yīng)數(shù)據(jù)難以獲得、實(shí)驗(yàn)費(fèi)時(shí)費(fèi)力、蛋白質(zhì)適應(yīng)度圖景較為復(fù)雜。因此,如何使用有限的實(shí)驗(yàn)數(shù)據(jù)學(xué)習(xí)蛋白質(zhì)適應(yīng)度圖景以指導(dǎo)定向進(jìn)化實(shí)驗(yàn)成為難題之一。
中國科學(xué)院上海藥物研究所鄭明月課題組、廖蒼松課題組,提出了新的深度神經(jīng)網(wǎng)絡(luò)模型GVP-MSA。該模型基于已有的不同類型的蛋白質(zhì)適應(yīng)度圖景,通過遷移學(xué)習(xí)的方式構(gòu)建新的目標(biāo)蛋白的適應(yīng)度圖景。8月16日,相關(guān)研究成果以Learning protein fitness landscapes with deep mutational scanning data from multiple sources為題,在線發(fā)表在《細(xì)胞系統(tǒng)》(Cell Systems)上。
研究從蛋白質(zhì)熱穩(wěn)定性、上位性效應(yīng)和序列保守性等多個(gè)方面,探討了適應(yīng)度圖景的共同機(jī)制。蛋白質(zhì)發(fā)揮功能的基礎(chǔ)是能夠折疊和維持穩(wěn)定的三維結(jié)構(gòu)。研究對不同蛋白的計(jì)算結(jié)果發(fā)現(xiàn),突變導(dǎo)致適應(yīng)度的變化和熱穩(wěn)定性變化的數(shù)值上有相關(guān)性。上位性效應(yīng)在不同蛋白的適應(yīng)度圖景中也隱含有相似機(jī)制。上位性效應(yīng)表示殘基在蛋白質(zhì)中存在相互作用,導(dǎo)致多點(diǎn)突變效應(yīng)并不等于其組成的單點(diǎn)突變效應(yīng)的加和。研究發(fā)現(xiàn),在不同蛋白適應(yīng)度圖景中,具有正向上位效應(yīng)的雙點(diǎn)突變的兩個(gè)氨基酸的位置在三維結(jié)構(gòu)上更加接近。此外,突變效應(yīng)與同源序列的隱含分布之間的關(guān)系具有共性。這些共性是適應(yīng)度圖景遷移學(xué)習(xí)的基礎(chǔ)(圖1)。
此外,該團(tuán)隊(duì)設(shè)計(jì)了多種測試場景:單點(diǎn)突變效應(yīng)的隨機(jī)和按位置外推、對新蛋白質(zhì)突變效應(yīng)的零樣本預(yù)測以及由單點(diǎn)突變效應(yīng)預(yù)測多點(diǎn)突變效應(yīng)(圖2)。這些場景模擬了在定向進(jìn)化實(shí)驗(yàn)中不同階段的實(shí)際需求。GVP-MSA在這三種測試情景中均有良好的表現(xiàn),驗(yàn)證了適應(yīng)度圖景遷移學(xué)習(xí)的有效性。該工作為機(jī)器學(xué)習(xí)輔助定向進(jìn)化提供了新思路,有助于更加高效地探索蛋白質(zhì)序列突變空間、快速設(shè)計(jì)具有改良或全新特性的蛋白質(zhì)序列。
研究工作得到國家自然科學(xué)基金、臨港實(shí)驗(yàn)室、國家重點(diǎn)研發(fā)計(jì)劃、中國科學(xué)院青年創(chuàng)新促進(jìn)會(huì)、上海市自然科學(xué)基金以及上海藥物所與上海中醫(yī)藥大學(xué)中醫(yī)藥創(chuàng)新團(tuán)隊(duì)聯(lián)合研究項(xiàng)目的支持。
圖1.?蛋白質(zhì)適應(yīng)度圖景遷移學(xué)習(xí)的動(dòng)機(jī)和基礎(chǔ)。a、在不同蛋白的深度突變掃描實(shí)驗(yàn)中,突變導(dǎo)致的熱穩(wěn)定性變化與適應(yīng)度變化相關(guān)。柱狀圖顯示了由Rosetta計(jì)算的熱穩(wěn)定性和適應(yīng)度變化之間的Spearman相關(guān)性。b、具有正上位效應(yīng)的雙點(diǎn)突變的殘基在三維結(jié)構(gòu)上更加接近。粉色直方圖表示具有正向上位效應(yīng)的雙點(diǎn)突變的殘基間距離,藍(lán)色直方圖表示所有雙點(diǎn)突變的殘基間距離。
圖2.?GVP-MSA模型架構(gòu)和應(yīng)用場景需求概覽。a、GVP-MSA的模型架構(gòu)。b、蛋白質(zhì)定向進(jìn)化的應(yīng)用場景需求:(1)沒有目標(biāo)蛋白質(zhì)的適應(yīng)度數(shù)據(jù)時(shí),對新蛋白質(zhì)的零樣本預(yù)測能力;(2)已有少量目標(biāo)蛋白的適應(yīng)度數(shù)據(jù)時(shí),模型的隨機(jī)和按位置外推能力;(3)只有單點(diǎn)突變的適應(yīng)度數(shù)據(jù)時(shí),模型對多點(diǎn)突變效應(yīng)的預(yù)測能力。
來源:中科院


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。