2月18日,北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、生命科學(xué)學(xué)院、北京未來基因診斷高精尖創(chuàng)新中心(ICG)、生命科學(xué)聯(lián)合中心(CLS)張澤民實驗室聯(lián)合百奧智匯在期刊 Genome Biology 上發(fā)表了題為“iMAP: integration of multiple single-cell datasets by adversarial paired transfer networks”的生物信息方法學(xué)論文,提出了基于深度自編碼器和生成式對抗神經(jīng)網(wǎng)絡(luò)的單細胞數(shù)據(jù)整合的新方法iMAP。

北京大學(xué)張澤民課題組發(fā)表單細胞數(shù)據(jù)整合新方法-肽度TIMEDOO

利用單細胞RNA測序技術(shù)產(chǎn)生可靠新發(fā)現(xiàn)的重要途徑是整合多來源的數(shù)據(jù)集。然而,不同批次實驗產(chǎn)生的數(shù)據(jù)集之間存在不可避免的技術(shù)差異,消除這些技術(shù)差異而保留不同實驗之間真實存在的生物學(xué)差異,是開發(fā)批量效應(yīng)消除方法的主要挑戰(zhàn)。目前的主流批次效應(yīng)消除方法都很難在兩者之間做到可靠的平衡。

張澤民實驗室博士后王東方等開發(fā)了一種新的方法iMAP,為單細胞數(shù)據(jù)的有效整合提供了新的思路。他們開發(fā)的iMAP方法結(jié)合了目前兩種最先進的無監(jiān)督深度網(wǎng)絡(luò)結(jié)構(gòu)—深度自編碼器和生成式對抗神經(jīng)網(wǎng)絡(luò)(GAN)的優(yōu)勢。GAN的主要作用在于能夠準(zhǔn)確地將不同數(shù)據(jù)集、相同細胞類型的細胞的基因表達分布進行混合,然而真實生物數(shù)據(jù)集的細胞組成十分復(fù)雜,可能存在不完全重合的細胞類型,相同細胞類型在不同數(shù)據(jù)集中的分布比例也可能存在很大差異。因此,iMAP首先構(gòu)建了一種新的自編碼器結(jié)構(gòu)來提取細胞的低維表示特征,該特征能夠一定程度上消弭批次效應(yīng)的影響,同時保留不同數(shù)據(jù)集之間真實存在的生物學(xué)差異,進而通過構(gòu)建rwMNN細胞對,形成有效的自訓(xùn)練數(shù)據(jù)指導(dǎo)后續(xù)GAN網(wǎng)絡(luò)進行正確的細胞基因表達分布混合。與其他方法相比,iMAP既能匹配不同批次數(shù)據(jù)集中相同類型的細胞的基因表達分布,又能識別各個數(shù)據(jù)集上特定的細胞類型。他們在十多個不同規(guī)模、不同測序技術(shù)產(chǎn)生的數(shù)據(jù)集上論證了iMAP方法的有效性與可靠性。與其他基于深度學(xué)習(xí)的方法相比,iMAP在大規(guī)模數(shù)據(jù)集上具有顯著的速度優(yōu)勢。他們也將iMAP應(yīng)用于腫瘤浸潤免疫細胞數(shù)據(jù)集的分析,通過整合分別由Smart-seq2和10x Genomics技術(shù)產(chǎn)生的數(shù)據(jù)集發(fā)現(xiàn)了腫瘤微環(huán)境中新的細胞間相互作用。

北京大學(xué)張澤民課題組發(fā)表單細胞數(shù)據(jù)整合新方法-肽度TIMEDOO

iMAP算法的基本框架

iMAP提供了免費Python軟件包(https://github.com/Svvord/iMAP),可供用戶實現(xiàn)單細胞轉(zhuǎn)錄組數(shù)據(jù)整合。隨著單細胞測序技術(shù)的廣泛普及應(yīng)用以及大量的大規(guī)模數(shù)據(jù)集的產(chǎn)生,iMAP可能成為整合不同批次實驗產(chǎn)生的數(shù)據(jù)的有利工具,并為后續(xù)算法的開發(fā)提供新的思路。

北京大學(xué)BIOPIC/生命科學(xué)學(xué)院博士后王東方和清華大學(xué)博士生侯思宇為該論文的共同第一作者,王東方和BIOPIC/生命科學(xué)學(xué)院張澤民教授為該論文的通訊作者。該課題得到了國家自然科學(xué)基金委、北京未來基因診斷高精尖創(chuàng)新中心及北京百奧智匯的資助。

來源:北京大學(xué)