北京大學高歌課題組提出單細胞多組學數(shù)據(jù)整合與調控推斷新方法
基因的轉錄在生物學中心法則中處于承上啟下的重要環(huán)節(jié),與相對“靜態(tài)”的基因組相比,轉錄組在不同組織/器官/發(fā)育階段均有顯著變化,是細胞完成相應生理/病理功能的重要生物學基礎。細胞是構成生命的基礎單元,迅速發(fā)展的單細胞測序技術為在單細胞層面研究細胞功能及其背后的基因調控機制提供了重要的技術手段,單細胞測序可用于檢測多種不同的組學種類,包括轉錄組、染色質開放組、DNA甲基化組、組蛋白修飾組等等,對不同組學技術產生的數(shù)據(jù)進行整合分析有助于更全面地刻畫細胞內的基因調控狀態(tài)、揭示調控機制。然而,與傳統(tǒng)的bulk數(shù)據(jù)相比,單細胞數(shù)據(jù)具有規(guī)模大(百萬級細胞)、噪聲高(dropout, batch effect)、異構性強等特點,如何通過開發(fā)新的計算方法實現(xiàn)對這些寶貴數(shù)據(jù)的有效利用已成為當今生物信息學領域關注的重點與熱點。
針對上述挑戰(zhàn),2022年5月2日,北京大學/昌平實驗室高歌研究員課題組于 Nature Biotechnology 發(fā)表題為“Multi-omics single-cell data integration and regulatory inference with graph-linked embedding”的研究論文,提出了基于圖耦聯(lián)策略的深度學習方法GLUE,首次實現(xiàn)了對百萬級單細胞多組學數(shù)據(jù)的無監(jiān)督精準整合與調控推斷。
單細胞多組學數(shù)據(jù)整合的一大挑戰(zhàn)在于不同組學的特征空間存在差異,例如轉錄組的特征是基因,而染色質開放組的特征是染色質開放區(qū)段,不同特征空間的細胞缺乏可比性。為了解決這一問題,GLUE提出了全新的圖耦聯(lián)(graph-linking)策略,將組學特征間的先驗調控關系表示成引導圖(guidance graph)的形式,其中節(jié)點為組學特征,邊為組學特征間的先驗調控關系。模型采用變分圖自編碼器(Variational Graph AutoEncoder, VGAE)學習組學特征的低維表示作為組學數(shù)據(jù)的解碼器權重,從而將不同組學的低維隱空間表示關聯(lián)起來并確保其“語義一致性”;在此基礎上,GLUE進一步引入對抗學習以消除不同組學降維表示之間的系統(tǒng)性差異(圖1)。
圖1 GLUE模型的結構示意圖
與其它方法相比,GLUE的主要優(yōu)勢包括:
多組學整合的精度高:多個單細胞轉錄組與染色質開放組數(shù)據(jù)的整合評測顯示,GLUE無論是在細胞類型層面和單細胞層面,相比已有單細胞多組學整合算法具有更高的整合精度(圖2a–c);
對于先驗調控知識具有魯棒性:GLUE引導圖中使用的先驗調控關系無需特別精確,以單細胞轉錄組與染色質開放組數(shù)據(jù)整合為例,只要將染色質開放區(qū)段與臨近基因相連就可以構建有效的引導圖,噪聲實驗表明即便對上述引導圖添加大量隨機擾動,GLUE仍能得到正確的整合結果(圖2d);
圖2 GLUE的多組學整合性能評測結果
具有較高的計算可擴展性(scalability):GLUE的計算復雜度與細胞數(shù)之間呈亞線性(sublinear)關聯(lián),是同類方法中唯一可以精準分析上百萬單細胞的方法(圖3);
圖3 GLUE首次實現(xiàn)了圖譜級超大規(guī)模單細胞多組學數(shù)據(jù)的準確整合。與同類工具相比,GLUE在細胞分辨率與疊合精度方面均具有顯著的優(yōu)勢
可支持任意數(shù)量、調控方向的組學數(shù)據(jù):通過引入組學特異的變分自編碼器(Variational AutoEncoder, VAE)組件堆疊,GLUE支持對多組學非配對(unpaired)數(shù)據(jù)的無監(jiān)督整合。作者成功用其整合了小鼠大腦上皮的單細胞轉錄組、染色質開放組和DNA甲基化組,并顯示了三組學整合可以有效地改善細胞的類型注釋。與此同時,GLUE在設計上引入了模塊化思想,可容易地進一步擴充以支持如單細胞Ribo-seq、空間轉錄組等更多組學類型數(shù)據(jù)整合;
可同時進行調控推斷:除了細胞層面的跨組學匹配,由于GLUE在先驗調控圖中直接對調控關系進行了建模,還可綜合先驗調控信息與多組學數(shù)據(jù)統(tǒng)計相關性,實現(xiàn)可靠的轉錄調控推斷,作者以外周血數(shù)據(jù)集為例,應用GLUE整合了pcHi-C物理相互作用、eQTL突變表型關聯(lián)、以及單細胞轉錄組與染色質開放組資料,并證明GLUE可有效整合多種調控證據(jù)以得到精準的調控關聯(lián)(圖4)。值得指出的是,GLUE引導圖所需的先驗調控關系無需特別精確(以單細胞轉錄組與染色質開放組數(shù)據(jù)整合為例,只要將染色質開放區(qū)段與臨近基因相連就可以構建有效的引導圖),系統(tǒng)的評測顯示GLUE多組學整合與調控推斷均具有較強的魯棒性。
圖4 GLUE可綜合先驗調控知識與單細胞多組學觀測進行可靠的調控推斷
GLUE全部實現(xiàn)代碼已經開源發(fā)布(https://github.com/gao-lab/GLUE),可通過PyPI和Anaconda平臺直接安裝使用。
博士生曹智杰為該論文第一作者,高歌為該論文通訊作者。該研究得到了國家重點研發(fā)計劃、蛋白質與植物基因研究國家重點實驗室、北京未來基因診斷高精尖創(chuàng)新中心和昌平實驗室的資助。計算分析工作于北京大學高性能計算校級公共平臺和北京大學太平洋高性能計算平臺完成。
來源:北京大學


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經許可,禁止轉載。