2019年10月8日,清華大學(xué)生命科學(xué)學(xué)院、結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心張強鋒課題組《自然通訊》Nature Communications)上發(fā)表題為“SCALE方法基于隱特征提取進行單細胞ATAC-seq數(shù)據(jù)分析”(SCALE method for single-cell ATAC-seq analysis via latent feature extraction)的學(xué)術(shù)文章。真核生物的染色質(zhì)具有復(fù)雜的高級結(jié)構(gòu),由DNA一圈一圈纏繞在組蛋白上形成串珠式模型并進一步折疊聚集而成?;虻霓D(zhuǎn)錄必須要將相應(yīng)的染色質(zhì)打開形成開放區(qū)域才能結(jié)合其他的轉(zhuǎn)錄調(diào)控因子。因此可以說染色質(zhì)開發(fā)區(qū)域是基因組編碼生命的窗口。單細胞ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing)技術(shù)在單細胞層次上通過Tn5 DNA轉(zhuǎn)座酶在開放染色質(zhì)插入測序接頭進行標(biāo)記并測序,從而獲取“高分辨“的單細胞精度的染色質(zhì)開放圖譜,并依此揭示細胞異質(zhì)性的調(diào)控機制。

越來越多的研究者們應(yīng)用單細胞ATAC-seq技術(shù),在腫瘤、免疫、發(fā)育領(lǐng)域獲取大量的測序數(shù)據(jù)。然而,目前沒有一個有效的方法可以很好的分析挖掘海量的單細胞ATAC-seq數(shù)據(jù)中寶貴的生物信息。單細胞ATAC-seq數(shù)據(jù)分析的難點在于數(shù)據(jù)本身。第一,細胞整體的染色質(zhì)開放位點數(shù)有幾十萬之多,造成所謂的“維度災(zāi)難”。另外,由于生物的原因許多潛在的開放沒有信號,數(shù)據(jù)異常稀疏,技術(shù)限制帶來的數(shù)據(jù)丟失極大程度上加劇了這種現(xiàn)象。特別的,在二倍體基因組上一個開放區(qū)域一般至多只有兩個拷貝,使得數(shù)據(jù)近乎二值化。這些問題都給單細胞ATAC-seq數(shù)據(jù)的分析帶來了巨大挑戰(zhàn)。

近日,張強鋒課題組發(fā)表的文章提出了SCALE,利用人工智能深度學(xué)習(xí)的方法,結(jié)合變分自編碼器和高斯混合模型,提取單細胞ATAC-seq數(shù)據(jù)的隱層特征,將問題從復(fù)雜稀疏的高維度的染色質(zhì)開放圖譜空間投射到了簡單抽象的低緯度特征空間。這種處理不但可以發(fā)現(xiàn)和解析細胞特異性的染色質(zhì)圖譜模式,還通過相似細胞信息共享,填補了技術(shù)限制導(dǎo)致的缺失值,從而巧妙地解決了單細胞ATAC-seq數(shù)據(jù)中高維度、稀疏性、二值化等問題。SCALE提供了完整的可視化、聚類、數(shù)據(jù)增強、幫助下游生物信息的挖掘,為研究者們解碼單細胞表觀遺傳學(xué)提供了有力的工具。

清華大學(xué)生命科學(xué)學(xué)院張強鋒課題組利用深度學(xué)習(xí)人工智能算法分析單細胞ATAC-seq數(shù)據(jù)-肽度TIMEDOO
圖. SCALE的模型框架
清華大學(xué)生命科學(xué)學(xué)院、結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心PI張強鋒博士為本文通訊作者,CLS項目博士生熊磊為本文第一作者。本工作得到了北京大學(xué)高歌教授、清華大學(xué)張奇?zhèn)?/strong>教授以及加州大學(xué)河邊分校和清華大學(xué)姜濤教授的幫助,并獲得國家重點研發(fā)計劃項目、國家自然科學(xué)基金、清華大學(xué)結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心、清華-北大生命科學(xué)聯(lián)合中心和國家青年千人計劃項目的資金支持。
原文鏈接
https://www.nature.com/articles/s41467-019-12630-7來源:結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心

清華大學(xué)生命科學(xué)學(xué)院張強鋒課題組利用深度學(xué)習(xí)人工智能算法分析單細胞ATAC-seq數(shù)據(jù)-肽度TIMEDOO