清華大學(xué)生命科學(xué)學(xué)院張強鋒課題組利用深度學(xué)習(xí)人工智能算法分析單細胞ATAC-seq數(shù)據(jù)
越來越多的研究者們應(yīng)用單細胞ATAC-seq技術(shù),在腫瘤、免疫、發(fā)育領(lǐng)域獲取大量的測序數(shù)據(jù)。然而,目前沒有一個有效的方法可以很好的分析挖掘海量的單細胞ATAC-seq數(shù)據(jù)中寶貴的生物信息。單細胞ATAC-seq數(shù)據(jù)分析的難點在于數(shù)據(jù)本身。第一,細胞整體的染色質(zhì)開放位點數(shù)有幾十萬之多,造成所謂的“維度災(zāi)難”。另外,由于生物的原因許多潛在的開放沒有信號,數(shù)據(jù)異常稀疏,技術(shù)限制帶來的數(shù)據(jù)丟失極大程度上加劇了這種現(xiàn)象。特別的,在二倍體基因組上一個開放區(qū)域一般至多只有兩個拷貝,使得數(shù)據(jù)近乎二值化。這些問題都給單細胞ATAC-seq數(shù)據(jù)的分析帶來了巨大挑戰(zhàn)。
近日,張強鋒課題組發(fā)表的文章提出了SCALE,利用人工智能深度學(xué)習(xí)的方法,結(jié)合變分自編碼器和高斯混合模型,提取單細胞ATAC-seq數(shù)據(jù)的隱層特征,將問題從復(fù)雜稀疏的高維度的染色質(zhì)開放圖譜空間投射到了簡單抽象的低緯度特征空間。這種處理不但可以發(fā)現(xiàn)和解析細胞特異性的染色質(zhì)圖譜模式,還通過相似細胞信息共享,填補了技術(shù)限制導(dǎo)致的缺失值,從而巧妙地解決了單細胞ATAC-seq數(shù)據(jù)中高維度、稀疏性、二值化等問題。SCALE提供了完整的可視化、聚類、數(shù)據(jù)增強、幫助下游生物信息的挖掘,為研究者們解碼單細胞表觀遺傳學(xué)提供了有力的工具。



本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。