機(jī)器學(xué)習(xí)在癌癥早期檢測(cè)中的突破:約翰斯·霍普金斯開(kāi)發(fā)ARTEMIS方法
近期,美國(guó)約翰斯·霍普金斯基姆爾癌癥中心的研究人員開(kāi)發(fā)了一種機(jī)器學(xué)習(xí)策略,可以通過(guò)檢測(cè)癌組織和細(xì)胞自由DNA(cfDNA)中的基因組中的重復(fù)序列,來(lái)預(yù)測(cè)人類早期肺癌或肝癌病例的潛在發(fā)生。該團(tuán)隊(duì)建議,這種新方法可以提供一種無(wú)創(chuàng)的手段來(lái)檢測(cè)和表征癌癥,或者監(jiān)測(cè)對(duì)抗癌治療的反應(yīng)。
在實(shí)驗(yàn)室測(cè)試中,這種名為ARTEMIS(疾病中重復(fù)元素的分析)的方法檢查了超過(guò)1,200種重復(fù)元素類型,涵蓋了近一半的人類基因組,并確定了一大批以往未知與癌癥相關(guān)的重復(fù)序列在腫瘤形成中發(fā)生了改變。研究人員還能夠在cfDNA中識(shí)別這些元素的變化——這些是從腫瘤中脫落的片段,存在于血液中——從而提供了一種檢測(cè)癌癥并確定其起源部位的方法。
該研究的合作領(lǐng)導(dǎo)者之一、約翰斯·霍普金斯大學(xué)醫(yī)學(xué)院的MD/PhD學(xué)生Akshaya Annapragada和約翰斯·霍普金斯大學(xué)的醫(yī)學(xué)和腫瘤學(xué)教授維克托·E·韋爾庫(kù)萊斯庫(kù)(Victor E. Velculescu)博士以及其他同事,報(bào)告了ARTEMIS的開(kāi)發(fā)和測(cè)試結(jié)果。他們?cè)谝黄麨椤?a target="_blank" href="http://www.fqxs.cn/tag/%e7%99%8c%e7%97%87" title="View all posts in 癌癥">癌癥和細(xì)胞自由DNA中的全基因組重復(fù)景觀》的文章中寫道,他們的分析“……揭示了人類癌癥中重復(fù)景觀的廣泛變化,并提供了一種檢測(cè)和表征這些變化的方法,這可能有利于患者的早期檢測(cè)和疾病監(jiān)測(cè)?!?/p>
DNA序列的重復(fù),通常被稱為“垃圾DNA”或“暗物質(zhì)”,分布在整個(gè)人類基因組中,是“癌癥和其他疾病的標(biāo)志”,作者寫道。然而,他們繼續(xù)說(shuō)道,使用標(biāo)準(zhǔn)的測(cè)序方法對(duì)這些重復(fù)序列進(jìn)行表征一直是具有挑戰(zhàn)性的。
為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)開(kāi)發(fā)了ARTEMIS,這是一種無(wú)需比對(duì)的、全基因組范圍內(nèi)分析重復(fù)景觀的方法。在一系列實(shí)驗(yàn)中,研究人員首先檢查了定義唯一重復(fù)的1.2億個(gè)kmer(短DNA序列)在基因組中的分布,并發(fā)現(xiàn)它們?cè)诔R?jiàn)人類癌癥中常見(jiàn)的基因中富集。
例如,他們報(bào)道說(shuō),在736個(gè)已知驅(qū)動(dòng)癌癥的基因中,有487個(gè)含有比預(yù)期數(shù)量高15倍的重復(fù)序列。這些重復(fù)序列在參與癌癥中常見(jiàn)失調(diào)的細(xì)胞信號(hào)通路基因中也顯著增加。研究團(tuán)隊(duì)指出,“這些重復(fù)kmer的定位觀察表明,在人類癌癥中選擇性地通過(guò)與重復(fù)相關(guān)的基因組改變來(lái)選擇腫瘤發(fā)生的關(guān)鍵基因,這一發(fā)現(xiàn)為我們提供了首次窺視這些序列可能對(duì)腫瘤發(fā)展至關(guān)重要的線索?!?/p>
他們還利用下一代測(cè)序技術(shù),迅速檢查了整個(gè)基因組序列的變化情況,看看重復(fù)序列是否直接在癌癥中發(fā)生改變。他們使用ARTEMIS分析了525名患有不同癌癥的患者的腫瘤和正常組織中的1,200多種不同類型的重復(fù)元素。分析發(fā)現(xiàn),每個(gè)腫瘤中有中位數(shù)807個(gè)變化的元素。這些元素中有近三分之二以前未被觀察到與人類癌癥有關(guān)。
接下來(lái),他們使用機(jī)器學(xué)習(xí)模型為每個(gè)樣本生成了一個(gè)ARTEMIS分?jǐn)?shù),以提供對(duì)癌癥預(yù)測(cè)的全基因組重復(fù)元素變化的總結(jié)。ARTEMIS分?jǐn)?shù)以高性能將525個(gè)PCAWG參與者的腫瘤與正常組織區(qū)分開(kāi)來(lái)——整體曲線下面積(AUC)=0.96——跨所有分析的癌癥類型,其中1是完美分?jǐn)?shù)。增加的ARTEMIS分?jǐn)?shù)與較短的總體和無(wú)進(jìn)展生存相關(guān),而不管腫瘤類型如何。
“盡管不同個(gè)體之間的基因組變異性存在重復(fù)元素,但經(jīng)過(guò)交叉驗(yàn)證的ARTEMIS分?jǐn)?shù)在所有分析的癌癥類型中都以高性能將525個(gè)PCAWG腫瘤與正常組織區(qū)分開(kāi)來(lái),而患者的種族無(wú)關(guān)【總體曲線下面積(AUC)=0.96】,”他們指出。“由于ARTEMIS分?jǐn)?shù)捕捉了重復(fù)景觀的全基因組變化,我們的觀察結(jié)果與先前的分析一致,表明癌癥基因組中的重復(fù)元素的重新激活和增加可能導(dǎo)致免疫反應(yīng)或基因組不穩(wěn)定性增加,這兩種機(jī)制可能降低腫瘤細(xì)胞的適應(yīng)性,并導(dǎo)致患者結(jié)果的改善?!?/p>
研究人員接下來(lái)評(píng)估了ARTEMIS用于非侵入性癌癥檢測(cè)的潛力。他們將該工具應(yīng)用于287名參與丹麥肺癌篩查研究(LUCAS)的有和無(wú)肺癌的個(gè)體的血液樣本中。ARTEMIS以0.82的整體AUC分類了肺癌患者。當(dāng)與另一種名為DELFI(DNA片段早期攔截的DNA評(píng)估)的方法結(jié)合使用時(shí),組合模型以0.91的AUC對(duì)肺癌患者進(jìn)行了分類。DELFI是韋爾庫(kù)萊斯庫(kù)、Scharpf和他們小組的其他成員之前開(kāi)發(fā)的一種檢測(cè)cfDNA片段大小和分布變化的分析方法。
在一個(gè)由208名有肝癌風(fēng)險(xiǎn)的個(gè)體組成的群體中,觀察到了類似的表現(xiàn),ARTEMIS在肝癌患者中檢測(cè)到與肝硬化或病毒性肝炎等其他情況的個(gè)體,AUC為0.87。當(dāng)與DELFI結(jié)合使用時(shí),AUC增加至0.90。
最后,研究人員評(píng)估了ARTEMIS血液檢測(cè)是否能夠確定癌癥患者腫瘤的起源部位。當(dāng)根據(jù)PCAWG參與者的信息進(jìn)行訓(xùn)練時(shí),該工具能夠在12種腫瘤類型中將腫瘤組織的來(lái)源進(jìn)行分類,平均準(zhǔn)確率為78%。
然后,研究人員將ARTEMIS和DELFI結(jié)合起來(lái)評(píng)估了一個(gè)由226名患有乳腺癌、卵巢癌、肺癌、結(jié)直腸癌、膽道癌、胃癌或胰腺癌的個(gè)體組成的群體的血液樣本。在這里,該模型以平均準(zhǔn)確率68%的水平正確地將患者分類到不同的癌癥類型中,當(dāng)模型允許提出兩種可能的腫瘤類型而不是單一的癌癥類型時(shí),準(zhǔn)確率提高至83%?!氨M管樣本數(shù)量有限,但我們發(fā)現(xiàn)ARTEMIS-DELFI能夠以平均68%或83%的準(zhǔn)確率正確將不同癌癥類型中檢測(cè)到的患者分類,”他們表示。
Annapragada說(shuō):“我們的研究表明,ARTEMIS可以揭示反映人類癌癥基因組中戲劇性變化的全基因組重復(fù)景觀?!?“通過(guò)照亮所謂的‘暗基因組’,這項(xiàng)工作為我們提供了對(duì)癌癥基因組的獨(dú)特見(jiàn)解,并為全基因組重復(fù)景觀作為癌癥檢測(cè)、表征和監(jiān)測(cè)的組織和血液標(biāo)志物提供了概念驗(yàn)證?!?/p>
作者進(jìn)一步寫道:“cfDNA為檢測(cè)肺癌、肝癌和其他癌癥提供了重復(fù)景觀分析的可能性,表明ARTEMIS單獨(dú)或與其他全基因組特征結(jié)合可能為癌癥的非侵入性檢測(cè)、監(jiān)測(cè)和確定起源提供了途徑…… ARTEMIS可能通過(guò)識(shí)別全基因組變化來(lái)改善早期診斷,這些變化在其他液體活檢方法中可能不明顯,當(dāng)未檢測(cè)到腫瘤特征,例如突變或染色體臂變化時(shí)。”
下一步,韋爾庫(kù)萊斯庫(kù)建議在更大規(guī)模的臨床試驗(yàn)中評(píng)估該方法。他評(píng)論說(shuō):“你可以想象,這可以用于各種癌癥類型的早期檢測(cè),但也可以用于其他應(yīng)用,比如監(jiān)測(cè)治療反應(yīng)或檢測(cè)復(fù)發(fā)?!薄斑@是一個(gè)全新的領(lǐng)域?!?/p>
作者在報(bào)告中承認(rèn)了研究的局限性,并得出結(jié)論說(shuō):“考慮到這些基因組區(qū)域的規(guī)模、多樣性和潛在臨床相關(guān)性,我們的研究為癌癥基因組提供了獨(dú)特見(jiàn)解,并提供了全基因組[序列]重復(fù)景觀作為組織和血液標(biāo)志物的潛在用途的概念驗(yàn)證……此外,現(xiàn)在可以全面識(shí)別的重復(fù)元素的擴(kuò)展或收縮提供了一種檢測(cè)和檢查影響癌癥和其他疾病機(jī)制的新方法。”
編輯:王洪
排版:李麗


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。