佛羅里達(dá)大學(xué)研究人員開發(fā)AI工具Phyl oFrame 以解決遺傳醫(yī)學(xué)中的祖源偏倚問題
近日,佛羅里達(dá)大學(xué)(University of Florida)的研究人員正在填補(bǔ)醫(yī)學(xué)遺傳學(xué)研究中的關(guān)鍵空白,確保其能夠更公平地惠及不同背景的人群。
由佛羅里達(dá)大學(xué)計(jì)算機(jī)與信息科學(xué)與工程系助理教授 Kiley Graim, Ph.D. 領(lǐng)導(dǎo)的團(tuán)隊(duì),致力于改善人類健康,解決遺傳數(shù)據(jù)中的 “祖源偏倚”(ancestral bias) 問題。這種偏倚源于大多數(shù)基因研究主要基于單一祖源群體的數(shù)據(jù),從而限制了精準(zhǔn)醫(yī)學(xué)(precision medicine)的發(fā)展,使全球大部分人群在疾病診斷和治療方面受到影響。
人工智能工具 PhyloFrame 解決祖源偏倚問題
為了解決這一問題,Graim團(tuán)隊(duì)開發(fā)了一款 機(jī)器學(xué)習(xí)(machine learning)工具 PhyloFrame,該工具利用人工智能來提升遺傳數(shù)據(jù)的祖源多樣性考量,從而改善疾病的預(yù)測(cè)、診斷和治療,使所有患者都能受益。
團(tuán)隊(duì)在 《Nature Communications》 期刊上發(fā)表了相關(guān)論文,詳細(xì)介紹了 PhyloFrame 方法及其在精準(zhǔn)醫(yī)學(xué)中的顯著改進(jìn)效果。
Graim 表示,她關(guān)注遺傳數(shù)據(jù)中的祖源偏倚問題,源自一位醫(yī)生的反饋。這位醫(yī)生對(duì)某項(xiàng)研究的結(jié)果感到困惑,因?yàn)槠浠颊呷后w較為多樣,而研究數(shù)據(jù)卻無法很好地應(yīng)用于他們。
“當(dāng)時(shí)我心想:‘我可以解決這個(gè)問題?!?/strong> Graim 說道。她的研究專注于 機(jī)器學(xué)習(xí)與精準(zhǔn)醫(yī)學(xué),并接受過 群體基因組學(xué)(population genomics) 的專業(yè)訓(xùn)練。她認(rèn)為,如果訓(xùn)練數(shù)據(jù)與現(xiàn)實(shí)世界的數(shù)據(jù)不匹配,機(jī)器學(xué)習(xí)可以在一定程度上解決這一問題,盡管并不完美,但仍然可以大幅改善現(xiàn)狀。
結(jié)合全球基因數(shù)據(jù),優(yōu)化疾病預(yù)測(cè)與治療
PhyloFrame 依托 全球人類基因數(shù)據(jù)庫 gnomAD,將大規(guī)模的健康人群基因數(shù)據(jù)與較小規(guī)模的疾病相關(guān)數(shù)據(jù)相結(jié)合,用于訓(xùn)練精準(zhǔn)醫(yī)學(xué)模型。這使得模型能更好地適應(yīng)不同的遺傳背景。例如,它可以識(shí)別 不同亞型的乳腺癌,并為患者推薦最佳治療方案,而不受其祖源的影響。
強(qiáng)大算力支持,處理數(shù)百萬人的基因組數(shù)據(jù)
分析如此龐大的基因數(shù)據(jù)需要強(qiáng)大的計(jì)算能力。研究團(tuán)隊(duì)依靠 佛羅里達(dá)大學(xué)的 HiPerGator 超級(jí)計(jì)算機(jī) 進(jìn)行數(shù)據(jù)處理,該計(jì)算機(jī)是美國最強(qiáng)大的超級(jí)計(jì)算機(jī)之一。研究人員需分析數(shù)百萬人的基因組數(shù)據(jù),而每個(gè)人的 DNA 含有 30 億個(gè)堿基對(duì)(base pairs)。
“我原本沒想到它的效果會(huì)如此出色?!?/strong> Graim 說道。她特別提到,她的博士生 Leslie Smith 在研究過程中做出了重要貢獻(xiàn)。最初,團(tuán)隊(duì)只是想用一個(gè)簡(jiǎn)單的模型來演示群體基因組數(shù)據(jù)的影響,但這個(gè)項(xiàng)目最終演變成一個(gè)更大規(guī)模的研究,并獲得了進(jìn)一步開發(fā)的研究資金。
解決醫(yī)學(xué)數(shù)據(jù)偏倚,讓精準(zhǔn)醫(yī)學(xué)惠及全球
PhyloFrame 的獨(dú)特之處在于,它能確保預(yù)測(cè)結(jié)果在不同群體間保持準(zhǔn)確性,充分考慮了 遺傳變異與祖源的關(guān)系。這尤為重要,因?yàn)槟壳霸S多醫(yī)學(xué)模型主要基于 單一人群 的數(shù)據(jù),無法全面代表全球人口。
現(xiàn)有的基因數(shù)據(jù)主要來自 研究型醫(yī)院 和 對(duì)醫(yī)療系統(tǒng)有信任度的患者。然而,小城鎮(zhèn)居民 以及 對(duì)醫(yī)療體系持懷疑態(tài)度的群體 常常被排除在外,這使得針對(duì)這些群體的治療方案更加有限。
Graim 指出,目前 97% 的基因組數(shù)據(jù)樣本 來自 歐洲祖源人群。這種數(shù)據(jù)不均衡主要受 國家與地方研究資金投入、社會(huì)經(jīng)濟(jì)因素 以及 醫(yī)療保險(xiǎn)覆蓋率 的影響。例如,擁有醫(yī)療保險(xiǎn)的人更有可能接受基因測(cè)序,從而影響了數(shù)據(jù)來源的多樣性。
她補(bǔ)充說,中國、日本等國家 近年來已開始彌補(bǔ)這一差距,相關(guān)數(shù)據(jù)有所增加,但仍無法與歐洲數(shù)據(jù)量相比,而 貧困人口 幾乎完全被排除在醫(yī)學(xué)基因研究之外。
多樣化數(shù)據(jù)讓模型更精準(zhǔn),受益者不僅限于非歐洲人群
Graim 強(qiáng)調(diào),訓(xùn)練數(shù)據(jù)的多樣性對(duì)所有人都有好處,不僅僅是非歐洲祖源人群。
“我們希望這些模型能適用于所有患者,而不僅僅是參與研究的那部分人?!?/strong> 她表示,“更豐富的訓(xùn)練數(shù)據(jù)也能讓模型更適用于歐洲人群,因?yàn)槿后w基因組數(shù)據(jù)可以防止模型過擬合(overfitting),最終提升整體預(yù)測(cè)準(zhǔn)確性?!?/strong>
未來展望:推動(dòng) PhyloFrame 臨床應(yīng)用
Graim 認(rèn)為,像 PhyloFrame 這樣的 AI 工具 未來可在臨床環(huán)境中廣泛應(yīng)用,取代傳統(tǒng)模型,根據(jù)患者的遺傳背景 量身定制治療方案。目前,團(tuán)隊(duì)的下一步計(jì)劃是 優(yōu)化 PhyloFrame,并將其拓展至更多疾病領(lǐng)域。
“我的夢(mèng)想是通過機(jī)器學(xué)習(xí)推動(dòng)精準(zhǔn)醫(yī)學(xué)的發(fā)展,讓患者能盡早獲得準(zhǔn)確診斷,并接受最適合他們、且副作用最少的治療?!?/strong> 她說道。“我們的目標(biāo)是:在合適的時(shí)間,為合適的人提供合適的治療。”
參考文獻(xiàn):Leslie A. Smith et al, Equitable machine learning counteracts ancestral bias in precision medicine,?Nature Communications?(2025).?DOI: 10.1038/s41467-025-57216-8
編輯:王洪
排版:李麗


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。