ChatGPT能當(dāng)“網(wǎng)絡(luò)醫(yī)生”嗎?新研究揭示了它的醫(yī)療問(wèn)診能力與短板
在人們感到身體不適時(shí),越來(lái)越多的人開(kāi)始求助于ChatGPT等生成式人工智能來(lái)“自我診斷”。但這些AI給出的健康建議究竟有多靠譜?一項(xiàng)近期發(fā)表在《iScience》期刊的研究給出了初步答案,結(jié)果既令人驚喜,也揭示出值得警惕的問(wèn)題。
這項(xiàng)研究由美國(guó)紐約州賓厄姆頓大學(xué)托馬斯·J·沃森工程與應(yīng)用科學(xué)學(xué)院系統(tǒng)科學(xué)與工業(yè)工程學(xué)院的研究員Ahmed Abdeen Hamed主導(dǎo),聯(lián)合波蘭AGH克拉科夫大學(xué)、霍華德大學(xué)和佛蒙特大學(xué)的科學(xué)家共同完成。
Hamed此前開(kāi)發(fā)了一種名為“xFakeSci”的機(jī)器學(xué)習(xí)算法,能夠識(shí)別出高達(dá)94%的虛假科學(xué)論文,比現(xiàn)有常規(guī)數(shù)據(jù)挖掘方法準(zhǔn)確率高出近一倍。他希望這項(xiàng)新研究能作為驗(yàn)證大語(yǔ)言模型(LLMs)在生物醫(yī)學(xué)領(lǐng)域生成能力的下一步。
“現(xiàn)在很多人會(huì)直接對(duì)ChatGPT說(shuō):‘我有這些癥狀,是不是得癌癥了?是不是心臟?。吭摬辉撊タ瘁t(yī)生?’”Hamed表示,“這其實(shí)非常危險(xiǎn),所以我們想測(cè)試一下,ChatGPT到底會(huì)給出什么樣的回答,以及這些回答是否能在生物醫(yī)學(xué)文獻(xiàn)中被驗(yàn)證?!?/p>
研究團(tuán)隊(duì)以疾病相關(guān)術(shù)語(yǔ)為核心,測(cè)試了三類醫(yī)學(xué)關(guān)聯(lián)信息:藥物名稱、基因信息以及癥狀描述。結(jié)果顯示,在識(shí)別疾病、藥物和基因方面,ChatGPT的準(zhǔn)確率分別達(dá)到了88%~97%、90%~91%、以及88%~98%,表現(xiàn)遠(yuǎn)超研究人員最初“25%左右”的預(yù)期。
“讓人驚訝的是,ChatGPT能正確識(shí)別‘癌癥是疾病’、‘高血壓是疾病’、‘發(fā)燒是癥狀’、‘瑞德西韋是藥物’,還能識(shí)別‘BRCA是與乳腺癌相關(guān)的基因’——這太不可思議了!”Hamed說(shuō)道。
然而,在識(shí)別“癥狀”這一項(xiàng)上,ChatGPT的表現(xiàn)明顯遜色,準(zhǔn)確率僅為49%~61%。研究人員分析,這可能與模型訓(xùn)練的數(shù)據(jù)風(fēng)格有關(guān)。醫(yī)生和科研人員習(xí)慣使用結(jié)構(gòu)化的醫(yī)學(xué)本體(biomedical ontologies)來(lái)定義術(shù)語(yǔ)及其關(guān)系,而普通用戶則常用口語(yǔ)化表達(dá)。
“ChatGPT傾向于用更貼近大眾的語(yǔ)言交流,而不是學(xué)術(shù)文獻(xiàn)中的專業(yè)術(shù)語(yǔ)?!盚amed解釋道,“這可能導(dǎo)致模型在簡(jiǎn)化醫(yī)學(xué)語(yǔ)言的過(guò)程中丟失了一些精確性。”
更令人困惑的是,當(dāng)研究人員要求ChatGPT提供特定基因的數(shù)據(jù)庫(kù)編號(hào)(如BRCA1的編號(hào)為NM_007294.4)時(shí),AI竟然“編造”出了看似合理卻完全不存在的編號(hào)。研究人員將這一現(xiàn)象稱為“幻覺(jué)”(hallucination),即AI憑空生成錯(cuò)誤信息。
對(duì)此,Hamed指出:“也許我們可以考慮將真實(shí)的生物醫(yī)學(xué)本體引入到LLM訓(xùn)練中,從而提高其準(zhǔn)確性,消除幻覺(jué)現(xiàn)象,讓這些工具真正變得強(qiáng)大且可靠?!?/p>
Hamed自2023年開(kāi)始關(guān)注ChatGPT,并意識(shí)到其在“事實(shí)核查”方面的局限。他希望通過(guò)暴露模型的缺陷,幫助數(shù)據(jù)科學(xué)家不斷優(yōu)化改進(jìn)。
“當(dāng)我試圖構(gòu)建知識(shí)體系時(shí),我必須確保剔除所有可能存在問(wèn)題的信息,才有可能建立起真正可信的理論框架。”Hamed表示。
參考文獻(xiàn):Ahmed Abdeen Hamed et al, From knowledge generation to knowledge verification: examining the biomedical generative capabilities of ChatGPT,?iScience?(2025).?DOI: 10.1016/j.isci.2025.112492
編輯:周敏
排版:李麗


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。