開放源代碼AI迎頭趕上?哈佛研究:診斷復雜病例表現(xiàn)可媲美GPT-4
人工智能(AI)正在以多種方式變革醫(yī)學領域,其中最具潛力的應用之一便是充當醫(yī)生的“診斷助手”。過去兩年,專有AI模型(即封閉源代碼模型)在需要復雜臨床推理的疑難病例中表現(xiàn)出色,甚至優(yōu)于開源模型。
但開源AI是否已經(jīng)迎頭趕上?
答案似乎是肯定的。根據(jù)哈佛醫(yī)學院(Harvard Medical School, HMS)研究人員領銜的一項由美國國立衛(wèi)生研究院(NIH)資助的新研究,最新的開源AI工具Llama 3.1 405B在診斷疑難病例方面的表現(xiàn)已可媲美知名封閉源代碼模型GPT-4。該研究與哈佛附屬貝斯以色列女執(zhí)事醫(yī)療中心(Beth Israel Deaconess Medical Center)和布列根婦女醫(yī)院(Brigham and Women’s Hospital)的臨床醫(yī)生合作完成,研究結果于3月14日發(fā)表在**《JAMA Health Forum》**期刊上。
研究團隊將Llama 3.1 405B與GPT-4進行了對比測試,選用了**《新英格蘭醫(yī)學雜志》(NEJM)**“每周疑難病例”欄目中發(fā)布的92個臨床挑戰(zhàn)案例。結果表明,這款開源AI在診斷準確率方面達到了與GPT-4相當?shù)乃健?/p>
開源AI的突破:挑戰(zhàn)封閉源代碼模型
“據(jù)我們所知,這是首次有開源AI在如此具有挑戰(zhàn)性的臨床病例中達到與GPT-4相當?shù)谋憩F(xiàn),并獲得醫(yī)生的認可,”該研究的資深作者、哈佛醫(yī)學院Blavatnik研究所生物醫(yī)學信息學助理教授Arjun Manrai表示?!癓lama模型進步如此之快,確實令人驚嘆?;颊摺⑨t(yī)療提供者以及醫(yī)院都將從這場競爭中受益。”
開源AI與封閉源代碼AI的優(yōu)劣勢對比
開源AI和封閉源代碼AI在多個方面存在關鍵差異。
-
數(shù)據(jù)安全性:開源模型可以在醫(yī)院的本地計算機上運行,從而確?;颊邤?shù)據(jù)不離開院內。而封閉源代碼模型通常依賴外部服務器,用戶需要將敏感數(shù)據(jù)傳輸至第三方平臺。
“對于許多首席信息官(CIO)、醫(yī)院管理者和醫(yī)生而言,數(shù)據(jù)離開醫(yī)院交由其他機構(即使是值得信賴的機構)處理,這一事實可能是不可接受的?!毖芯康谝蛔髡?、哈佛醫(yī)學院生物醫(yī)學信息學系AI醫(yī)學方向博士生Thomas Buckley表示。
-
可定制性:開源AI允許醫(yī)療和IT專業(yè)人員根據(jù)具體的臨床和研究需求進行調整,而封閉源代碼AI的定制難度較大。
“這點至關重要,”Buckley補充道,“醫(yī)院可以利用本地數(shù)據(jù)對開源模型進行微調,無論是基本優(yōu)化還是深度調整,使其更符合本院醫(yī)生、研究人員和患者的需求?!?/p>
- 系統(tǒng)集成:封閉源代碼AI由OpenAI、Google等科技公司提供完整的托管服務和技術支持,而開源模型的部署和維護責任則由用戶自行承擔。此外,目前封閉源代碼模型在與電子病歷系統(tǒng)(EHR)及醫(yī)院IT基礎設施的兼容性方面仍具有一定優(yōu)勢。
臨床測試:Llama 3.1 405B VS GPT-4
AI模型的訓練基于海量醫(yī)學數(shù)據(jù),包括醫(yī)學教科書、同行評審研究、臨床決策支持工具以及匿名患者病例(如檢查結果、影像學數(shù)據(jù)和確診信息)。這些算法通過超高速分析學習醫(yī)學模式,例如:
- 識別病理切片上的癌變和良性腫瘤特征;
- 判斷心力衰竭的早期跡象;
- 區(qū)分正常和炎癥性結腸的CT影像特征。
研究人員在本次研究中,讓Llama 3.1 405B測試了70個先前用于評估GPT-4的NEJM疑難病例,并額外增加了22個Llama訓練后才發(fā)表的新病例,以防止AI在訓練過程中“見過”原有案例。
結果顯示:
- 在全部92個病例中,Llama 3.1 405B的正確診斷率為70%,GPT-4則為64%;
- Llama 3.1 405B的首選診斷正確率為41%,GPT-4為37%;
- 在新增的22個病例中,Llama 3.1 405B的正確診斷率達到73%,首選診斷正確率為45%。
“作為一名醫(yī)生,我過去看到的先進大型語言模型(LLM)幾乎都是封閉源代碼的,我們無法在本地運行,”研究合著者、貝斯以色列女執(zhí)事醫(yī)療中心醫(yī)學助理教授Adam Rodman表示?!拔覀兊难芯勘砻鳎_源模型同樣強大,這將賦予醫(yī)生和醫(yī)療系統(tǒng)更多對AI技術的控制權?!?/p>
AI能否減少診斷錯誤?
據(jù)2023年一份報告,美國每年約有79.5萬名患者因診斷錯誤而死亡或永久性殘疾。
除了對患者造成直接傷害,誤診或延遲診斷還可能增加醫(yī)療系統(tǒng)的經(jīng)濟負擔。錯誤的診斷可能導致不必要的檢查、不合適的治療,甚至使病情惡化,導致更復雜、更昂貴的醫(yī)療處理。
“如果能合理使用并妥善融入現(xiàn)有醫(yī)療體系,AI工具將成為醫(yī)生的可靠副駕駛(copilot),幫助提升診斷的準確性和效率?!盡anrai總結道,“但最關鍵的是,醫(yī)生必須主導這項技術的應用,以確保AI真正為他們所用?!?/p>
參考文獻:Thomas A. Buckley et al, Comparison of Frontier Open-Source and Proprietary Large Language Models for Complex Diagnoses,?JAMA Health Forum?(2025).?DOI: 10.1001/jamahealthforum.2025.0040
編輯:王洪
排版:李麗


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉載。