哈佛研究:AI 急診診斷準確度高於兩位人類醫師
2026/05/05
哈佛大學近日公布的一項新研究指出,研究團隊在多種臨床情境下測試大型語言模型(LLM)的診斷能力,包括真實急診室案例,結果顯示至少有一款 AI 模型在診斷準確度上超越兩位人類急診醫師。這是繼多家研究機構相繼公布類似結果之後,又一份指出 AI 在「鑑別診斷」(differential diagnosis)這類高度認知任務上具備臨床等級表現的學術文獻。
研究的設計重點不在於「AI 能否取代醫師」,而是在於量化 AI 在真實病例(而非教科書化的考題)下的表現邊界。急診室是醫療最具壓力與不確定性的場域之一:病患資訊不完整、症狀多樣、時間極度有限、醫師可能輪班疲勞。在這樣的環境下,能整合大量文獻與臨床知識、不會疲勞、不受時間壓力影響的 LLM 反而具備某些「結構性優勢」。
不過研究團隊也明確指出三項重要前提。第一,AI 表現優異不等於可以單獨負責診斷,臨床判斷仍涉及檢查指令、與病患溝通、跨科協作、責任歸屬等多重層面。第二,研究中比較的是「特定診斷任務」而非「整體臨床作為」,AI 在如手術判斷、急救處置、家屬溝通等場景仍無法直接介入。第三,這份結果也凸顯醫師教育與支援工具設計需要重新調整,讓 AI 真正成為「副駕駛」而非競爭者。
對醫療產業的衝擊將從幾個層面展開。首先,醫院與健保體系將面對如何將 AI 鑑別診斷工具導入工作流程的選擇——是作為醫師查詢工具、第二意見、還是強制核對機制。其次,醫療 AI 的責任歸屬與保險規範必須加速制定:當 AI 建議與醫師判斷不一致而最終出錯,責任如何分配?再者,醫師培訓內容必須調整,未來醫師需具備「與 AI 合作」與「批判性使用 AI 結果」的核心能力。
從產業競爭觀察,這類研究有助於推動醫療 LLM 與專業醫療輔助系統的商業化。Microsoft、Google、Epic 等已分別與多家醫院合作試行 AI 臨床助理,未來也將出現更多以「真實臨床表現」作為認證的 AI 醫療軟體。對於台灣醫療科技廠商而言,這是切入國際醫療 AI 市場的關鍵時機,但也必須面對 FDA、TFDA 等法規門檻。
未來觀察重點將是哈佛研究的後續同儕審查結果、其他大型醫學中心是否能在不同地區人口與疾病譜上重現相同結論,以及主要 AI 模型廠商是否會推出針對醫療場景訓練的「臨床特化版本」。AI 進入急診室的速度,可能比多數醫療業者想像得更快。