哈佛研究：AI 急診診斷準確度高於兩位人類醫師

2026/05/05

TechCrunch 報導，哈佛大學一項新研究顯示，多款大型語言模型在真實急診室案例中的診斷準確度，高於至少兩位人類急診醫師。這項結果再度引發醫界對 AI 介入第一線臨床決策邊界的深度討論。

哈佛大學近日公布的一項新研究指出，研究團隊在多種臨床情境下測試大型語言模型（LLM）的診斷能力，包括真實急診室案例，結果顯示至少有一款 AI 模型在診斷準確度上超越兩位人類急診醫師。這是繼多家研究機構相繼公布類似結果之後，又一份指出 AI 在「鑑別診斷」（differential diagnosis）這類高度認知任務上具備臨床等級表現的學術文獻。

研究的設計重點不在於「AI 能否取代醫師」，而是在於量化 AI 在真實病例（而非教科書化的考題）下的表現邊界。急診室是醫療最具壓力與不確定性的場域之一：病患資訊不完整、症狀多樣、時間極度有限、醫師可能輪班疲勞。在這樣的環境下，能整合大量文獻與臨床知識、不會疲勞、不受時間壓力影響的 LLM 反而具備某些「結構性優勢」。

不過研究團隊也明確指出三項重要前提。第一，AI 表現優異不等於可以單獨負責診斷，臨床判斷仍涉及檢查指令、與病患溝通、跨科協作、責任歸屬等多重層面。第二，研究中比較的是「特定診斷任務」而非「整體臨床作為」，AI 在如手術判斷、急救處置、家屬溝通等場景仍無法直接介入。第三，這份結果也凸顯醫師教育與支援工具設計需要重新調整，讓 AI 真正成為「副駕駛」而非競爭者。

對醫療產業的衝擊將從幾個層面展開。首先，醫院與健保體系將面對如何將 AI 鑑別診斷工具導入工作流程的選擇——是作為醫師查詢工具、第二意見、還是強制核對機制。其次，醫療 AI 的責任歸屬與保險規範必須加速制定：當 AI 建議與醫師判斷不一致而最終出錯，責任如何分配？再者，醫師培訓內容必須調整，未來醫師需具備「與 AI 合作」與「批判性使用 AI 結果」的核心能力。

從產業競爭觀察，這類研究有助於推動醫療 LLM 與專業醫療輔助系統的商業化。Microsoft、Google、Epic 等已分別與多家醫院合作試行 AI 臨床助理，未來也將出現更多以「真實臨床表現」作為認證的 AI 醫療軟體。對於台灣醫療科技廠商而言，這是切入國際醫療 AI 市場的關鍵時機，但也必須面對 FDA、TFDA 等法規門檻。

未來觀察重點將是哈佛研究的後續同儕審查結果、其他大型醫學中心是否能在不同地區人口與疾病譜上重現相同結論，以及主要 AI 模型廠商是否會推出針對醫療場景訓練的「臨床特化版本」。AI 進入急診室的速度，可能比多數醫療業者想像得更快。