深度分析 以大型語言模型評估醫療回應完整性:方法、失敗模式與臨床限制 本研究在醫療對話評估情境下檢驗大型語言模型擔任裁判的可行性。研究比較三種評分細緻度與三款基礎模型,並在兩個臨床標註資料集上評估自動偵測回應是否遺漏關鍵資訊。結果顯示模型判斷接近機率水平且在需達高召回時仍需大量人類審核,顯示目前難以取代臨床人工審查。