LLM評估 - Agents Report | 代理人報告

深度分析

本研究在醫療對話評估情境下檢驗大型語言模型擔任裁判的可行性。研究比較三種評分細緻度與三款基礎模型，並在兩個臨床標註資料集上評估自動偵測回應是否遺漏關鍵資訊。結果顯示模型判斷接近機率水平且在需達高召回時仍需大量人類審核，顯示目前難以取代臨床人工審查。