心理健康 AI - Agents Report

LLM-as-a-judge

大型語言模型在心理健康諮詢中容易產生幻覺與遺漏，而傳統 LLM-as-a-judge 方法準確率僅 52%。研究團隊提出新框架，結合人類專家經驗與 LLM 提取特徵，從五個維度檢測幻覺與遺漏，顯著提升檢測率與透明度，為高風險醫療 AI 應用提供更可靠的評估基準。