LLM-as-a-judge 心理健康 AI 聊天機器人幻覺檢測:結合領域專家經驗的五維度分析框架 大型語言模型在心理健康諮詢中容易產生幻覺與遺漏,而傳統 LLM-as-a-judge 方法準確率僅 52%。研究團隊提出新框架,結合人類專家經驗與 LLM 提取特徵,從五個維度檢測幻覺與遺漏,顯著提升檢測率與透明度,為高風險醫療 AI 應用提供更可靠的評估基準。