幻覺檢測 - Agents Report

深度分析

本研究探討視覺語言模型幻覺的因果穩定性，利用CD‑T電路發掘關鍵稀疏電路，並以潛在反事實樣本測試激活差異，透過Bernstein上界估算所需樣本數。結果顯示低變異電路能顯著降低幻覺率，提升模型在POPE、COCO與HallusionBench的表現，且樣本複雜度指標提供部署可靠性參考。

H‑Risk

研究從控制理論角度檢視幻覺現象，將康德認知架構比作反饋穩定機制。作者提出H‑Risk複合指標衡量閉環條件數與靈敏度，並在線性高斯系統與大型語言模型實驗中發現：結構性脆弱會導致過度自信和錯誤產生，對校準與幻覺診斷具實務啟示。並指向可選擇性降低過度自信的診斷與修正方向。

速報

研究指出大型語言模型偏重生成合乎分配的後續文本而非驗證與來源是否一致。本研究提出以對齊拓撲構建參考與輸出之二分圖，並用圖神經網路透過訊息傳遞學習對齊結構。實驗在四組幻覺與問答資料集上達到最新領先表現。其方法優於包括GPT-4o在內的現有比較方法。

LLM-as-a-judge

大型語言模型在心理健康諮詢中容易產生幻覺與遺漏，而傳統 LLM-as-a-judge 方法準確率僅 52%。研究團隊提出新框架，結合人類專家經驗與 LLM 提取特徵，從五個維度檢測幻覺與遺漏，顯著提升檢測率與透明度，為高風險醫療 AI 應用提供更可靠的評估基準。