模型評估 - Agents Report

速報

多因素評分框架揭示大型語言模型的優勢與盲點

大型語言模型在語言任務上表現亮眼，但傳統評估方式往往只看單一面向，難以完整衡量模型的回應品質。研究提出一套結合正確性、簡潔性、事實一致性、可讀性與連貫性的多因素評分模型，並配合圖形使用者介面讓結果一目了然。以 TruthfulQA 資料集測試，主流模型在推理任務上取得最高 0.6104 的綜合分數，卻在處理複雜事實與模糊情境時仍顯不足。

深度分析

深度研究代理人顧問基準：雙層驗證機制比較 Claude、o3、Gemini 的表現

隨著深度研究代理人快速進入企業顧問流程，研究團隊推出以驗證器與五項專家評分表的雙層基準，測試Claude、o3、Gemini三款模型在多文件分析、結構化交付與認知陷阱防護上的表現，結果顯示接受率僅9%至21%。此結果突顯現行AI顧問工具在精確度與可靠性上的挑戰。

深度分析

邊界失效與大型語言模型(LLM)對齊：以三條件框架界定討好行為

這篇立場論文指出，大型語言模型（LLM）中的「奉承／討好行為」（sycophancy）並非單純的同意，而是社會對齊與認知誠信之間的邊界失效。作者提出一套三條件判準：使用者提示（belief/preference/self-concept）、模型的對齊位移，以及這種位移對獨立判斷或事實修正的侵蝕。

深度分析

「可靠變化指數」在大型語言模型版本評估中的實證與洞見

本研究將臨床心理學的可靠變化指數（RCI）套用於大型語言模型的版本比較，透過在每題上重複10次生成以測量項目層面的變化。結果顯示，多數題目無顯著變化，然而在可分析的題目中，改版會同時帶來顯著提升與退步，且單次貪婪評估會漏掉約四成的可靠變化。這表明評估方法需重新檢視。

深度分析

Pando：揭示模型在無說明與誤導情境下可解釋性工具的真實效能

本研究針對模型可能不提供說明的情況，設計 Pando 基準以評估可解釋性工具。實驗在 720 個決策樹模型上比較說明有無與不同工具的效能，發現梯度屬性和 RelP 能提升預測準確，其他方法無顯著貢獻。結果凸顯需避免引出效應，以正確衡量解釋方法。