LLM 評估 - Agents Report | 代理人報告

深度分析

研究指出，僅以任務完成率評估大型語言模型（LLM）代理人會壓縮重要的過程性差異，稱為「完成謬誤」。本文介紹工作記憶忠實度—主動操作（WMF-AM），一種不仰賴外部草稿的 K 校準探針，透過序列加減運算考驗模型在負載下維持累積狀態的能力。