深度分析 工作記憶忠實度(WMF-AM):衡量 LLM 代理人累積狀態追蹤能力 研究指出,僅以任務完成率評估大型語言模型(LLM)代理人會壓縮重要的過程性差異,稱為「完成謬誤」。本文介紹工作記憶忠實度—主動操作(WMF-AM),一種不仰賴外部草稿的 K 校準探針,透過序列加減運算考驗模型在負載下維持累積狀態的能力。