深度分析
「SAGE」:球形自適應新穎性門控提升代理式 LLM 記憶寫入效能
研究聚焦於代理式大型語言模型的記憶寫入控制,提出以球形適應門(SAGE)利用 von Mises‑Fisher 密度估計辨識新資訊,於 LoCoMo 基準中對比 Mem0 獲最高 token‑F1,且在 GPT‑4o‑mini 測試降低寫入 API 成本 3.4 倍、延遲 2.5 倍,作為二元門可減少約 16–18% 的 LLM 呼叫。
深度分析
研究聚焦於代理式大型語言模型的記憶寫入控制,提出以球形適應門(SAGE)利用 von Mises‑Fisher 密度估計辨識新資訊,於 LoCoMo 基準中對比 Mem0 獲最高 token‑F1,且在 GPT‑4o‑mini 測試降低寫入 API 成本 3.4 倍、延遲 2.5 倍,作為二元門可減少約 16–18% 的 LLM 呼叫。
深度分析
近年以可驗證獎勵的強化學習(RLVR)在提升大型語言模型單一路徑準確度上成效明顯,但常見模式銳化導致樣本覆蓋不足。本文介紹SAGE框架,藉由在reverse-KL的錨分布上加入可控的引導函數q(x,y),在保留穩定性的同時有系統地擴展經驗支持(empirical support)。