MemoryAgentBench:以序號聚合解決大型語言模型記憶衝突
研究指出,LLM 記憶系統在處理隨時間演變的事實時,常因衝突解決不佳而表現不佳。MemoryAgentBench(MAB)以 FactConsolidation 任務測試衝突解決,發現現有系統在單跳與多跳情境下正確率均低於 55%。
大型語言模型(LLM)在記憶系統中必須處理隨時間變化的事實,但衝突解決一直是瓶頸。MemoryAgentBench(MAB)在 FactConsolidation 任務中明確標示事實編號,較新的事實編號較大,要求模型返回最新的值。
現有系統表現
測試結果顯示,HippoRAG‑v2 在單跳任務(FC‑SH)僅達 54% 正確率,BM25 為 48%,Mem0 為 18%,而時間圖譜 Zep/Graphiti 更低至 7%。多跳任務(FC‑MH)更糟,22 個系統最高也只有約 7%。
瓶頸分析與新方法
作者認為問題出在檢索後的組合步驟,傳統系統仍依賴 LLM 進行衝突判斷。於是改用「候選抽取 + Python 取最大序號」的流程,將單跳正確率提升 10.8 點(gpt‑4o‑mini),在 262K 訓練資料下提升至 21 點。
實驗成效
新流程在單跳任務上達到 78.0%(gpt‑4o‑mini)與 94.8%(gpt‑4o),多跳任務則提升至 30.2%(gpt‑4o‑mini),使用 gpt‑4o 可升至 51.5%。在相同條件下,較 HippoRAG‑v2 高出 28 分,亦超過已發表的最佳多跳結果 20 分。
延伸與未來工作
LongMemEval 的知識更新測試顯示,將最大序號換成最大時間戳仍能保持相近表現,說明 deterministic aggregation 是解決當前值衝突的關鍵原語。未來需結合問題類型的判斷,擴展至更廣泛的記憶問答場景。
延伸閱讀
- MOSAIC 框架:結構化代理式自動資料科學新突破
- Vesta:結合視覺語言模型的動態統計工具平台,提升資料模型自動化與天文應用
- Compass:以Knowledge Tree驅動的LLM代理進行海洋鉛(Pb)資料抽取與整合
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。