MemoryAgentBench

速報

研究指出，LLM 記憶系統在處理隨時間演變的事實時，常因衝突解決不佳而表現不佳。MemoryAgentBench（MAB）以 FactConsolidation 任務測試衝突解決，發現現有系統在單跳與多跳情境下正確率均低於 55%。