多模態推理框架 - Agents Report

深度分析

研究背景：視覺資料在 RAG 中因代幣量大、語意稀疏而導致線性記憶失效。核心技術：VimRAG 以多模態記憶圖、圖調節視覺記憶編碼與圖導向策略優化取代傳統壓縮與線性歷史。結果顯示在九項多模態基準上，VimRAG 整體分數提升 6.5 分，且推論步驟更短。（原文未詳述）