少步推理 - Agents Report

深度分析

CoFlow：以協調速度注意力（CVA）實現少步推理於離線多代理強化學習

離線多代理強化學習近年依賴生成模型，但抽樣步驟多導致效能瓶頸。CoFlow 透過協調速度注意力與自適應門控，於單次前向即保留跨代理協調，實驗在 MPE、MA‑MuJoCo 與 SMAC 上以 1–3 步達到或超越既有基線。該方法在不增記憶體負擔下，使用有限差分代理取代雅可比向量乘，確保單卡訓練可行，顯示協調資訊可在模型內部保留。