深度分析 CoFlow:以協調速度注意力(CVA)實現少步推理於離線多代理強化學習 離線多代理強化學習近年依賴生成模型,但抽樣步驟多導致效能瓶頸。CoFlow 透過協調速度注意力與自適應門控,於單次前向即保留跨代理協調,實驗在 MPE、MA‑MuJoCo 與 SMAC 上以 1–3 步達到或超越既有基線。該方法在不增記憶體負擔下,使用有限差分代理取代雅可比向量乘,確保單卡訓練可行,顯示協調資訊可在模型內部保留。