MindGames Arena - Agents Report

深度分析

研究聚焦於多代理語言模型在長期策略互動中的獎勵分配問題，提出延遲步驟獎勵與資格門控機制，配合非同步批次與課程式對手抽樣，使訓練更穩定且樣本效率高。實驗顯示 8 億參數開源模型在 MindGames Arena 兩項賽事均奪冠，表現媲美或超越 GPT‑5。