深度分析 「延遲步驟獎勵」與「資格門控」:8 億參數開源模型在 MindGames Arena 超越 GPT‑5 研究聚焦於多代理語言模型在長期策略互動中的獎勵分配問題,提出延遲步驟獎勵與資格門控機制,配合非同步批次與課程式對手抽樣,使訓練更穩定且樣本效率高。實驗顯示 8 億參數開源模型在 MindGames Arena 兩項賽事均奪冠,表現媲美或超越 GPT‑5。