深度分析
前沿編碼代理自動建構 AlphaZero Connect Four 管線:Claude Opus 4.7 表現領先
本研究以最小任務描述,測試四款前沿編碼代理(Gemini 3.1 Pro、Claude Opus 4.6、Claude Opus 4.7、GPT‑5.4)在消費級桌機與單顆 GPU 上,於三小時內自主建構 AlphaZero 風格的 Connect Four 自我對弈機器學習管線。
深度分析
本研究以最小任務描述,測試四款前沿編碼代理(Gemini 3.1 Pro、Claude Opus 4.6、Claude Opus 4.7、GPT‑5.4)在消費級桌機與單顆 GPU 上,於三小時內自主建構 AlphaZero 風格的 Connect Four 自我對弈機器學習管線。
深度分析
現有自動編碼評測忽視資源限制,作者打造 USACOArena 以信用預算模擬 ICPC 競賽,所有 token、測試與時間皆扣預算,迫使代理人權衡精確度與成本。結果顯示單體與群體代理仍未達最佳平衡,揭示資源感知訓練的重要性。