AlphaZero - Agents Report | 代理人報告

深度分析

本研究以ConnectFour與Chomp為測試平台，探討AlphaZero在稀疏獎勵環境下的強大與完美表現差距，提出加入Oracle輔助損失的AZAL方法，顯著提升策略的一致性與最終勝率。實驗顯示，在10×11的Chomp棋盤上達到全局一致，且在ConnectFour上仍有錯誤。

深度分析

研究以自我對弈深度強化學習將LLL格子簡化演算法重新編排，透過AlphaZero式自我對弈與自適應視野MCTS找出更佳操作序列，實驗顯示在未見模數與高維度上零樣本即優於LLL，提升基底品質並減少運算。相較於傳統LLL，Delta‑Star在相同步數減少約40%列操作，展現AI策略的效能提升。

速報

本報導說明一項針對不完全資訊博弈的樹搜尋新法MAPLE（Multi-State Aggregated PoLicy Evaluation）。MAPLE在單一搜尋樹內，對多個從信息集中抽樣的世界狀態進行策略與價值評估的匯總，結合了PIMC與IS-MCTS的優勢，同時將計算成本保持在可控範圍。

深度分析

本研究以最小任務描述，測試四款前沿編碼代理（Gemini 3.1 Pro、Claude Opus 4.6、Claude Opus 4.7、GPT‑5.4）在消費級桌機與單顆 GPU 上，於三小時內自主建構 AlphaZero 風格的 Connect Four 自我對弈機器學習管線。