先驗式 UCT - Agents Report

深度分析

結合學習與搜尋是 AlphaZero 成功關鍵。本文提出 Inverse-RPO 方法，能把任意無先驗的 UCB 系統化轉為含先驗的 UCT，並以 UCB-V 推導出變異數感知的 UCT-V-P 與啟發式 PUCT-V。實驗顯示這兩種先驗式策略在多項基準上優於現行 PUCT，且可低成本部署。