restless 多臂賭徒 - Agents Report

深度分析

探索與利用的取捨是自適應決策的核心。研究區分潛態報酬的波動性與觀測噪聲的隨機性，並在高斯狀態空間賭徒問題上分析其差異。提出名為CAUSE的控制即推理閉式探索指數，能分解為利用與探索兩部分並保留對兩種噪聲相反的影響。結果顯示波動性促進探索而隨機性抑制探索，對演算法與行為解析具體影響。