深度分析 從 Gittins 到 CAUSE:以 Kalman 濾波分離波動性與觀測噪聲以優化探索策略 探索與利用的取捨是自適應決策的核心。研究區分潛態報酬的波動性與觀測噪聲的隨機性,並在高斯狀態空間賭徒問題上分析其差異。提出名為CAUSE的控制即推理閉式探索指數,能分解為利用與探索兩部分並保留對兩種噪聲相反的影響。結果顯示波動性促進探索而隨機性抑制探索,對演算法與行為解析具體影響。