連續時間隨機過程 - Agents Report

速報

新理論框架：連續時間隨機過程下的深度強化學習演員-評論家模型

本研究針對連續環境的深度強化學習提出新理論框架，將問題建模為連續時間隨機過程，並設計融合探索與隨機轉移的演員-評論家演算法。對單層隱藏層網路證明環境狀態呈雙時間尺度，利用隨機微分方程推導出在極小學習率下的狀態分佈微分方程。實驗以玩具連續控制任務驗證理論，顯示該框架可有效描述過度參數化演員-評論家行為。