速報 新理論框架:連續時間隨機過程下的深度強化學習演員-評論家模型 本研究針對連續環境的深度強化學習提出新理論框架,將問題建模為連續時間隨機過程,並設計融合探索與隨機轉移的演員-評論家演算法。對單層隱藏層網路證明環境狀態呈雙時間尺度,利用隨機微分方程推導出在極小學習率下的狀態分佈微分方程。實驗以玩具連續控制任務驗證理論,顯示該框架可有效描述過度參數化演員-評論家行為。