新理論框架:連續時間隨機過程下的深度強化學習演員-評論家模型
本研究針對連續環境的深度強化學習提出新理論框架,將問題建模為連續時間隨機過程,並設計融合探索與隨機轉移的演員-評論家演算法。對單層隱藏層網路證明環境狀態呈雙時間尺度,利用隨機微分方程推導出在極小學習率下的狀態分佈微分方程。實驗以玩具連續控制任務驗證理論,顯示該框架可有效描述過度參數化演員-評論家行為。
研究背景與動機
深度強化學習在連續控制領域的表現持續提升,但對於其理論基礎仍缺乏完整描述,特別是演員-評論家結構在隨機環境中的行為。
新理論框架
研究者將連續環境的強化學習問題視為連續時間隨機過程,結合隨機控制的觀點,提出一個可同時處理探索與隨機轉移的演員-評論家模型。
雙時間尺度分析
對單層隱藏層神經網路而言,環境狀態可拆解為兩個時間尺度:環境時間與梯度時間。透過無限寬度極限,描述環境狀態與累積折扣回報的隨機變量如何在梯度步驟中演化。
隨機微分方程推導
利用隨機微分方程理論,首次在連續強化學習中導出在極小學習率下,狀態分佈的無限小變化方程,提供對過度參數化演員-評論家演算法的非參數化描述。
實驗驗證
研究團隊在一個玩具連續控制任務上進行實驗,結果與理論預測高度吻合,證實了新框架的可行性。
延伸閱讀
- 以 NCE 與 SSE 驗證的 AgentSOC:結合生成式推理與圖形化可行性驗證
- pAI/MSc:以人為監督的多代理研究管線與可審計 LangGraph 工作流
- MedSkillAudit:以分層審核評估醫學研究代理人技能的部署準備度
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。