policy-gradient

政策梯度與累積傷害示意

深度分析

政策梯度於長期累積傷害任務的完成度與最適性分解

研究探討長期累積傷害決策問題對政策梯度法的挑戰。作者區分完成度與最適性兩類失效，提出分解診斷並在兩個不同職涯模擬（磚匠與NBA大前鋒）檢驗四項可測預測。結果顯示，授予地平線存取或限制動作空間能改善完成率，但仍遺留來自早期貪婪承諾的最適性缺口。

意向性更新流式強化學習

深度分析

意向性更新於流式強化學習：以輸出導向步長控制 TD 與策略梯度

研究背景：流式強化學習因單樣本更新易失穩。核心做法：提出「意向性更新」，以期望輸出變化反算步長，對價值以固定比例縮減TD誤差，對策略以限制每步對數機率變化為單位。主要結果：在純流式設定達到穩定且與使用回放庫相近的表現。實驗跨離散與連續控制均顯示穩健性。