深度分析 RAMP:結合深度強化學習與數值規劃的線上行動模型學習框架 自動規劃需行動模型,傳統需離線學習。RAMP 以深度強化學習線上收集資料,同時抽取數值行動模型並規劃未來動作,形成正向回饋迴路。實驗證實其在可解性與計畫品質上顯著優於 PPO,顯示線上混合學習的潛力。