自我模仿 - Agents Report

SPAR

離線強化學習面臨價值最大化與資料支援衝突。研究提出SPAR，以行為克隆基底搭配殘差修正，在資料一致的局部殘差空間做細緻擬合與局部提升，並以潛在空間自我模仿和保守價值加權控管探索方向。理論與實驗指出可避免價值梯度推動策略偏離資料流形，並顯著提升任務表現。