SPAR SPAR:在離線強化學習中以殘差策略維持資料支援並局部改進 離線強化學習面臨價值最大化與資料支援衝突。研究提出SPAR,以行為克隆基底搭配殘差修正,在資料一致的局部殘差空間做細緻擬合與局部提升,並以潛在空間自我模仿和保守價值加權控管探索方向。理論與實驗指出可避免價值梯度推動策略偏離資料流形,並顯著提升任務表現。