線上強化微調 - Agents Report

深度分析

閉環協同駕駛需產生多模式軌跡，研究提出Multi-ORFT結合場景條件化擴散預訓練與線上強化微調，採用自注意力與AdaLN‑Zero提升場景一致性，並以雙層MDP與VG‑GRPO穩定訓練。實驗顯示碰撞率與路外率均下降，速度提升，顯示該技術在安全與效率上具顯著優勢。