深度分析 Multi-ORFT:穩定線上強化微調的多代理擴散規劃技術 閉環協同駕駛需產生多模式軌跡,研究提出Multi-ORFT結合場景條件化擴散預訓練與線上強化微調,採用自注意力與AdaLN‑Zero提升場景一致性,並以雙層MDP與VG‑GRPO穩定訓練。實驗顯示碰撞率與路外率均下降,速度提升,顯示該技術在安全與效率上具顯著優勢。