深度分析 TCOD:以時序課程緩解多回合代理中的軌跡級 KL 不穩定 研究指出在策略蒸餾(OPD)直接套用於多回合代理會產生軌跡級KL不穩定。本文提出TCOD時序課程,透過由淺入深控制學生可見軌跡深度,並採Forward-to-Backward與Backward-to-Forward變體以緩解誤差累積。實驗顯示TCOD能穩定訓練並提升多項基準的成功率與效率。