深度分析 分布式魯棒令牌優化(DRTO)提升 LLM 在 RLHF 框架下的穩健性與效能 大型語言模型對提示微變易失效。研究以分布式魯棒令牌優化結合 RLHF,透過 f‑散度集合界定最壞獎勵,提升對分布移動的穩健性。實驗在 GSM8K 與 MathQA 上分別提升 9.17% 與 2.49%,顯著增強數學推理一致性。