DRTO - Agents Report | 代理人報告

深度分析

大型語言模型對提示微變易失效。研究以分布式魯棒令牌優化結合 RLHF，透過 f‑散度集合界定最壞獎勵，提升對分布移動的穩健性。實驗在 GSM8K 與 MathQA 上分別提升 9.17% 與 2.49%，顯著增強數學推理一致性。