深度分析
從 Trajectory Balance 擴展到 f‑散度:在 on/off‑policy 下以 DevGrad 調優 GFlowNets 與 LLM 的代理損失框架
為了更穩定且可離線應用的生成模型微調方法,研究從平方KL延伸到一整族f‑散度,提出翻譯不變的代理損失ℒ_f。該損失在on‑policy下其自動微分梯度對應相應f‑散度,且在off‑policy時仍保有相同全域極小化器。實驗在合成格子、分子搜尋與LLM非同步調優上,展示可藉由不同f‑散度調整模式覆蓋與尋模的平衡,強化探索導向任務的表現。