GFlowNets - Agents Report | 代理人報告

深度分析

從 Trajectory Balance 擴展到 f‑散度：在 on/off‑policy 下以 DevGrad 調優 GFlowNets 與 LLM 的代理損失框架

為了更穩定且可離線應用的生成模型微調方法,研究從平方KL延伸到一整族f‑散度,提出翻譯不變的代理損失ℒ_f。該損失在on‑policy下其自動微分梯度對應相應f‑散度,且在off‑policy時仍保有相同全域極小化器。實驗在合成格子、分子搜尋與LLM非同步調優上,展示可藉由不同f‑散度調整模式覆蓋與尋模的平衡,強化探索導向任務的表現。

從 Trajectory Balance 擴展到 f‑散度：在 on/off‑policy 下以 DevGrad 調優 GFlowNets 與 LLM 的代理損失框架

最大獨立集（MIS）實證比較：GFlowNets、擴散模型與 KaMIS 的性能與行為分析