Doob 變換 - Agents Report

深度分析

研究指出擴散語言模型的代幣排序是關鍵控制軸，傳統使用隨機或信心驅動方式會產生訓練測試不匹配與探索短視問題。作者提出DPRM插件模組，結合線上獎勵估計逐步由信心排序轉為過程獎勵導向，在七項語言與科學生成任務中提升準確率、結構相似度與藥物設計有效性，顯示代幣排序可成為可重用的性能提升手段。