獎勵設計 - Agents Report

深度分析

研究以固定專家作基準，評估輕量級GinRummy代理人的訓練要素，發現信任區域更新、先擊打獎勵與遞增對手課程等提升效能，最佳模型對專家勝率約34%，同時證實模型容量非瓶頸，資訊缺失限制上限。此結論亦在LeducHold’em上驗證，顯示方法具遊戲無關性，可作為小模型卡牌遊戲AI研發的基準。

深度分析

隨著基礎模型推理能力提升，產生程式變易，驗證卻成瓶頸。研究比較單元測試、評分表、使用者回饋與自動代理四種獎勵設計，證實無單一驗證能持續指導模型，需要驗證系統與生成模型同步演進。實驗顯示，加入品質判官與行為監控後，破解率由28.57%降至0.56%，完成率提升至60.53%。

深度分析

研究指出，RLVR中常用的Δnaive=acc(True)-acc(Random)估計混合了自洽引導與真實獎勵訊號，導致偏差。透過四條件分解與模擬，發現弱先驗模型需重視獎勵設計，而強先驗模型則主要受自洽影響。此結果對未來大型語言模型的對齊策略有重要啟示。

速報

研究指出遊戲中獎勵設計耗費大量專家知識。本文提出PCGRLLM架構，結合回饋機制與推理式提示工程，自動由故事生成獎勵函數。實驗在二維環境與多種提示法上跑測，表現大幅優於既有結構並接近人類水平。可望減少對人力依賴並助長創意流程。研究採用兩款先進大型語言模型驗證。

深度分析

研究聚焦視覺語言模型的物理推理能力，透過四種獎勵訊號比較其效能。結果顯示，以答案正確性為基礎的獎勵提升最大，且注意力權重獎勵在空間推理上有顯著改善，指出監督注意力是未來提升方向。