RLVR - Agents Report | 代理人報告

深度分析

RLVR 以可驗證獎勵強化學習提升 Atlassian 工作流自動化

大型語言模型在企業SaaS工作流程中常因只預測下一個字而失誤。研究以可驗證獎勵的強化學習在模擬Jira與Confluence環境訓練工具使用代理人，將四個非退化情境的平均獎勵從0.35‑0.92提升至0.95‑1.00，顯示小模型亦能達成高正確率。未來若能自動產生驗證獎勵，將加速AI工作流程自動化。

深度分析

「True‑Minus‑Random」分析：RLVR 獎勵設計與自洽引導之偏差分解

研究指出，RLVR中常用的Δnaive=acc(True)-acc(Random)估計混合了自洽引導與真實獎勵訊號，導致偏差。透過四條件分解與模擬，發現弱先驗模型需重視獎勵設計，而強先驗模型則主要受自洽影響。此結果對未來大型語言模型的對齊策略有重要啟示。

深度分析

Aryabhata 2：以強化學習優化開源大型語言模型的 STEM 競賽推理效能

面對JEE、NEET等競賽考試的高階符號推理需求，團隊以強化學習後訓練開源20億參數模型，打造Aryabhata2。模型在考試與跨領域推理基準上超越基礎模型，產出字元減少六成，提升部署效率。此方法結合嚴格答案驗證與難度感知課程，證實在資源受限環境下仍能提升正確率，預示開源模型在大規模教學平台上具競爭力。

深度分析

RLVR 獎勵安全檢測：驗證器模糊測試在數學、JSON 與程式單元測試中的漏洞與對策

隨著可驗證獎勵強化學習(RLVR)以程式化檢驗取代人工標記，驗證器錯誤可能成為高獎勵的漏洞。研究以輕量驗證器模糊測試產生對抗樣本，發現數學、JSON以及程式單元測試的驗證器均出現大量偽陽性。嚴格驗證器可顯著降低錯誤接受率，顯示事前測試驗證器可靠性的重要性。

深度分析

ASG（退火 Softmax）策略於 RLVR 多臂貝式強盜賭局的貝氏遺憾上界與實驗比較

研究探討在多臂貝式強盜賭局中，退火Softmax貪婪策略如何在不考慮不確定性的情況下仍能取得近最佳貝氏遺憾。結果顯示，於上尾線性正則先驗下，該策略達到O~(m+T/m)的遺憾率，與純貪婪方法等效，且在臂數與時間規模匹配時可達到O~(√T)的近最佳表現。

深度分析

EAPO：以熵感知策略優化改進 RLVR 的代幣歸因與四象限分析

本文從代幣層級的歸因問題切入，檢視以可驗證報酬訓練（RLVR）時序列級獎勵如何被錯置到不重要的代幣，提出結合報酬極性與代幣熵的「四象限分解」診斷工具。作者用條件互信息形式化代幣與結果獎勵的依賴，證明代幣能承載的學習訊號上界受其熵限制；

深度分析

量化 RLVR 稅：評測預算、資料污染與可靠性修正

研究背景：RLVR 用程式化可驗證信號提升大型語言模型於數學與程式任務的表現。方法：文章檢視預算匹配、偏提示污染與評分穩定性，並提出分項獎勵與稅意識訓練協議，包含校準拒答與審核溯源。主要影響：在嚴格對照下，若干號稱的推理增益會收斂或消失，建議以更健全的評估與報告標準保留實用收益同時降低風險。

深度分析

以 SFT 與 RLVR 將 GameCWM 生成功能蒸餾至小型 LLM

背景：LLM能將自然語言轉為可執行遊戲環境但往往仰賴昂貴前沿模型與推理修正；本文以監督微調與可驗證獎勵的後訓練流程將GameCWM能力蒸餾到小型模型，實驗顯示Qwen2.5-3B經SFT與RLVR後在語法與執行符合度上獲得提升，指向更可擴展的自動化環境生成路徑。

深度分析

以SAGE改造KL錨點：在RLVR中提升多步推理的探索與覆蓋率

近年以可驗證獎勵的強化學習（RLVR）在提升大型語言模型單一路徑準確度上成效明顯，但常見模式銳化導致樣本覆蓋不足。本文介紹SAGE框架，藉由在reverse-KL的錨分布上加入可控的引導函數q(x,y)，在保留穩定性的同時有系統地擴展經驗支持（empirical support）。

深度分析

DIBA：以行為位移揭露 RLVR 下的成員推斷風險

研究指出，採用可驗證回饋的強化學習（RLVR）在大型語言模型微調中，產生一種新的隱私外洩向量：訓練過程會留下行為差異，而非單純答案記憶。論文提出 Divergence-in-Behavior Attack（DIBA），透過「優勢端正確性提升」與「logit 層機率分歧」兩軸量化模型行為變化，從而判定某提示是否曾被用於 RLVR 微調。

深度分析

RLVR 於視覺語言模型的空間推理突破：Ariadne 迷宮框架實驗與跨域驗證

研究指出 RLVR 可能僅放大預訓練行為，缺乏視覺推理驗證。作者以 Ariadne 合成迷宮調控難度，發現 RLVR 能突破基礎 VLM 0% 正確率的空間推理上限。零樣本測試於 MapBench 與 ReasonMap 亦顯著提升，顯示能力真實擴張。