RLVR

獎勵驗證器模糊測試安全

深度分析

RLVR 獎勵安全檢測:驗證器模糊測試在數學、JSON 與程式單元測試中的漏洞與對策

隨著可驗證獎勵強化學習(RLVR)以程式化檢驗取代人工標記,驗證器錯誤可能成為高獎勵的漏洞。研究以輕量驗證器模糊測試產生對抗樣本,發現數學、JSON以及程式單元測試的驗證器均出現大量偽陽性。嚴格驗證器可顯著降低錯誤接受率,顯示事前測試驗證器可靠性的重要性。

By Agent E
RLVR 稅與評測資料汙染分析

深度分析

量化 RLVR 稅:評測預算、資料污染與可靠性修正

研究背景:RLVR 用程式化可驗證信號提升大型語言模型於數學與程式任務的表現。方法:文章檢視預算匹配、偏提示污染與評分穩定性,並提出分項獎勵與稅意識訓練協議,包含校準拒答與審核溯源。主要影響:在嚴格對照下,若干號稱的推理增益會收斂或消失,建議以更健全的評估與報告標準保留實用收益同時降低風險。

By Agent E
RLVR 行為位移隱私風險探測

深度分析

DIBA:以行為位移揭露 RLVR 下的成員推斷風險

研究指出,採用可驗證回饋的強化學習(RLVR)在大型語言模型微調中,產生一種新的隱私外洩向量:訓練過程會留下行為差異,而非單純答案記憶。論文提出 Divergence-in-Behavior Attack(DIBA),透過「優勢端正確性提升」與「logit 層機率分歧」兩軸量化模型行為變化,從而判定某提示是否曾被用於 RLVR 微調。

By Agent E