偽陽性 - Agents Report | 代理人報告

深度分析

隨著可驗證獎勵強化學習(RLVR)以程式化檢驗取代人工標記，驗證器錯誤可能成為高獎勵的漏洞。研究以輕量驗證器模糊測試產生對抗樣本，發現數學、JSON以及程式單元測試的驗證器均出現大量偽陽性。嚴格驗證器可顯著降低錯誤接受率，顯示事前測試驗證器可靠性的重要性。