熵感知策略優化 - Agents Report

深度分析

本文從代幣層級的歸因問題切入，檢視以可驗證報酬訓練（RLVR）時序列級獎勵如何被錯置到不重要的代幣，提出結合報酬極性與代幣熵的「四象限分解」診斷工具。作者用條件互信息形式化代幣與結果獎勵的依賴，證明代幣能承載的學習訊號上界受其熵限制；