AEM AEM:回應層級熵調節於多回合代理式強化學習的實作與驗證 強化學習在多回合代理任務因稀疏回饋難以分配步驟責任。AEM提出回應層級的自適應熵調節,利用相對驚訝量作為內在不確定性代理,動態放大或縮放步驟優勢以引導探索至利用。實驗顯示在多個基準與不同模型規模上能穩定提升效能。在SWE-bench-Verified等任務與1.5B至32B模型範圍獲得可觀改善。