回應層級熵 - Agents Report

AEM

強化學習在多回合代理任務因稀疏回饋難以分配步驟責任。AEM提出回應層級的自適應熵調節，利用相對驚訝量作為內在不確定性代理，動態放大或縮放步驟優勢以引導探索至利用。實驗顯示在多個基準與不同模型規模上能穩定提升效能。在SWE-bench-Verified等任務與1.5B至32B模型範圍獲得可觀改善。