RTMC - Agents Report | 代理人報告

深度分析

多步強化學習需要精細的信用分配，傳統方法或是全域均等 advantage，或是需大量計算的價值網路。RTMC 透過共用中間狀態之 rollout 樹，無需評論家即能產生步級 Q 值與 advantage，並在 SWE‑bench Verified 上提升 3.2% 的 pass@1 成績。