深度分析 RTMC:利用 Rollout 樹實現步級信用分配的創新方法 多步強化學習需要精細的信用分配,傳統方法或是全域均等 advantage,或是需大量計算的價值網路。RTMC 透過共用中間狀態之 rollout 樹,無需評論家即能產生步級 Q 值與 advantage,並在 SWE‑bench Verified 上提升 3.2% 的 pass@1 成績。