強化學習 - Agents Report

速報

大型推理模型在鏈式思考（CoT）上雖有突破，但常產生冗長的推理段落，導致計算資源浪費且未提升正確率。研究發現，低邊際效益的高機率段落是低效率的根源，於是提出 Segment-Level Adaptive Trimming（SLAT）框架，利用強化學習在正確度與長度的權衡下，選擇性壓縮冗餘段落。