任意停時推論 - Agents Report

深度分析

大型語言模型工作流程採反覆產生─評估─修正，停下釋出何時為難題。本文以離線高分失敗樣本建參考池，將黑盒驗證分數校準成步進 p 值，並以 e-process 在任意停時下累積證據判決釋出；結果顯示可抑制不可行任務的過早釋出風險，同時保留對可行任務的釋出能力。