首錯定位 - Agents Report

深度分析

現有的過程獎勵模型缺乏對錯誤位置與類型的精確控制。研究提出一套可控且可驗證的流程資料合成框架，先生成正確的符號推理鏈，再在中間步驟注入模板感知錯誤，重新計算後續步驟並檢查前綴不可推導性。實驗顯示此合成資料提升了邏輯推理的 Best‑of‑8 重新排序表現，且在數學推理上亦有遷移效益。