搜尋式解碼 - Agents Report

深度分析

知識密集推理難以驗證中間步驟，研究提出過程獎勵代理人（PRA）於測試時即時給予步驟獎勵，並於每一步搜尋式解碼中篩選候選路徑。實驗顯示在MedQA上以Qwen3‑4B達80.8%正確率，並可提升0.5B至8B模型最高25.7%效能，顯示凍結推理模型與領域獎勵模組解耦的潛力。