深度分析 過程獎勵代理人(PRA)提升知識密集推理效能的全新方法 知識密集推理難以驗證中間步驟,研究提出過程獎勵代理人(PRA)於測試時即時給予步驟獎勵,並於每一步搜尋式解碼中篩選候選路徑。實驗顯示在MedQA上以Qwen3‑4B達80.8%正確率,並可提升0.5B至8B模型最高25.7%效能,顯示凍結推理模型與領域獎勵模組解耦的潛力。