對比式推理路徑合成 - Agents Report

深度分析

對比式推理路徑合成（CRPS）：提升資料效率與跨域泛化的高資訊對比方法

Monte Carlo 樹搜尋在自動推理中常見，但傳統只保留最高回報路徑，浪費比較訊號。本文提出對比式推理路徑合成（CRPS），透過分析高低品質軌跡差異，合成兼具成功模式與迴避失敗的推理鏈。實驗顯示 6 萬筆 CRPS 樣本即可匹配或超越 59 萬筆傳統樣本，資料規模縮減 20 倍，且在跨域測試上表現更佳。