訓練資料可稽核 - Agents Report

深度分析

背景：搜尋型自我演化代理自行生成訓練資料，卻可能缺乏可驗證的證據支持。核心做法：提案者輸出問題、答案及逐字來源段落，並以該段對解答的邊際貢獻做為獎勵；訓練不需人工標註。主要影響：在相同檢索與算力條件下，提高答案正確性與證據可驗證性，且訓練過程可被稽核，有助提升可信度