生成器層面 delta - Agents Report

深度分析

研究聚焦於偏好優化方法背後的關鍵因素，將偏好對的品質差異分為生成器層面與樣本層面，透過調整模型規模與使用 LLM 評審多維度推理品質，發現前者能提升跨域推理表現，後者則提高資料訓練效率。