深度分析 偏好對雙重 Delta 解析:生成器與樣本層面對大型語言模型推理的影響 研究聚焦於偏好優化方法背後的關鍵因素,將偏好對的品質差異分為生成器層面與樣本層面,透過調整模型規模與使用 LLM 評審多維度推理品質,發現前者能提升跨域推理表現,後者則提高資料訓練效率。