Preference Delta Aggregation - Agents Report

深度分析

隨著高品質監督資料稀缺，研究利用弱模型間的相對偏好作為「弱」訊號。提出PreferenceDeltaAggregation(PDA)結合LoRA與幾何對齊合併(GAM)以聚合多重偏好差異。實驗顯示，在知識推理與代理搜尋基準上，PDA‑GAM分別提升約6.8與7.3分，超過所有單一與多重基線。