偏好對齊 - Agents Report

深度分析

ARC任務需從少量格子範例推斷隱藏規則，傳統方法僅靠正向示例。DiARC透過構造三種負樣本並採用偏好對齊，使模型學會區分正確與近似錯誤結果。實驗顯示，在六項ARC基準上，DiARC可提升平均2.5分，Qwen3模型更達到超過96%正確率。此方法有望推動抽象推理模型的廣泛應用。

深度分析

生成式檢索正改寫檢索與推薦場景，但現行系統對複雜查詢與個人化意圖理解有限。OneSearch-V2提出三項關鍵改進：以關鍵詞化思路擴充查詢理解、內化推理的自蒸餾訓練管線，以及以使用者行為回饋為核心的偏好對齊優化。離線與線上實驗顯示系統在點擊率、轉化率及訂單量上均有顯著提升，且不增加推論延遲。

速報

本論文探討強化學習在實務部署的兩大瓶頸：分散式環境下的可擴展性，以及應用於大語言模型與自動代理時的可信任性。作者以聯邦優化為主軸，提出通信高效且可非同步運作的強化學習策略，並研究以人類偏好為導向的對齊方法與減少語境不當資訊揭露的安全措施。