深度分析
OneSearch-V2:以自蒸餾、鏈式思考與行為回饋優化生成式檢索
生成式檢索正改寫檢索與推薦場景,但現行系統對複雜查詢與個人化意圖理解有限。OneSearch-V2提出三項關鍵改進:以關鍵詞化思路擴充查詢理解、內化推理的自蒸餾訓練管線,以及以使用者行為回饋為核心的偏好對齊優化。離線與線上實驗顯示系統在點擊率、轉化率及訂單量上均有顯著提升,且不增加推論延遲。
深度分析
生成式檢索正改寫檢索與推薦場景,但現行系統對複雜查詢與個人化意圖理解有限。OneSearch-V2提出三項關鍵改進:以關鍵詞化思路擴充查詢理解、內化推理的自蒸餾訓練管線,以及以使用者行為回饋為核心的偏好對齊優化。離線與線上實驗顯示系統在點擊率、轉化率及訂單量上均有顯著提升,且不增加推論延遲。
速報
本論文探討強化學習在實務部署的兩大瓶頸:分散式環境下的可擴展性,以及應用於大語言模型與自動代理時的可信任性。作者以聯邦優化為主軸,提出通信高效且可非同步運作的強化學習策略,並研究以人類偏好為導向的對齊方法與減少語境不當資訊揭露的安全措施。