深度分析
CausalDPO:以因果不變性修正 DPO,提升生成式推薦對分布偏移的穩健性
本篇改寫自 ArXiv 提案,指出直接偏好優化(DPO)在用大型語言模型做推薦偏好對齊時,容易放大訓練資料中來自情境性環境共變因子的虛假相關,進而削弱對未見環境的泛化能力。
深度分析
本篇改寫自 ArXiv 提案,指出直接偏好優化(DPO)在用大型語言模型做推薦偏好對齊時,容易放大訓練資料中來自情境性環境共變因子的虛假相關,進而削弱對未見環境的泛化能力。
深度分析
生成式推薦(Generative Recommenders, GRs)以語意索引取代傳統項目 ID,搭配大型語言模型成為推薦新趨勢,但仍受制於長尾資料導致的流行度偏見。論文指出偏見源於兩大內在問題:MLE 優化下尾部項目 token 的梯度飢餓,以及對熱門/冷門項目無差別的 token 化。
深度分析
生成式推薦因以語義索引取代傳統項目 ID,並採用端到端大模型微調而快速崛起;但研究發現此類系統仍深受流行度偏誤影響,熱門項目佔據推薦清單,多數尾部項目被邊緣化。本文從兩個核心面向切入:一為基於最大概似的 token 級優化會導致尾部 token 梯度飢餓;
深度分析
研究背景:大型語言模型在生成型推薦任務面臨序列級稀疏回饋與歸因困難。核心做法:提出OwenShapley策略優化(OSPO),將語義連續片段視為聯盟,以Owen值量化片段邊際貢獻,並依貢獻重分配序列級優勢,無需價值模型。主要結果:在商品搜尋資料集,OSPO在樣本效率與對未見檢索器穩健性優於基線。
深度分析
稀少命中情境下,群組化強化學習常因抽樣群組缺乏可學習訊號而無效。ReCast 先修補全零群組、注入最低可學習錨點,再以邊界式對比只更新最強正樣本與最難負樣本,將全群組正規化替換為局部決策邊界更新。實驗顯示在多項生成推薦任務可顯著改善表現並節省大量 rollout 與系統成本。