生成式推薦 - Agents Report

速報

生成式推薦近期興起，常用語意 ID（SID）編碼項目。但研究發現，SID 隨模型放大易飽和，成為效能瓶頸。相較之下，直接以大型語言模型作為推薦器（LLM-as-RS）在尺度擴展上表現更佳，最高提升約 20%。此發現顯示 LLM 在捕捉協同過濾資訊上亦具潛力，為生成式推薦提供新方向。

速報

OneRec 系列的生成式推薦模型已在短影片、直播、廣告與電商等服務中廣泛應用，但其推理能力受限，難以形成有效的思考流程。

深度分析

本篇改寫自 ArXiv 提案，指出直接偏好優化（DPO）在用大型語言模型做推薦偏好對齊時，容易放大訓練資料中來自情境性環境共變因子的虛假相關，進而削弱對未見環境的泛化能力。

深度分析

生成式推薦（Generative Recommenders, GRs）以語意索引取代傳統項目 ID，搭配大型語言模型成為推薦新趨勢，但仍受制於長尾資料導致的流行度偏見。論文指出偏見源於兩大內在問題：MLE 優化下尾部項目 token 的梯度飢餓，以及對熱門／冷門項目無差別的 token 化。

深度分析

生成式推薦因以語義索引取代傳統項目 ID，並採用端到端大模型微調而快速崛起；但研究發現此類系統仍深受流行度偏誤影響，熱門項目佔據推薦清單，多數尾部項目被邊緣化。本文從兩個核心面向切入：一為基於最大概似的 token 級優化會導致尾部 token 梯度飢餓；

深度分析

研究背景：大型語言模型在生成型推薦任務面臨序列級稀疏回饋與歸因困難。核心做法：提出OwenShapley策略優化（OSPO），將語義連續片段視為聯盟，以Owen值量化片段邊際貢獻，並依貢獻重分配序列級優勢，無需價值模型。主要結果：在商品搜尋資料集，OSPO在樣本效率與對未見檢索器穩健性優於基線。

深度分析

稀少命中情境下，群組化強化學習常因抽樣群組缺乏可學習訊號而無效。ReCast 先修補全零群組、注入最低可學習錨點，再以邊界式對比只更新最強正樣本與最難負樣本，將全群組正規化替換為局部決策邊界更新。實驗顯示在多項生成推薦任務可顯著改善表現並節省大量 rollout 與系統成本。