OneReason:結合感知與認知提升生成式推薦推理能力
OneRec 系列的生成式推薦模型已在短影片、直播、廣告與電商等服務中廣泛應用,但其推理能力受限,難以形成有效的思考流程。
OneRec 系列的生成式推薦模型已在短影片、直播、廣告與電商等實務服務中大量部署。然而,這類模型僅能利用規模效益,推理能力難以發揮,因為無法僅以項目 token 建構有意義的思考鏈(Chain‑of‑Thought, CoT)。
受大型語言模型「先思考再回答」的成功啟發,研究者先行推出 OneRec-Think 與 OpenOneRec,探索生成式推薦的推理潛能。結果顯示,思考模式並未在效能上超過傳統模式。
參考近期多模態語言模型在 CoT 穩健性上的研究,作者指出有效推理依賴兩大因素:感知——將項目 token 與其底層語意對應;認知——將使用者行為序列重新組織為連貫的潛在興趣點。
基於此,提出 OneReason 框架,包含三項核心設計:
- 在預訓練階段加強項目 token 的感知能力。
- 於指令微調(SFT)中使用三層認知增強的 CoT 格式,協助模型形成清晰的推理步驟。
- 採用「專精後統合」的強化學習(RL)訓練流程,進一步提升思考能力。
實驗結果顯示,OneReason 在多項真實推薦任務上相較於基線模型有顯著提升,證實感知與認知的結合是提升生成式推薦推理的關鍵。
延伸閱讀
- LLM精神病理:揭露大型語言模型的五種認知崩解
- 大型語言模型文化偏誤審計:GPT-5.4、Claude Sonnet 4.5、Gemini 2.5 Flash 的個體主義傾向分析
- 大型自律代理人社會的集體智慧:以 MoltBook 和 Probing Agents 的三級檢測框架驗證
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。