深度分析 Owen‑Shapley Policy Optimization(OSPO):以片段歸因解決生成式推薦的信用分配 研究背景:大型語言模型在生成型推薦任務面臨序列級稀疏回饋與歸因困難。核心做法:提出OwenShapley策略優化(OSPO),將語義連續片段視為聯盟,以Owen值量化片段邊際貢獻,並依貢獻重分配序列級優勢,無需價值模型。主要結果:在商品搜尋資料集,OSPO在樣本效率與對未見檢索器穩健性優於基線。