深度分析 ReCast:修補再對比以改善稀少命中生成式推薦的可學習性 稀少命中情境下,群組化強化學習常因抽樣群組缺乏可學習訊號而無效。ReCast 先修補全零群組、注入最低可學習錨點,再以邊界式對比只更新最強正樣本與最難負樣本,將全群組正規化替換為局部決策邊界更新。實驗顯示在多項生成推薦任務可顯著改善表現並節省大量 rollout 與系統成本。