信用分配

全委託遍歷式學習價值分配

深度分析

價值限制式信用分配：遍歷式學習在全委託 AI 合作社中的應用

在多成員AI合作社中，成員以代理人代表，需遵守各自價值限制。研究提出遍歷式學習結合價值條件梯度過濾，僅計算符合價值檢核的更新，並以即時邊際貢獻分配收益。實驗顯示此方法比傳統FedAvg聯邦學習在信用透明度與公平分配上更具優勢。預期此框架將促進AI服務的多元治理與公平收益分配。

片段歸因與生成式推薦OSPO

深度分析

Owen‑Shapley Policy Optimization（OSPO）：以片段歸因解決生成式推薦的信用分配

研究背景：大型語言模型在生成型推薦任務面臨序列級稀疏回饋與歸因困難。核心做法：提出OwenShapley策略優化（OSPO），將語義連續片段視為聯盟，以Owen值量化片段邊際貢獻，並依貢獻重分配序列級優勢，無需價值模型。主要結果：在商品搜尋資料集，OSPO在樣本效率與對未見檢索器穩健性優於基線。