樣本效率 - Agents Report

深度分析

等變性 JEPA：以少量交互實現零樣本泛化與高樣本效率

研究將世界對稱性硬編碼於潛在模型，採用等變性編碼器（2D 向量神經元、3D e3nn）與等變性預測器，於筆記本 CPU 上與參數較多的非等變基線比較。結果顯示在 SO(2)、SO(3) 及 SE(3) 群上誤差約為 1 倍，遠低於基線的 13 至 157 倍，同時閉環姿態控制保持方向不變性，證明等變性提升樣本效率與零樣本泛化。

深度分析

群組相對策略最佳化（GRPO）及其變體 Dr.GRPO、DAPO：從標準差到訓練樣本需求

本研究探討語言模型在可驗證推理訓練中的核心機制，聚焦於群組相對策略最佳化（GRPO）對標準差的運用，說明其與Dr.GRPO與DAPO的差異，並以數學分析說明樣本數需求與訊號強度，最後預測此技術對AI訓練效率與商業部署的長遠影響。此分析亦比較傳統強化學習獎勵設計，指出GRPO在多樣本不一致時提供更穩定的梯度訊號。

速報

Pareto Q-Learning 搭配獎勵機器人：多目標強化學習新突破

研究團隊推出 Pareto Q-Learning with Reward Machines（PQLRM），結合向量化 Q 值的 Pareto 前緣近似與獎勵機器人（Reward Machines）的自動機結構，針對非馬可夫、以獎勵機器人編碼的多目標任務提供樣本效率高的多策略演算法。

深度分析

硬編碼等變性於 JEPA：提升樣本效率與跨姿態零樣本泛化

研究探討將世界對稱性硬編碼於潛在世界模型，使用等變編碼器與預測器，比較等變與非等變基線。結果顯示等變模型在所有旋轉設定下誤差保持≈1，遠優於非等變模型。實驗於CPU/MPS筆記本完成35步，誤差跨群組恆定，非等變模型誤差高達13至157倍。此發現顯示對稱性可提升樣本效率與零樣本泛化。

深度分析

線性系統中 RL–MPC 的分類與挑戰：角色分工、穩定性與部署要點

本篇系統性文獻回顧整理線性與線性化預測控制（MPC）與強化學習（RL）的整合方案，從文獻篩選建立多維分類，將 RL 在 MPC 架構中歸納為五大角色：規劃者、平衡器、結構調適、策略近似與守護者。文章交叉比對 RL 演算法類別、MPC 形式與成本函數結構，指出常見設計模式與關聯性，並整理樣本效率、計算複雜度、穩定性與閉環保證等實務瓶頸。

深度分析

IRIS：以 Rényi 散度與自適應 α 調度優化自我對弈微調

IRIS（Interpolative Rényi Iterative Self-play）提出一套以 Rényi 散度為核心、可連續調整的自我對弈微調框架，目標在於克服既有自我對弈方法在不同訓練階段各自偏好的限制。

深度分析

WOMBET：結合世界模型與不確定性懲罰的機器人強化學習經驗轉移框架

強化學習在機器人領域因資料取得成本高而受限。WOMBET 透過來源任務的世界模型生成具低認知不確定性的離線軌跡，並在目標任務自適應抽樣混合線上離線資料。實驗證明此框架提升樣本效率，顯著優於現有基線。