深度分析
硬編碼等變性於 JEPA:提升樣本效率與跨姿態零樣本泛化
研究探討將世界對稱性硬編碼於潛在世界模型,使用等變編碼器與預測器,比較等變與非等變基線。結果顯示等變模型在所有旋轉設定下誤差保持≈1,遠優於非等變模型。實驗於CPU/MPS筆記本完成35步,誤差跨群組恆定,非等變模型誤差高達13至157倍。此發現顯示對稱性可提升樣本效率與零樣本泛化。
深度分析
研究探討將世界對稱性硬編碼於潛在世界模型,使用等變編碼器與預測器,比較等變與非等變基線。結果顯示等變模型在所有旋轉設定下誤差保持≈1,遠優於非等變模型。實驗於CPU/MPS筆記本完成35步,誤差跨群組恆定,非等變模型誤差高達13至157倍。此發現顯示對稱性可提升樣本效率與零樣本泛化。
深度分析
本篇系統性文獻回顧整理線性與線性化預測控制(MPC)與強化學習(RL)的整合方案,從文獻篩選建立多維分類,將 RL 在 MPC 架構中歸納為五大角色:規劃者、平衡器、結構調適、策略近似與守護者。文章交叉比對 RL 演算法類別、MPC 形式與成本函數結構,指出常見設計模式與關聯性,並整理樣本效率、計算複雜度、穩定性與閉環保證等實務瓶頸。
深度分析
IRIS(Interpolative Rényi Iterative Self-play)提出一套以 Rényi 散度為核心、可連續調整的自我對弈微調框架,目標在於克服既有自我對弈方法在不同訓練階段各自偏好的限制。
深度分析
強化學習在機器人領域因資料取得成本高而受限。WOMBET 透過來源任務的世界模型生成具低認知不確定性的離線軌跡,並在目標任務自適應抽樣混合線上離線資料。實驗證明此框架提升樣本效率,顯著優於現有基線。