VLA-Pro:以程序記憶與LoRA提升視覺語言行動模型跨任務泛化
視覺語言行動模型仍難跨任務泛化。VLA-Pro在訓練時以任務專屬LoRA適配器當作程序記憶儲存,推論時根據多模態情境檢索並融合相關記憶以產生動作。實驗於RoboTwin、RLBench與實機測試顯著提升泛化,模擬相對改善達207%,實機成功率從5.8%升至65.0%。
VLA-Pro:以程序記憶改善跨任務泛化
視覺-語言-行動(VLA)模型在通用操作上具潛力,但面對未見任務常難以從既有經驗跨物件、場景或動作模式轉移。
VLA-Pro提出一套可插拔的機制:在訓練階段將任務專屬的LoRA適配器作為參數化的程序記憶儲存;推論時根據當前多模態上下文檢索與選取相關程序記憶,並動態融合這些記憶以產生當前的動作片段。
作者在RoboTwin、RLBench與實際操作任務上進行評估,結果顯示VLA-Pro能穩定改善跨任務泛化;模擬環境中相對改善可達207%,而實際操作的成功率從5.8%提升到65.0%。研究指出,將程序性經驗以可參數化形式儲存並在推論時檢索、適配,可在保有模組化與執行穩定的前提下,將既有操作經驗有效移轉到新任務。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。