深度分析
參數化具身代理 PEAM:用 LoRA 與 Qwen3‑VL‑8B‑Instruct 提升 Minecraft 長程任務表現
隨著大型語言模型在具身代理中的應用普遍,記憶仍多為外部檢索。研究提出PEAM框架,將成功與修正的操作軌跡內化為參數化適配器,並以失敗為訓練訊號。此設計透過每類別獨立的LoRA適配器避免跨技能遺忘,且以自觸發機制在失敗統計達標時自動內化,免除手動門檻,提升了代理的實時反應速度。
深度分析
隨著大型語言模型在具身代理中的應用普遍,記憶仍多為外部檢索。研究提出PEAM框架,將成功與修正的操作軌跡內化為參數化適配器,並以失敗為訓練訊號。此設計透過每類別獨立的LoRA適配器避免跨技能遺忘,且以自觸發機制在失敗統計達標時自動內化,免除手動門檻,提升了代理的實時反應速度。
深度分析
此研究把頭戴廚房影像編譯為可執行的符號世界,從密集註解抽取並規範化動作群與可重用轉移規則;模擬器維持隱藏世界而代理僅見局部觀察與執行回饋建構信念並規劃。實驗指出動作重疊常高估物理層成功,信念維護與記憶選擇對長程任務影響顯著。且註解驅動編譯優於直接用大型語言模型產生。
深度分析
研究背景:具身代理需判定何時結束任務卻常被現行評測掩蓋。核心做法:Vigil在無動作回饋、僅第一人稱RGB下要求語義化終止回報,將世界狀態完成度與報告正確性分離計分,能辨識四種結局類型。主要結果:在多款模型與一千回合實驗中,執行成功與終止承諾可被明顯切分,動作回饋改善執行但不保證修復終止失誤。
深度分析
大型語言模型由文本工具走向具身代理,需要衡量其社會推理表現。SocialGrid在格子世界整合空間規劃、任務執行與對抗性社會推理,並提供可選的導航輔助以分離規劃與推理。實驗發現即便有規劃協助,代理在辨識欺騙上仍接近隨機,凸顯社會推理為主要瓶頸。