MAVIC:修正巨集動作價值以提升指令遵循的多代理強化學習方法
多代理強化學習在實務場景常被外部自然語言指令打斷,且指令可能與長期目標衝突。研究提出Macro-Action Value Correction for Instruction Compliance(MAVIC),在指令邊界修正Bellman回傳,透過調整進入指令的目標並還原當前目標下的延續價值,避免因指令干擾產生值估計不一致。
MAVIC:在指令中斷下修正價值估計以提升指令遵循
多代理強化學習面對外部自然語言指令時,會因指令打斷巨集動作而導致值函數不一致,影響長期策略。
作者提出 Macro-Action Value Correction for Instruction Compliance(MAVIC),在指令邊界修正 Bellman 回傳:將進入指令的目標做校正,並在回到原目標時還原延續價值。此作法非改變獎勵塑形,而是直接修改引導(bootstrapping)目標,讓在隨機切換指令情況下能得到一致的值估計,由單一策略統一處理不同指令情境。
論文同時給出理論分析並提出一套基於演員-評論家(actor-critic)的實作。實驗在逐步複雜的合作性多代理環境中進行,結果指出 MAVIC 能在提升指令遵循性的同時,保留原有基礎任務的表現。
對於需要在運作中接受語言指示並保持長期目標的真實應用,MAVIC 提供一條可維持價值估計一致性與指令響應能力的路徑,減少因指令切換造成的策略錯配問題。
延伸閱讀
- Parametric Skill Transfer(PaST):以技能向量補強 SFT 與 RL 的參數轉移
- REI-Bench:揭露含糊指稱對LLM機器人任務規劃的衝擊與情境覺察修正
- 可擴展貝式心智理論規劃器:分步貝式更新與弱→強模型協同
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。