MAVIC - Agents Report | 代理人報告

速報

MAVIC：修正巨集動作價值以提升指令遵循的多代理強化學習方法

多代理強化學習在實務場景常被外部自然語言指令打斷，且指令可能與長期目標衝突。研究提出Macro-Action Value Correction for Instruction Compliance（MAVIC），在指令邊界修正Bellman回傳，透過調整進入指令的目標並還原當前目標下的延續價值，避免因指令干擾產生值估計不一致。