速報 MAVIC:修正巨集動作價值以提升指令遵循的多代理強化學習方法 多代理強化學習在實務場景常被外部自然語言指令打斷,且指令可能與長期目標衝突。研究提出Macro-Action Value Correction for Instruction Compliance(MAVIC),在指令邊界修正Bellman回傳,透過調整進入指令的目標並還原當前目標下的延續價值,避免因指令干擾產生值估計不一致。