速報
MAVIC:修正巨集動作價值以提升指令遵循的多代理強化學習方法
多代理強化學習在實務場景常被外部自然語言指令打斷,且指令可能與長期目標衝突。研究提出Macro-Action Value Correction for Instruction Compliance(MAVIC),在指令邊界修正Bellman回傳,透過調整進入指令的目標並還原當前目標下的延續價值,避免因指令干擾產生值估計不一致。
速報
多代理強化學習在實務場景常被外部自然語言指令打斷,且指令可能與長期目標衝突。研究提出Macro-Action Value Correction for Instruction Compliance(MAVIC),在指令邊界修正Bellman回傳,透過調整進入指令的目標並還原當前目標下的延續價值,避免因指令干擾產生值估計不一致。
深度分析
研究重新檢視監督式微調的層級效應,發現中層(20%‑80%)較為穩定、最上層敏感。提出只調整關鍵中間層的 Mid‑Block Efficient Tuning,於 GSM8K 測試中提升最高 10.2%。結果顯示對齊能力局部化,對未來微調與安全性平衡具重要啟示。