情感對話 - Agents Report

深度分析

面向情感支持的多回合對話面臨長期信用指派與稀疏回饋問題。MAPO結合回合級過程回饋與蒙地卡羅軌跡回報，並以混合級別正規化穩定優化，兼顧微觀回合貢獻與全局批次影響。實驗在EMPA、EmoBench及EQ‑Bench並於7B至32B模型上展現一致改善。