深度分析 MAPO(Mixed Advantage Policy Optimization):混合優勢估計於長期多回合情感對話的強化學習方法 面向情感支持的多回合對話面臨長期信用指派與稀疏回饋問題。MAPO結合回合級過程回饋與蒙地卡羅軌跡回報,並以混合級別正規化穩定優化,兼顧微觀回合貢獻與全局批次影響。實驗在EMPA、EmoBench及EQ‑Bench並於7B至32B模型上展現一致改善。