強化學習 - Agents Report

深度分析

研究在情緒交互情境檢驗以可驗證情緒回饋強化學習(RLVER)訓練之同理模型。提出對抗性同理基準(AEB)與情緒一致性分數(ECS)，以六類對抗軌跡測試模型回應及狀態追蹤。結果顯示RLVER最終得分明顯優於未調整基線，但ECS無顯著改善，意味回應能力與情緒狀態可見性可能分離。