安全RLHF - Agents Report | 代理人報告

深度分析

本研究針對失智症照護對話的長期目標與即時患者情緒波動，提出 T2‑GRPO（Turn‑Trajectory Group Relative Policy Optimization）框架。該方法直接從凍結的失智患者模擬器取得回合層面的環境獎勵，並以中心排名正規化同時保留軌跡層獎勵，避免獎勵崩潰；