深度分析 T2‑GRPO:結合環境回合獎勵與軌跡獎勵的多回合強化學習框架於失智照護對話 本研究針對失智症照護對話的長期目標與即時患者情緒波動,提出 T2‑GRPO(Turn‑Trajectory Group Relative Policy Optimization)框架。該方法直接從凍結的失智患者模擬器取得回合層面的環境獎勵,並以中心排名正規化同時保留軌跡層獎勵,避免獎勵崩潰;