軌跡品質分數 - Agents Report

強化學習

本研究針對醫療強化學習獎勵設計的挑戰，提出將出院敘事轉為偏好獎勵的 CN‑PR 框架，利用大型語言模型生成軌跡品質分數並建構對比偏好，加入敘事相關性信心權重。實驗證實所學獎勵與軌跡品質相關係數 0.63，能提升器官支援天數與休克解決速度，同時保持死亡率表現，顯示敘事式監督具可擴展性與表現優勢。