強化學習 臨床敘事轉化偏好獎勵:CN‑PR 框架提升醫療強化學習決策效能 本研究針對醫療強化學習獎勵設計的挑戰,提出將出院敘事轉為偏好獎勵的 CN‑PR 框架,利用大型語言模型生成軌跡品質分數並建構對比偏好,加入敘事相關性信心權重。實驗證實所學獎勵與軌跡品質相關係數 0.63,能提升器官支援天數與休克解決速度,同時保持死亡率表現,顯示敘事式監督具可擴展性與表現優勢。