大型語言模型 - Agents Report

速報

角色扮演的 LLM 需要模擬內在思考，研究推出 HER 框架以雙層思考區分人物第一人稱與模型第三人稱，並透過逆向工程收集推理資料與人類對齊獎勵模型。實驗顯示在 CoSER 基準提升 30.26 分，於 Minimax Role‑Play Bench 增益 14.97%。