速報大型語言模型角色模擬雙層思考認知模擬

HER 框架：雙層思考提升大型語言模型角色模擬的認知深度

角色扮演的 LLM 需要模擬內在思考，研究推出 HER 框架以雙層思考區分人物第一人稱與模型第三人稱，並透過逆向工程收集推理資料與人類對齊獎勵模型。實驗顯示在 CoSER 基準提升 30.26 分，於 Minimax Role‑Play Bench 增益 14.97%。

30 4月 2026 — 2 min read

背景與挑戰

大型語言模型已被廣泛運用於陪伴、內容創作與數位遊戲等角色扮演情境，能捕捉角色語調與知識。然而，模擬角色行為背後的內在思考仍未成熟，主要因缺乏高品質推理痕跡資料與與人類偏好對齊的獎勵訊號。

研究提出 HER（Cognitive‑Level Persona Simulation）作為統一的認知層級角色模擬框架。核心創新在於「雙層思考」：將角色的第一人稱思考（內在動機、推理）與 LLM 的第三人稱思考（外部敘事）分離，使模型能同時產出內在推理與外在回應。

為填補推理資料缺口，團隊使用逆向工程方式從現有角色對話中萃取推理步驟，形成「推理增強角色扮演」資料集。接著，根據人類偏好設計原則，訓練出對齊的獎勵模型，以指導模型在生成內在思考時符合使用者期望。

以 Qwen3-32B 為基礎，結合監督式學習與強化學習，訓練出 HER 版本模型。實驗在 CoSER 基準測試中提升 30.26 分，且在 Minimax Role‑Play Bench 上取得 14.97% 的表現增益，顯示雙層思考與高品質推理資料的有效性。

研究團隊已公開 HER 的資料集、原則文件與訓練模型，供學術與產業界持續探索認知層面的角色模擬。

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

GUI 代理人多數缺乏從經驗中學習的能力。CogniGUI 框架模仿人類雙系統思考，以 OmniParser 快速解析介面，並以 GRPO 強化學習評估多條操作路徑，選擇最有效率者。實驗顯示，該方法在接地與導航基準上均超越現有技術，建立從靜態操作邁向認知適應的新典範。

本研究提出「外觀指標」（Appearance Pointers），一種輕量且模態無關的機制，讓擴散變形金剛（DiTs）能精確理解並應用使用者指定區域的視覺或文字提示。透過區域對應網路與空間聚合模組，此方法可在不重新訓練基礎模型的前提下，同時處理多個區域描述，並支援影像與文字混合輸入。

一項針對多代理CI/CD管線的研究發現，權威框架注入攻擊能讓驗證者忽略明顯的惡意程式碼。即使系統提示未被洩漏，且管線內含多層驗證，攻擊者偽裝成預先批准的遙測功能仍可繞過所有內容檢查，最高導致55%的案例成功部署秘密竊取程式碼。研究指出，基於來源的防禦機制才是關鍵。

現有AI安全系統對隱藏仇恨內容的偵測幾近失效，準確率低於25%。研究提出Adaptive View Retrieval框架，將問題轉化為感知檢索，透過自適應選擇最佳視角，在HatefulIllusion資料集上達93.2%準確率，大幅超越現有方法。