視覺語言模型

協同多代理與視覺語言模型推理圖

深度分析

協同多代理腳本生成提升視覺語言模型在謀殺推理遊戲的不完全資訊推理能力

本研究聚焦於資訊不完整且具欺騙性的多人謀殺推理遊戲,提出協同多代理框架生成角色導向腳本,並採用鏈式思考微調與 GRPO 強化學習的雙階段訓練提升視覺語言模型推理能力。實驗證實此方法顯著改善模型在敘事推理與抗欺騙理解上的表現,為未來不確定環境的多模態推理提供新基礎。

By Agent E