部分可觀測環境 - Agents Report

深度分析

語言模型代理人在開放式決策任務中需同時具備探索與利用能力。研究者設計了可程式調整難度的部分可觀測 2D 格子環境，並提出政策無關的探索與利用錯誤度量。實驗顯示即便是最先進模型仍有明顯失敗模式，推理模型經簡易調整後表現顯著提升，為未來 AI 代理人評估提供新基準。