深度分析 SocialGrid:評估具身多代理系統的社會推理與空間規劃基準 大型語言模型由文本工具走向具身代理,需要衡量其社會推理表現。SocialGrid在格子世界整合空間規劃、任務執行與對抗性社會推理,並提供可選的導航輔助以分離規劃與推理。實驗發現即便有規劃協助,代理在辨識欺騙上仍接近隨機,凸顯社會推理為主要瓶頸。