社會推理 - Agents Report

速報

理解多人視訊社會互動需解析細微非語言訊號。研究提出GRASP資料集，將注視、指向手勢與其組合轉為290K問答並分類，並以Social Grounding Reward做為學習訊號，引導模型推理互動參與者，實驗呈現於GRASP-Bench的績效提升。

深度分析

大型語言模型由文本工具走向具身代理，需要衡量其社會推理表現。SocialGrid在格子世界整合空間規劃、任務執行與對抗性社會推理，並提供可選的導航輔助以分離規劃與推理。實驗發現即便有規劃協助，代理在辨識欺騙上仍接近隨機，凸顯社會推理為主要瓶頸。

深度分析

本研究探討大型語言模型在社會推理遊戲 Avalon 中的表現限制，提出結合圖形資訊的貝葉斯推理框架以外部化信念推斷，並保留語言模型的文字理解功能。實驗證明此混合方法在與更大型模型的對戰中保持競爭力，且在受控的人類對戰中取得 67% 的勝率並獲得較高質性評分。