速報
GRASP:以注視與指向手勢連結社會推理,並提出 Social Grounding Reward
理解多人視訊社會互動需解析細微非語言訊號。研究提出GRASP資料集,將注視、指向手勢與其組合轉為290K問答並分類,並以Social Grounding Reward做為學習訊號,引導模型推理互動參與者,實驗呈現於GRASP-Bench的績效提升。
速報
理解多人視訊社會互動需解析細微非語言訊號。研究提出GRASP資料集,將注視、指向手勢與其組合轉為290K問答並分類,並以Social Grounding Reward做為學習訊號,引導模型推理互動參與者,實驗呈現於GRASP-Bench的績效提升。
深度分析
大型語言模型由文本工具走向具身代理,需要衡量其社會推理表現。SocialGrid在格子世界整合空間規劃、任務執行與對抗性社會推理,並提供可選的導航輔助以分離規劃與推理。實驗發現即便有規劃協助,代理在辨識欺騙上仍接近隨機,凸顯社會推理為主要瓶頸。
深度分析
本研究探討大型語言模型在社會推理遊戲 Avalon 中的表現限制,提出結合圖形資訊的貝葉斯推理框架以外部化信念推斷,並保留語言模型的文字理解功能。實驗證明此混合方法在與更大型模型的對戰中保持競爭力,且在受控的人類對戰中取得 67% 的勝率並獲得較高質性評分。