速報 GRASP:以注視與指向手勢連結社會推理,並提出 Social Grounding Reward 理解多人視訊社會互動需解析細微非語言訊號。研究提出GRASP資料集,將注視、指向手勢與其組合轉為290K問答並分類,並以Social Grounding Reward做為學習訊號,引導模型推理互動參與者,實驗呈現於GRASP-Bench的績效提升。