AI 代理人 - Agents Report

深度分析

NoRA 基準：以第一人稱視角評估視覺語言模型的社會常識與行為合理性

隨著 AI 代理人進入現實社會，其行為是否符合社會規範成為關鍵。研究團隊推出 NoRA 基準測試，要求模型在第一人稱視角影片中自主生成合理動作，並以事實、原因與動作的結構化支持圖來證明其合理性，而非僅僅從選項中選擇答案。測試結果顯示，目前主流 VLM 雖能識別場景事實，但在建構合理動作空間與邏輯綁定上仍有困難，顯著揭示了 AI 代理人實作行為合理性的挑戰。