人機互動 - Agents Report

深度分析

多模態教學資料集 DigitalCoach：評估先進 AI 模型在 GUI 操作指導的效能

隨著AI代理人能自動化軟體操作，研究團隊推出DigitalCoach多模態資料集，收錄72場專家對新手的GUI教學對話，並以此評估先進模型的教學表現。結果顯示模型偏好直接指令，在真實互動測試中缺乏解釋與視覺根據，導致學習者參與度與技能保留皆較差。

速報

合成對抗適應：人類與人工智慧的共演新框架

本研究提出「合成對抗適應」概念，探討在人機多代理環境中，AI 系統與人類如何透過彼此策略與行為的互相適應而共同演化。研究以圍棋、混合動機社會互動以及地緣政治模擬等案例說明，當 AI 發展出新策略或社會協議時，使用者會從中萃取洞見並調整自身行為，進而產生全新的人機互動動態。

速報

I-POMDP 與 ToM-2：讓代理人偵測並回應使用者對其知識的錯誤認知

人與代理人互動常因雙方對彼此知識的錯誤判斷而受阻。本研究以 I-POMDP 框架實作第二階理論心智（ToM-2），讓代理人能模擬使用者對代理人知識的錯誤信念，並推估這些信念源自的認知偏誤與捷思法（CBH）。透過辨識何時出現認知偏誤，代理人能產生調整性的回饋來補償誤解，改善當下互動並提升未來教學或協作的品質。

深度分析

LLM 模擬與人類實驗：在部分合作場景中透明度、適應性與人格的影響

研究探討目標僅部分一致的人機互動。採用大規模LLM模擬與平行人類實驗，操控AI透明度與適應性並考量外向性與宜人性兩項人格，分析對談表現與決策結果。主要發現為模擬中人格影響居多，真實使用者則以AI屬性尤其透明度影響最大，帶來溝通與信任的設計權衡。

生成式AI

前 Apple 工程師打造 AI 硬體 Button：以極簡設計與物理觸發重新定義 AI 互動

前 Apple 工程師推出名為 Button 的 AI 硬體裝置，外型酷似 iPod Shuffle。該裝置主打隱私與即時回應，僅在按下按鈕時啟動 AI 聊天機器人，旨在提供比手機更便捷的 AI 互動體驗，定位為手機的補充設備而非替代品。

A-MBER

A-MBER 基準測試：評估大模型跨對話的「情感記憶」與脈絡理解能力

AI 助手若要真正擬人化，必須能理解使用者的情感演變。新發表的 A-MBER 基準測試專注於評估 AI 是否能將長期記憶與當前情感識別結合，要求模型從多場對話歷史中找出關鍵證據來解釋使用者現在的心情，填補了現有情感分析與長文本記憶測試之間的空白。