LLM Perception - Agents Report

VenusBench-Mobile

新發布的 VenusBench-Mobile 基準測試揭露，目前的行動端 GUI AI 代理人在真實使用情境中表現堪憂。研究指出，現有模型在感知與記憶力上存在缺陷，且對環境變動極其敏感，成功率接近於零，顯示 AI 代理人距離實際部署仍有相當距離。