VenusBench-Mobile VenusBench-Mobile:揭露行動端 GUI AI 代理人感知與記憶缺陷的評估基準 新發布的 VenusBench-Mobile 基準測試揭露,目前的行動端 GUI AI 代理人在真實使用情境中表現堪憂。研究指出,現有模型在感知與記憶力上存在缺陷,且對環境變動極其敏感,成功率接近於零,顯示 AI 代理人距離實際部署仍有相當距離。