personal-assistant-benchmark - Agents Report

深度分析

Claw-Anything：長時程、多服務、多裝置的個人助理評測基準

Claw-Anything 提出一個面向始終在線個人助理的新評測框架，擴大代理能觀測與操作的數位範圍。此基準結合三大維度：長期活動紀錄、互相依存的後端服務，以及跨裝置的 GUI 與 CLI 互動；並以 LLM 模擬器與自動化資料管線大規模生成場景。實驗發現，即便是最先進的閉源模型，在此環境下成功率遠低於既有基準；