深度分析 Claw-Anything:長時程、多服務、多裝置的個人助理評測基準 Claw-Anything 提出一個面向始終在線個人助理的新評測框架,擴大代理能觀測與操作的數位範圍。此基準結合三大維度:長期活動紀錄、互相依存的後端服務,以及跨裝置的 GUI 與 CLI 互動;並以 LLM 模擬器與自動化資料管線大規模生成場景。實驗發現,即便是最先進的閉源模型,在此環境下成功率遠低於既有基準;