長時程任務評測 - Agents Report

深度分析

OpenClaw生態雖普及但多數評測停留在助理級任務。AcademiClaw收集學生真實學術工作提出80道雙語長時程任務，採Docker沙箱與六種互補驗證技術、多維評分與安全審計。對六款前沿模型測試後，最佳模型僅約半數任務通過，揭示能力邊界與行為差異，並對開源社群提出診斷與改進方向。