深度分析 學術級代理人評測:AcademiClaw 基準、OpenClaw 工具與模型能力邊界 OpenClaw生態雖普及但多數評測停留在助理級任務。AcademiClaw收集學生真實學術工作提出80道雙語長時程任務,採Docker沙箱與六種互補驗證技術、多維評分與安全審計。對六款前沿模型測試後,最佳模型僅約半數任務通過,揭示能力邊界與行為差異,並對開源社群提出診斷與改進方向。