深度分析 用CRUX評測AI代理人端到端上架iOS應用的可行性與成本分析 面對基準測試的局限,研究提出開放世界評估以長時程真實任務和質性小樣本分析衡量前沿人工智慧能力。CRUX框架以AI代理人自動開發並提交iOS應用做為示範,代理人幾乎全程自動完成上架流程僅需一次可避免的人為介入,顯示此法能提早警示實際部署風險與影響。