深度分析 Frontier-Eng:生成式優化與可執行驗證的自我演化代理基準 本研究針對現有LLM代理缺乏工程迭代優化的問題,提出Frontier‑Eng基準,透過生成‑執行‑評估回饋迴路,涵蓋47項工業級任務,測試八大模型發現即使Claude 4.6 Opus表現最佳,仍面臨顯著挑戰。