生成式優化 - Agents Report

深度分析

本研究針對現有LLM代理缺乏工程迭代優化的問題，提出Frontier‑Eng基準，透過生成‑執行‑評估回饋迴路，涵蓋47項工業級任務，測試八大模型發現即使Claude 4.6 Opus表現最佳，仍面臨顯著挑戰。