工程建構自動化 - Agents Report

深度分析

工程建構自動化需將自然語言規格轉為具物理可行的結構。BuildArena提出首個以物理驗證與互動模擬為核心的3D建構基準，結合任務分級、空間幾何運算庫與LLM代理流程，用以比較模型在不同難度之建構能力。實驗顯示高難度普遍降低模型表現，但仍有部分模型展現相對優勢，為語言驅動工程評估提供新工具。