深度分析 BuildArena:以物理對齊評估 LLM 在 3D 工程建構的能力 工程建構自動化需將自然語言規格轉為具物理可行的結構。BuildArena提出首個以物理驗證與互動模擬為核心的3D建構基準,結合任務分級、空間幾何運算庫與LLM代理流程,用以比較模型在不同難度之建構能力。實驗顯示高難度普遍降低模型表現,但仍有部分模型展現相對優勢,為語言驅動工程評估提供新工具。