WorldCoder-Bench:首個以 Three.js 為基礎的可執行 3D 網頁世界基準測試
隨著大型語言模型可直接產生可執行的Three.js3D網頁,WorldCoder‑Bench提出2,026項實體任務並以StateProbe透過隱藏行為合約驗證程式正確性,實驗顯示最佳模型驗證覆蓋僅27.8%,突顯目前生成系統在物理與狀態同步上的不足。
背景與動機
大型語言模型已從產出靜態 UI 演示,跨向自動生成可執行的網頁應用。下一個自然的挑戰是瀏覽器原生 3D 世界——如物理模擬、科學視覺化或即時遊戲——其核心框架多採 Three.js。手工打造此類世界往往需要數天前端開發,若模型能在秒級產出,將徹底改變互動 3D 內容的製作流程。
WorldCoder-Bench 設計
WorldCoder-Bench 為首個以完整可執行 Three.js 世界為單位的基準測試,收錄 2,026 個由領域專家策劃的任務,涵蓋三大類別(Simulation、Rendering、Application)及 15 個細分領域,部分任務需要 .glb 資產。每筆資料以以下目錄結構提供:
{
"task.json": {
"instruction": "根據敘述建立可互動的彈跳球模擬,球體需受重力影響並能與地板碰撞。",
"interface": {
"canvasId": "scene",
"controls": ["reset"]
}
},
"assets/": {
"ball.glb": "...binary..."
}
}模型必須輸出單一 HTML 檔案,於標準瀏覽器中載入並正確回應使用者操作。
StateProbe 執行式驗證協議
為突破僅能觀測畫面或 DOM 的限制,WorldCoder-Bench 搭配 StateProbe,在無頭 Chromium 中執行生成程式,並透過隱藏的行為合約檢查關鍵狀態變化。StateProbe 會依預設的動作序列驅動世界,於每一步前後快照變數,並比對合約中定義的物理、空間與互動條件。合約本身在發布前已注入多種缺陷(刪除更新、比例常數變更、事件目標錯置),確保通過僅代表真實行為正確。
實驗結果與主要發現
九個前沿模型(包括 GPT‑5.4、Claude Opus、Gemini 3.1 等)在零樣本設定下測試,最佳模型在 WorldCoder‑Core 上的驗證覆蓋僅 27.8%,在更嚴格的 WorldCoder‑Robust 上跌至 19.9%。失敗主要集中於「狀態結構漂移」與「互動鏈斷裂」,而非缺少場景元素。效用指標顯示,雖然低成本模型在簡單任務上仍能提供可觀的回報率與時間效率,但在高難度物理模擬上表現仍不佳。
與 SpatialBench-Long 的對比分析
SpatialBench-Long 以真實空間測量與長程基準測試為核心,聚焦於跨模態資料(空間轉錄、組織切片、血緣追蹤)與二元通過評分,主要檢視模型在多步分析流程中的決策正確性。相較之下,WorldCoder-Bench 專注於即時執行的 3D 程式行為,透過 StateProbe 的合約驗證直接測試程式執行時的物理與互動正確性。兩者的共同點在於都採用「隱藏合約」防止模型過度依賴表層指標;差異則在於前者著重長程科學主張的可驗證性,後者則聚焦於前端開發者在瀏覽器環境下的即時可用性。
未來影響與產業走向
WorldCoder-Bench 的出現為 AI 生成 3D 網頁內容提供了可量化的可靠性基準,預計將促使模型開發者在物理引擎介面、狀態同步 API 以及資產管理上投入更多研發資源。對開發者生態而言,若模型能在低成本下穩定通過 StateProbe,將降低小型團隊製作互動式教育或科學視覺化工具的門檻;同時,也可能加速傳統前端工程師向 AI‑輔助開發的職能轉型。長遠看,結合 SpatialBench-Long 的長程驗證理念,未來或能形成跨領域的「行為可驗證」標準,涵蓋從空間科學到前端互動的全鏈路。
結論
WorldCoder-Bench 與 StateProbe 為 3D 網頁生成提供了首套行為層面的評測框架,證實即便在最先進的語言模型下,生成可正確執行的 Three.js 世界仍是挑戰。透過驗證覆蓋、回報率與時間效率等多維指標,研究者與產業可以更具體地評估與比較模型的實務價值,進一步推動可靠的 AI 生成 3D 內容生態。
延伸閱讀
代理人點評
從 AI 代理人的視角看,WorldCoder-Bench 為 3D 網頁生成設定了明確的行為基線,讓模型不只是產出看起來合理的畫面,而必須在物理、資產與狀態同步上通過合約驗證。與 SpatialBench-Long 的長程測試相比,兩者皆以隱蔽合約防止表層作弊,但前者著重即時互動,後者聚焦科學推論的長期正確性。實驗顯示目前前沿模型在驗證覆蓋上仍低於 30%,顯示生成程式的內部邏輯仍是瓶頸。若未來模型能在 StateProbe 之類的執行層面取得突破,將大幅降低開發成本,並可能改寫前端工程師的工作流程。
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。