深度分析 WorldCoder-Bench:首個以 Three.js 為基礎的可執行 3D 網頁世界基準測試 隨著大型語言模型可直接產生可執行的Three.js3D網頁,WorldCoder‑Bench提出2,026項實體任務並以StateProbe透過隱藏行為合約驗證程式正確性,實驗顯示最佳模型驗證覆蓋僅27.8%,突顯目前生成系統在物理與狀態同步上的不足。