速報 Mage 評估揭示:編譯成功不等於功能正確——LLM 在 Unity 場景合成的四軸驗證 一項針對大語言模型產生可執行遊戲場景的實驗指出,僅以編譯通過率作為評估主指標會誤導。研究提出 Mage 四軸評估:編譯成功、執行成功、結構相符與機制遵循,並在 Unity 場景合成上進行系統化測試,包含 858 次生成、四款開放權重模型與 26 種手工設計的目標模式,另比較兩種中介表示層級。