Mage 評估揭示:編譯成功不等於功能正確——LLM 在 Unity 場景合成的四軸驗證
一項針對大語言模型產生可執行遊戲場景的實驗指出,僅以編譯通過率作為評估主指標會誤導。研究提出 Mage 四軸評估:編譯成功、執行成功、結構相符與機制遵循,並在 Unity 場景合成上進行系統化測試,包含 858 次生成、四款開放權重模型與 26 種手工設計的目標模式,另比較兩種中介表示層級。
Mage 評估:編譯通過率並非全部
研究發現,單以編譯通過率評估大語言模型(LLM)在多元組件系統的輸出,會產生誤導性結論。為此,作者提出名為 Mage 的四軸評估:編譯成功、執行成功、結構相符與機制遵循,並將此框架應用於可執行的 Unity 場景合成。
實驗橫跨 858 次生成、四款開放權重模型(7B–30B)、26 種手工設計的 Unity 目標模式,以及兩種自動抽取的中介表示(IR)粗疏度。結果顯示,直接由自然語言生成 C# 的方法取得最高平均執行通過率(43%),但在機制層面表現薄弱(機制 F1 約 0.12),也缺乏領域忠實的場景結構。
相反地,採用結構化中介表示做條件化雖使執行通過率下降約一半,卻能大幅回復結構忠實性(F1 最佳可達 1.00)。此外,在 IR 條件化內比較僅行為導向與完整場景兩種粒度,未見顯著差異,指向輸入粒度的飽和現象。作者因此指出,在多組件遊戲場景合成領域,編譯通過率與功能正確性可能呈反相關,必須以多軸評估來揭露這類偏差;研究並釋出基準、重放日誌與逐筆指標以利獨立驗證。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。