編譯通過率 - Agents Report

速報

一項針對大語言模型產生可執行遊戲場景的實驗指出，僅以編譯通過率作為評估主指標會誤導。研究提出 Mage 四軸評估：編譯成功、執行成功、結構相符與機制遵循，並在 Unity 場景合成上進行系統化測試，包含 858 次生成、四款開放權重模型與 26 種手工設計的目標模式，另比較兩種中介表示層級。