驗證框架 - Agents Report

深度分析

背景：LLM能將自然語言轉為可執行遊戲環境但往往仰賴昂貴前沿模型與推理修正；本文以監督微調與可驗證獎勵的後訓練流程將GameCWM能力蒸餾到小型模型，實驗顯示Qwen2.5-3B經SFT與RLVR後在語法與執行符合度上獲得提升，指向更可擴展的自動化環境生成路徑。