Qwen2.5

深度分析

背景：LLM能將自然語言轉為可執行遊戲環境但往往仰賴昂貴前沿模型與推理修正；本文以監督微調與可驗證獎勵的後訓練流程將GameCWM能力蒸餾到小型模型，實驗顯示Qwen2.5-3B經SFT與RLVR後在語法與執行符合度上獲得提升，指向更可擴展的自動化環境生成路徑。

深度分析

本研究提出以多代理辯論式評審作為強化學習（RL）獎勵的框架，目標提升大型語言模型在科學構想生成上的新穎性與可行性。