深度分析 以 SFT 與 RLVR 將 GameCWM 生成功能蒸餾至小型 LLM 背景:LLM能將自然語言轉為可執行遊戲環境但往往仰賴昂貴前沿模型與推理修正;本文以監督微調與可驗證獎勵的後訓練流程將GameCWM能力蒸餾到小型模型,實驗顯示Qwen2.5-3B經SFT與RLVR後在語法與執行符合度上獲得提升,指向更可擴展的自動化環境生成路徑。
深度分析 以辯論式獎勵與群體相對策略優化(GRPO)內化評審:強化學習下的學術構想生成 本研究提出以多代理辯論式評審作為強化學習(RL)獎勵的框架,目標提升大型語言模型在科學構想生成上的新穎性與可行性。