深度分析 以辯論式獎勵與群體相對策略優化(GRPO)內化評審:強化學習下的學術構想生成 本研究提出以多代理辯論式評審作為強化學習(RL)獎勵的框架,目標提升大型語言模型在科學構想生成上的新穎性與可行性。