多代理系統

辯論式獎勵與GRPO概念圖

深度分析

以辯論式獎勵與群體相對策略優化（GRPO）內化評審：強化學習下的學術構想生成

本研究提出以多代理辯論式評審作為強化學習（RL）獎勵的框架，目標提升大型語言模型在科學構想生成上的新穎性與可行性。