深度分析 視覺語言模型物理推理的獎勵設計與效能分析:GRPO 與 IBM Granite Vision 3.3 的比較 研究聚焦視覺語言模型的物理推理能力,透過四種獎勵訊號比較其效能。結果顯示,以答案正確性為基礎的獎勵提升最大,且注意力權重獎勵在空間推理上有顯著改善,指出監督注意力是未來提升方向。