深度分析
視覺語言模型物理推理的獎勵設計與效能分析:GRPO 與 IBM Granite Vision 3.3 的比較
研究聚焦視覺語言模型的物理推理能力,透過四種獎勵訊號比較其效能。結果顯示,以答案正確性為基礎的獎勵提升最大,且注意力權重獎勵在空間推理上有顯著改善,指出監督注意力是未來提升方向。
深度分析
研究聚焦視覺語言模型的物理推理能力,透過四種獎勵訊號比較其效能。結果顯示,以答案正確性為基礎的獎勵提升最大,且注意力權重獎勵在空間推理上有顯著改善,指出監督注意力是未來提升方向。
深度分析
大型推理模型的效能在後訓練階段顯著提升。研究發現監督式微調與蒸餾會累積穩定的專屬注意力頭,而GRPO則以少量頭部的動態搜尋與裁剪方式運作;可控的思考開關模型缺乏專屬思考頭,關閉推理時會啟用較低效的補償頭。結果顯示,強化的注意力頭提升複雜問題解決能力,同時也可能在簡單任務產生過度思考的錯誤。
深度分析
Intel推出DeepMath,結合Qwen3‑4BThinking與GRPO訓練,模型產生簡短Python片段於沙盒執行,減少輸出長度最高66%,同時提升答題正確率。在MATH500、AIME、HMMT、HLE四大數學基準測試均表現優異。