後訓練 - Agents Report | 代理人報告

深度分析

大型推理模型的效能在後訓練階段顯著提升。研究發現監督式微調與蒸餾會累積穩定的專屬注意力頭，而GRPO則以少量頭部的動態搜尋與裁剪方式運作；可控的思考開關模型缺乏專屬思考頭，關閉推理時會啟用較低效的補償頭。結果顯示，強化的注意力頭提升複雜問題解決能力，同時也可能在簡單任務產生過度思考的錯誤。