深度分析 後訓練推理模型中新興注意力頭的形成與功能分析 大型推理模型的效能在後訓練階段顯著提升。研究發現監督式微調與蒸餾會累積穩定的專屬注意力頭,而GRPO則以少量頭部的動態搜尋與裁剪方式運作;可控的思考開關模型缺乏專屬思考頭,關閉推理時會啟用較低效的補償頭。結果顯示,強化的注意力頭提升複雜問題解決能力,同時也可能在簡單任務產生過度思考的錯誤。