深度分析
策略層級評估:大型語言模型在數學推理中的策略多樣性分析
這篇研究以八十道競賽題與二百一十七個AoPS策略族群,建立策略層級的評估框架;透過多模組標註與人類仲裁,比對四款前沿大型語言模型在單一答案與多策略提示下的行為。結果顯示:雖然最終答案正確率高,但模型恢復的人類策略遠低於參考集合,幾何與數論差距尤大,重複採樣也只有遞減的新增策略收益。
深度分析
這篇研究以八十道競賽題與二百一十七個AoPS策略族群,建立策略層級的評估框架;透過多模組標註與人類仲裁,比對四款前沿大型語言模型在單一答案與多策略提示下的行為。結果顯示:雖然最終答案正確率高,但模型恢復的人類策略遠低於參考集合,幾何與數論差距尤大,重複採樣也只有遞減的新增策略收益。
深度分析
大型語言模型在數學題上常出現能背出定義卻無法正確應用概念的落差。CORE(Concept-Oriented REinforcement)提出以人工驗證的教科書概念—題目對齊資料為核心,透過自動生成概念對齊小測、在生成階段注入簡短概念提示、以及在訓練中採用軌跡替換或KL正則化三種機制,將概念訊號變成可控的強化學習監督。
深度分析
Intel推出DeepMath,結合Qwen3‑4BThinking與GRPO訓練,模型產生簡短Python片段於沙盒執行,減少輸出長度最高66%,同時提升答題正確率。在MATH500、AIME、HMMT、HLE四大數學基準測試均表現優異。
Diffusion Language Models
研究人員提出 S³ 分層縮放搜尋技術,透過在擴散語言模型的去噪過程中動態分配推理計算量,取代傳統的末端採樣,顯著提升了模型在數學推理與邏輯任務中的表現,為擴散模型在語言生成領域的測試時縮放提供了新路徑。