策略多樣性 - Agents Report

深度分析

這篇研究以八十道競賽題與二百一十七個AoPS策略族群，建立策略層級的評估框架；透過多模組標註與人類仲裁，比對四款前沿大型語言模型在單一答案與多策略提示下的行為。結果顯示：雖然最終答案正確率高，但模型恢復的人類策略遠低於參考集合，幾何與數論差距尤大，重複採樣也只有遞減的新增策略收益。