深度分析 BenchEvolver 以結構化變異生成高難度題目,重新區分大型語言模型表現 大型語言模型在程式碼基準上已趨於飽和,導致現有測試集難以區分模型能力。BenchEvolver 以解答為中心,透過結構化變異演化參考程式,從而自動產生更難且可驗證的題目與測試。實驗在 LiveCodeBench 與 SciCode 上證實,演化後的題目顯著降低目標模型的 Pass@1,且即使是產生題目的模型本身也會受挑戰。