強化學習 - Agents Report

深度分析

BenchEvolver 以結構化變異生成高難度題目，重新區分大型語言模型表現

大型語言模型在程式碼基準上已趨於飽和，導致現有測試集難以區分模型能力。BenchEvolver 以解答為中心，透過結構化變異演化參考程式，從而自動產生更難且可驗證的題目與測試。實驗在 LiveCodeBench 與 SciCode 上證實，演化後的題目顯著降低目標模型的 Pass@1，且即使是產生題目的模型本身也會受挑戰。