深度分析 信用預算式 ICPC 風格編碼平台:USACOArena 代理人資源感知挑戰 現有自動編碼評測忽視資源限制,作者打造 USACOArena 以信用預算模擬 ICPC 競賽,所有 token、測試與時間皆扣預算,迫使代理人權衡精確度與成本。結果顯示單體與群體代理仍未達最佳平衡,揭示資源感知訓練的重要性。
深度分析 Squeeze Evolve:資源感知的多模型協同驗證器免演化框架 驗證器免演化因多樣性與成本受限。Squeeze Evolve 以邊際效用分配模型,強模型用於關鍵階段,廉價模型處理其餘,提升效率與多樣性。實驗顯示成本降低近三倍、吞吐量提升十倍,並在多項基準創下新紀錄。