TRAJEVAL:解析代碼代理軌跡,揭露一致性崩潰為主要失敗源
研究檢視代碼代理在程式修補任務的失敗與成因。TRAJEVAL將軌跡切分為搜尋、閱讀與編輯三階段,對齊參考補丁評估行為。跨三種架構與七款模型,檢視16758條軌跡;代碼代理解決65-70%議題,但餘下失敗多由編輯品質造成。在編輯殘留問題中,主要主題為一致性崩潰:代理抵達正確程式後覆寫或反覆破壞有效補丁。
TRAJEVAL 揭露代碼代理失敗真因:不是找不到,而是改壞了
ArXiv 研究指出,代碼代理在 SWE-bench Verified 任務能解決約 65–70% 的問題,但僅以 Pass@1 無法說明剩餘失敗原因。研究團隊提出 TRAJEVAL,把代理軌跡拆為搜尋、閱讀、編輯三階段,並以參考補丁對齊行為進行分析。
跨三種架構、七款模型與 16,758 條軌跡的實證顯示,主流失敗並非定位錯誤:60–69% 的失敗案例曾在正確函式內進行修改,但最終產生錯誤補丁。研究把這類編輯品質殘留稱為「一致性崩潰」——代理會抵達正確程式並生成有效補丁,卻在之後覆寫或反覆破壞該補丁。
作者示範在個案中以編輯檢查點回滾,可恢復被破壞的正確補丁;另提出一種無參考的共識驅動變體,在 GPT-5 上呈現方向性通過率提升。結論提示:提升編輯品質、引入中途檢查與回滾,可能比單純強化定位能力更能減少修補失敗。
延伸閱讀
- BEAVER:企業資料倉儲中 Text-to-SQL 的檢索與生成瓶頸
- 企業AI架構:以SLM與知識外部化取代單體式大型語言模型推理
- 提升 LLM 可靠性的系統化提示技巧:角色化、負向、JSON 輸出、ARQ 與多假設抽樣
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。