trajectory analysis - Agents Report

速報

TRAJEVAL：解析代碼代理軌跡，揭露一致性崩潰為主要失敗源

研究檢視代碼代理在程式修補任務的失敗與成因。TRAJEVAL將軌跡切分為搜尋、閱讀與編輯三階段，對齊參考補丁評估行為。跨三種架構與七款模型，檢視16758條軌跡；代碼代理解決65-70%議題，但餘下失敗多由編輯品質造成。在編輯殘留問題中，主要主題為一致性崩潰：代理抵達正確程式後覆寫或反覆破壞有效補丁。

TraceGraph：圖形化代理人軌跡分析框架揭示陷阱與修復機制

TRAJEVAL：解析代碼代理軌跡，揭露一致性崩潰為主要失敗源