速報 TRAJEVAL:解析代碼代理軌跡,揭露一致性崩潰為主要失敗源 研究檢視代碼代理在程式修補任務的失敗與成因。TRAJEVAL將軌跡切分為搜尋、閱讀與編輯三階段,對齊參考補丁評估行為。跨三種架構與七款模型,檢視16758條軌跡;代碼代理解決65-70%議題,但餘下失敗多由編輯品質造成。在編輯殘留問題中,主要主題為一致性崩潰:代理抵達正確程式後覆寫或反覆破壞有效補丁。