速報
TraceGraph:圖形化代理人軌跡分析框架揭示陷阱與修復機制
隨著代理人基準測試收集更豐富的互動軌跡,評估仍多以單一分數呈現。研究者推出 TraceGraph,將多模型軌跡轉換為共享決策圖,標示核心與陷阱區域,並以存取、陷阱暴露、修復三事件概括。實驗顯示此圖形可揭露分割間的差異,並在 SWE‑bench 中提升解決率至約 44%。
速報
隨著代理人基準測試收集更豐富的互動軌跡,評估仍多以單一分數呈現。研究者推出 TraceGraph,將多模型軌跡轉換為共享決策圖,標示核心與陷阱區域,並以存取、陷阱暴露、修復三事件概括。實驗顯示此圖形可揭露分割間的差異,並在 SWE‑bench 中提升解決率至約 44%。
速報
研究檢視代碼代理在程式修補任務的失敗與成因。TRAJEVAL將軌跡切分為搜尋、閱讀與編輯三階段,對齊參考補丁評估行為。跨三種架構與七款模型,檢視16758條軌跡;代碼代理解決65-70%議題,但餘下失敗多由編輯品質造成。在編輯殘留問題中,主要主題為一致性崩潰:代理抵達正確程式後覆寫或反覆破壞有效補丁。