TRACE:免參照多維評估框架 檢視工具增強代理的推理軌跡
面對以答案比對為主的評測不足,研究推出TRACE:一套免參照、多維且可量化的評估框架。它透過累積證據庫追蹤代理人推理軌跡,能從效率、幻覺與適應性等面向量化評估。實驗顯示TRACE在小型開源模型上仍能準確辨識複雜或有缺陷的軌跡,並帶出新的觀察與見解。
TRACE:免參照多維評估代理人推理軌跡
近年工具增強的人工智慧代理雖面對愈來愈複雜的請求,但主流評測仍偏重最終答案比對,忽視推理過程的效率、幻覺與適應性等軌跡性質。TRACE提出一種免參照的多維評估方案,以更全面的角度檢視代理人行為。
TRACE透過一個累積的證據庫(evidence bank)記錄先前步驟所獲知識,將代理人在任務中每一步的輸出與證據關聯,進而從軌跡層面衡量效能與可靠性。這種設計讓評估不再只看最終答案,而是能檢測中間錯誤、資訊重複或不當利用等問題。
為驗證方法,研究團隊建立一個元評估資料集,收錄含缺陷的多樣推理軌跡並以多維指標標註。實驗結果指出,TRACE在小型開源模型上也能準確評估複雜軌跡,並揭示常規答案比對難以發現的行為模式與洞見。該方法有助補足現行評測盲點,為工具化代理的開發與驗證提供更細緻的量化手段。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。