深度分析
DRBENCHER:同時測試代理人實體辨識、屬性擷取與多步驟計算的新基準
隨著研究代理人需同時瀏覽網頁與執行計算,現有基準無法全面評估其表現。DRBENCHER 透過四項標準生成跨領域問題,涵蓋實體辨識、屬性擷取與領域計算。實驗顯示最高模型正確率僅 20%,突顯此類任務的挑戰與未來改進空間。
深度分析
隨著研究代理人需同時瀏覽網頁與執行計算,現有基準無法全面評估其表現。DRBENCHER 透過四項標準生成跨領域問題,涵蓋實體辨識、屬性擷取與領域計算。實驗顯示最高模型正確率僅 20%,突顯此類任務的挑戰與未來改進空間。
深度分析
AI 代理人在研究環境表現優異,但在真實系統面臨多步驟、工具使用與部分資訊限制。OpenEnv 以標準化介面連結真實工具,Turing 以 Calendar Gym 提供行事曆管理基準,測試存取控制與時間推理。結果顯示,多步推理與語意模糊會大幅降低成功率,突顯實務部署的挑戰。