多步驟推理

深度分析

隨著研究代理人需同時瀏覽網頁與執行計算，現有基準無法全面評估其表現。DRBENCHER 透過四項標準生成跨領域問題，涵蓋實體辨識、屬性擷取與領域計算。實驗顯示最高模型正確率僅 20%，突顯此類任務的挑戰與未來改進空間。

深度分析

AI 代理人在研究環境表現優異，但在真實系統面臨多步驟、工具使用與部分資訊限制。OpenEnv 以標準化介面連結真實工具，Turing 以 Calendar Gym 提供行事曆管理基準，測試存取控制與時間推理。結果顯示，多步推理與語意模糊會大幅降低成功率，突顯實務部署的挑戰。