深度分析 DRBENCHER:同時測試代理人實體辨識、屬性擷取與多步驟計算的新基準 隨著研究代理人需同時瀏覽網頁與執行計算,現有基準無法全面評估其表現。DRBENCHER 透過四項標準生成跨領域問題,涵蓋實體辨識、屬性擷取與領域計算。實驗顯示最高模型正確率僅 20%,突顯此類任務的挑戰與未來改進空間。