跨領域測試 - Agents Report

深度分析

隨著研究代理人需同時瀏覽網頁與執行計算，現有基準無法全面評估其表現。DRBENCHER 透過四項標準生成跨領域問題，涵蓋實體辨識、屬性擷取與領域計算。實驗顯示最高模型正確率僅 20%，突顯此類任務的挑戰與未來改進空間。