深度分析
COMPOSITE‑STEM:面向真實科學工作流程的跨域基準與 Harbor/Terminus‑2 多模態代理評測
研究推出COMPOSITE-STEM,結合專家設計題目與可執行容器評測。以Harbor/Terminus-2做多模態代理測試,對物理、化學、生物與數學任務進行評分。最高Pass@1為21.4%,顯示代理式科學任務仍具挑戰。並以多評審LLM裁判及精細規則評分,涵蓋精確比對與語意判定,能檢視部分進展與失誤模式。
深度分析
研究推出COMPOSITE-STEM,結合專家設計題目與可執行容器評測。以Harbor/Terminus-2做多模態代理測試,對物理、化學、生物與數學任務進行評分。最高Pass@1為21.4%,顯示代理式科學任務仍具挑戰。並以多評審LLM裁判及精細規則評分,涵蓋精確比對與語意判定,能檢視部分進展與失誤模式。
深度分析
科學AI代理人缺乏前沿評估,COMPOSITE‑STEM 基於 70 項跨領域任務,結合精準與標準化評分,並以 LLM 充當評審。測試四個模型最高僅 21% 成績,顯示現有能力仍受限。此基準開源以推動後續研究。