COMPOSITE‑STEM - Agents Report

深度分析

COMPOSITE‑STEM：面向真實科學工作流程的跨域基準與 Harbor/Terminus‑2 多模態代理評測

研究推出COMPOSITE-STEM，結合專家設計題目與可執行容器評測。以Harbor/Terminus-2做多模態代理測試，對物理、化學、生物與數學任務進行評分。最高Pass@1為21.4%，顯示代理式科學任務仍具挑戰。並以多評審LLM裁判及精細規則評分，涵蓋精確比對與語意判定，能檢視部分進展與失誤模式。

COMPOSITE‑STEM：面向真實科學工作流程的跨域基準與 Harbor/Terminus‑2 多模態代理評測

COMPOSITE‑STEM：跨領域科學任務基準評估 AI 代理人表現