深度分析 COMPOSITE‑STEM:面向真實科學工作流程的跨域基準與 Harbor/Terminus‑2 多模態代理評測 研究推出COMPOSITE-STEM,結合專家設計題目與可執行容器評測。以Harbor/Terminus-2做多模態代理測試,對物理、化學、生物與數學任務進行評分。最高Pass@1為21.4%,顯示代理式科學任務仍具挑戰。並以多評審LLM裁判及精細規則評分,涵蓋精確比對與語意判定,能檢視部分進展與失誤模式。