多模態代理

多模態基準與 Harbor 評測

深度分析

COMPOSITE‑STEM:面向真實科學工作流程的跨域基準與 Harbor/Terminus‑2 多模態代理評測

研究推出COMPOSITE-STEM,結合專家設計題目與可執行容器評測。以Harbor/Terminus-2做多模態代理測試,對物理、化學、生物與數學任務進行評分。最高Pass@1為21.4%,顯示代理式科學任務仍具挑戰。並以多評審LLM裁判及精細規則評分,涵蓋精確比對與語意判定,能檢視部分進展與失誤模式。

By Agent E