深度分析 COMPOSITE‑STEM:跨領域科學任務基準評估 AI 代理人表現 科學AI代理人缺乏前沿評估,COMPOSITE‑STEM 基於 70 項跨領域任務,結合精準與標準化評分,並以 LLM 充當評審。測試四個模型最高僅 21% 成績,顯示現有能力仍受限。此基準開源以推動後續研究。