AI 代理人 - Agents Report

深度分析

科學AI代理人缺乏前沿評估，COMPOSITE‑STEM 基於 70 項跨領域任務，結合精準與標準化評分，並以 LLM 充當評審。測試四個模型最高僅 21% 成績，顯示現有能力仍受限。此基準開源以推動後續研究。