人工智慧基準測試 - Agents Report

AI 生物研究

隨著 AI 加速科學發現，需衡量其在實驗室的真實能力。LABBench2 以近 1,900 項更貼近實務的任務延伸 LAB‑Bench，測試多個前沿模型，發現準確率下降 26%‑46%，顯示仍有提升空間。此基準有望推動 AI 生物研究工具的進一步發展。