生物安全 - Agents Report

深度分析

「ABC‑Bench」：量化 AI 代理人生物安全能力的基準與實驗結果

隨著大型語言模型在生物研究上的能力快速提升，研究團隊推出 ABC‑Bench 基準測試 AI 代理人在 DNA 片段設計、篩檢規避與液體處理機器人程式撰寫等三項生物安全任務的表現。測試顯示模型在已知流程上超過專家基準，但在新穎生物資訊推理仍有不足，且實驗驗證證明 GPT‑o4‑mini‑high 能在 OpenTrons 上成功組裝 DNA，凸顯 AI 代理人加速科研與治理挑戰並存。

「ABC‑Bench」：量化 AI 代理人生物安全能力的基準與實驗結果

大型語言模型（LLM）與生物武器風險：能力評估與治理缺口