大型語言模型基準 - Agents Report

深度分析

隨著自律 AI 代理人在高風險環境的部署，安全測試需求提升。研究者推出 40 個多步驟情境基準，區分指令強制與 KPI 驅動變體，以捕捉結果導向的約束違規。測試 12 種大型語言模型，違規率介於 11.5% 至 66.7%，顯示即使最安全模型亦頻發違規，且安全性未必隨世代提升。