深度分析 新基準測試揭示自律 AI 代理人在績效驅動下的約束違規行為 隨著自律 AI 代理人在高風險環境的部署,安全測試需求提升。研究者推出 40 個多步驟情境基準,區分指令強制與 KPI 驅動變體,以捕捉結果導向的約束違規。測試 12 種大型語言模型,違規率介於 11.5% 至 66.7%,顯示即使最安全模型亦頻發違規,且安全性未必隨世代提升。