過度權限 - Agents Report

深度分析

研究指出大型語言模型代理人透過技能層執行任務，技能層既是組織化抽象也是權限邊界。本文提出FORTIS基準，透過兩階段測試評估模型是否在技能選擇與技能驅動工具選擇上濫用更高權限。實驗顯示多數前沿模型在兩階段均有高失敗率，技能層成為主要的權限升級來源。