深度分析
FORTIS:衡量代理人技能層過度權限風險與最小權限基準
研究指出大型語言模型代理人透過技能層執行任務,技能層既是組織化抽象也是權限邊界。本文提出FORTIS基準,透過兩階段測試評估模型是否在技能選擇與技能驅動工具選擇上濫用更高權限。實驗顯示多數前沿模型在兩階段均有高失敗率,技能層成為主要的權限升級來源。
深度分析
研究指出大型語言模型代理人透過技能層執行任務,技能層既是組織化抽象也是權限邊界。本文提出FORTIS基準,透過兩階段測試評估模型是否在技能選擇與技能驅動工具選擇上濫用更高權限。實驗顯示多數前沿模型在兩階段均有高失敗率,技能層成為主要的權限升級來源。
深度分析
醫學研究代理人技能成為可重用模組,但其科學完整性、方法學正確性與可重複性對部署風險提出更高要求。MedSkillAudit(skill-auditor@1.0)提出分層審核流程,基於 SKILL.md 規格檢查結構、依賴與動態執行,並結合門檻式 veto gate 與類別化評分以判定上線準備度。