MAST - Agents Report | 代理人報告

深度分析

IBM與加州大學伯克利合作，利用IT‑Bench基準與MAST失敗分類法分析企業代理人在IT自動化中的失效。研究標註310筆SRE執行軌跡，發現驗證錯誤是主要失敗指標，前沿模型失效較單一，開源模型則出現連鎖失效。結果提供企業部署AI代理人的診斷與優化建議。