GPT-OSS-120b - Agents Report

深度分析

隨著大型語言模型被用於自動化工具呼叫，通用性仍是挑戰。研究提出 MAVEN 框架以結構化分解、適應性工具編排與中間驗證，並打造 MAVEN‑Bench 壓力測試基準。實驗顯示在不額外訓練下，MAVEN 將 GPT‑OSS‑120b 的正確率從 48% 提升至 71%。