深度分析
MAVEN:模組化驗證與執行框架提升 GPT‑OSS‑120b 代理人任務正確率
隨著大型語言模型被用於自動化工具呼叫,通用性仍是挑戰。研究提出 MAVEN 框架以結構化分解、適應性工具編排與中間驗證,並打造 MAVEN‑Bench 壓力測試基準。實驗顯示在不額外訓練下,MAVEN 將 GPT‑OSS‑120b 的正確率從 48% 提升至 71%。
深度分析
隨著大型語言模型被用於自動化工具呼叫,通用性仍是挑戰。研究提出 MAVEN 框架以結構化分解、適應性工具編排與中間驗證,並打造 MAVEN‑Bench 壓力測試基準。實驗顯示在不額外訓練下,MAVEN 將 GPT‑OSS‑120b 的正確率從 48% 提升至 71%。
深度分析
本篇介紹 Lambda/Hermes 代理推理軌跡資料集,說明如何載入、解析思考與工具呼叫,並統計工具使用頻率與錯誤率。結果顯示多數回合含工具呼叫,錯誤比例約12%,為AI訓練奠基。與 OpenAI function‑calling 資料集相比,Lambda/Hermes 的平行工具呼叫更常見。
深度分析
隨著多代理人 AI 需求提升,SmolAgents 以程式執行、工具呼叫與動態編排為核心,提供彈性協調機制,實作簡易且支援即時擴充,預計將加速開發者在雲端與邊緣環境部署複雜 AI 工作流。