深度分析
MAVEN:模組化驗證與執行框架提升 GPT‑OSS‑120b 代理人任務正確率
隨著大型語言模型被用於自動化工具呼叫,通用性仍是挑戰。研究提出 MAVEN 框架以結構化分解、適應性工具編排與中間驗證,並打造 MAVEN‑Bench 壓力測試基準。實驗顯示在不額外訓練下,MAVEN 將 GPT‑OSS‑120b 的正確率從 48% 提升至 71%。
深度分析
隨著大型語言模型被用於自動化工具呼叫,通用性仍是挑戰。研究提出 MAVEN 框架以結構化分解、適應性工具編排與中間驗證,並打造 MAVEN‑Bench 壓力測試基準。實驗顯示在不額外訓練下,MAVEN 將 GPT‑OSS‑120b 的正確率從 48% 提升至 71%。
深度分析
研究指出現有文字到影片生成常忽略文化差異。本研究提出MAVEN,將提示拆成「人物、動作、地點」三個專責代理人,並比較單一代理、序列與平行多代理。實驗用243個提示與972支影片,平行多代理在文化相關性上表現最佳。研究結論指出,平行專責能在保持影像品質與時間一致性下,加強文化指涉表達。