動態任務排程 - Agents Report

深度分析

隨著多模態大型語言模型快速發展，研究多聚焦於靜態環境的效能上限，卻忽視真實職場的動態任務排程、主動探索與持續學習需求。作者提出 Trainee‑Bench，評測代理人在流式任務、資訊隱蔽與規則生成情境下的表現，實驗顯示現有 SOTA 代理人在探索與持續學習上仍有顯著缺口。