LLM 工具代理 - Agents Report

深度分析

研究指出大型語言模型在工具選擇上依賴參數化檢索，卻可能只學會匹配模式。ToolSense框架自動產生實務檢索、選擇與問答測驗，揭露在真實簡短查詢上性能大幅下降，甚至低於傳統向量檢索，警示知識與檢索的脫節。此結果呼籲未來模型需兼顧自由生成與真實工具知識的內化。