深度分析 「ToolSense」:揭露參數化工具檢索在真實查詢下的性能缺口與內化指標 研究指出大型語言模型在工具選擇上依賴參數化檢索,卻可能只學會匹配模式。ToolSense框架自動產生實務檢索、選擇與問答測驗,揭露在真實簡短查詢上性能大幅下降,甚至低於傳統向量檢索,警示知識與檢索的脫節。此結果呼籲未來模型需兼顧自由生成與真實工具知識的內化。