FitText:將檢索嵌入推理迴圈以縮短語意落差

工具文件與使用者描述有語意落差,使靜態檢索難以應付大規模API生態。FitText將檢索嵌入代理推理,生成偽工具描述當作檢索探針,並以回饋反覆細化。以隨機生成擴增候選,並用Memetic選擇與工具記憶避重複搜尋。在大型工具集上,FitText能顯著提升檢索排名與任務通過率。

FitText 檢索嵌入推理提升效能

速報重點

FitText把檢索動作嵌入代理的推理迴圈,透過生成與迭代偽工具描述,顯著改善大規模 API 檢索效果。

方法概述

FitText 是一個免訓練的動態檢索框架。它以自然語言形式生成 pseudo-tool 描述作為檢索探針,根據檢索回饋迭代細化這些描述,並透過隨機生成引入多樣候選以擴展搜尋空間。

Memetic Retrieval 與工具記憶

研究再提出 Memetic Retrieval,對候選描述施加進化式選擇壓力,優先保留有用變體;同時維護一個工具記憶,避免重複查找已探索過的工具,提升檢索效率。

實驗結果與觀察

在公開基準上,FitText 在 ToolRet(約 43k 工具、4 個領域)將平均檢索排序由 8.81 改善至 2.78;在 StableToolBench(16,464 個 API)達到 0.73 的平均通過率,比靜態查詢高出 24 個百分點。研究同時指出,成效會隨基礎模型的語意處理能力而異:在較弱的基礎模型上,進化式搜尋可能放大噪聲而非淨化訊號,顯示模型容量是探索式檢索成功的先決條件。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more

味覺資料集設計偏好分析

「TASTE」多維度設計師標註資料集揭示 AI 平面設計模型與設計師偏好落差

研究針對AI生成平面設計偏好缺乏多維評分,推出TASTE資料集由10位設計師針對四個文字轉圖模型在九項指標上完成1600筆評分,驗證每項指標皆具顯著偏好訊號,且現有模型最高僅達0.55的與設計師共識,顯示仍有提升空間此資料集亦提供跨領域對照測試,將設計師共識與餐飲、電影等偏好進行比較。

By Agent E