BM25 - Agents Report | 代理人報告

Ratel

Ratel：使用 BM25 即時索引減少 80% 令牌消耗的 AI 代理上下文工程

Ratel 針對 AI 代理的上下文工程，僅注入當前任務相關工具，減少約 80% 令牌消耗，提升工具選擇精準度，避免因工具過載導致的準確度下降。它使用內建 BM25 索引，無需向量資料庫與嵌入模型，進一步降低基礎設施成本。此設計對於本地、開源與前沿模型皆適用，並提供公開基準測試證明效能提升。

FAISS

「Local_Pdf_Chat_RAG」：結合 FAISS 與 BM25 的 Python 本地化混合檢索增強生成框架

Local_Pdf_Chat_RAG 是一個開源的本地化 RAG 框架，結合 FAISS 向量檢索與 BM25 關鍵字檢索，支援 Ollama、SiliconFlow 等模型，提供混合檢索、重排序與 Gradio UI，讓開發者快速建置高效問答系統，降低硬體與部署成本。

深度分析

InfoDelphi 利用資訊不對稱提升多代理人預測市場的準確性

預測市場的準確度常受單一模型限制，研究提出InfoDelphi透過公共與私有證據分割、理性共享與信心加權聚合，使多代理人具資訊多樣性，於PolyGym測試中Brier分數提升12%至18%，準確率提升4%至8%。此外，實驗證明若移除資訊不對稱，多代理人優勢幾乎消失，凸顯輸入多樣性是提升集體推理的關鍵。

深度分析

透過自我演化框架與 LLM 生成規則，強化 BM25 在中文法律案例檢索的表現

法律案例檢索因語言複雜、文件長度與事實匹配需求而具挑戰。研究提出一套自我演化框架，讓大型語言模型（LLM）在無參數訓練下自行產生、驗證與剔除查詢改寫規則，藉此提升傳統 BM25 的檢索效能。

深度分析

STORM：結合獎勵導向束搜索的步進式關鍵字優化提升 BM25 詞彙檢索效能

傳統詞彙檢索雖高效但常受詞彙不匹配限制，研究提出STORM以獎勵導向束搜索在生成關鍵字時即評估BM25檢索分數，僅保留高回饋分支。實驗顯示0.6B~8B模型在TREC DL與BEIR上可媲美或超越大型LLM改寫，同時保持與純BM25相當的檢索速度，且在18種語言零樣本轉移中表現優於多語言密集檢索。

深度分析

超智慧檢索代理 SIRA：結合 LLM 與 BM25 的一次性多輪搜尋解決方案

隨著對話式搜尋需求提升，傳統檢索多回合成本高。研究提出超智慧檢索代理（SIRA），利用大型語言模型在語料與查詢兩側補齊關鍵詞，並以文件頻率過濾，最終以單次加權 BM25 完成檢索。實驗顯示在十項 BEIR 基準與下游問答任務上，SIRA 超越密集向量與多回合基線，達到最高的 Recall@10 與 NDCG@10。

深度分析

MemTier：在 OpenClaw 外掛下以分層記憶、PPO 檢索權重緩解 BM25 檢索瓶頸

長時運行自主代理常遭遇記憶一致性、檢索與歸因四大失效模式，導致工具執行成功率隨時間下滑。研究提出MemTier——三層記憶架構，包含結構化 episodic JSONL、五信號加權檢索、注意力歸因的認知權重更新、非同步鞏固守護程序與PPO 驅動的檢索權重學習。

速報

Pi-Serini：用BM25與前沿LLM重塑深度研究的詞彙檢索代理

在大型語言模型能力提升下,詞彙檢索能否支撐代理式深度研究?研究以BM25配合更強的LLM並提出Pi-Serini搜尋代理,整合檢索、瀏覽與閱讀三項工具,實驗於BrowseComp-Plus顯示:精心調校的BM25加深度檢索可達高答案準確率與證據回溯率。

深度分析

將多輪搜尋壓縮為單次檢索：SIRA 的雙向詞級擴展與加權 BM25 流程

資訊檢索正從多輪試探式查詢改為以單次專家式檢索應對複雜語意請求。SIRA借助大型模型離線豐富語彙、線上擴展查詢並以經統計驗證的詞項驅動BM25一次檢索。實驗在多項嚴苛基準上顯示檢索品質與下游問答覆蓋顯著提升。方法無需再訓練檢索器，保留可解釋性與低成本優勢。

深度分析

MemTier：分層記憶與閉迴路歸因，為長期自治式代理緩解 BM25 檢索瓶頸

長期運行的自治式代理面臨記憶一致性衰退。MemTier以三層分級記憶、結構化JSONL軼事、五訊號加權檢索與注意力歸因迴路，並用非同步合併守護程序把軼事萃取為語義事實。評測在LongMemEval-S 500題上，語義預填後單次回溯達0.686–0.714，整體Acc提升至0.382、F1=0.412。

深度分析

EnterpriseDocBench 四軸基準：比較 BM25、E5 嵌入與混合檢索在企業文件上的效能

EnterpriseDocBench 提出一個面向企業文件處理的四軸評測框架：解析（parsing）、索引（indexing）、檢索（retrieval）與生成（generation），並以公開授權的多領域文件語料與半自動 QA 註記流程建構基準。

Mango

Mango：結合全域結構與Thompson Sampling的多代理網頁導航方法

面對深層階層網站，從首頁啟動的傳統代理常導致無效探索。Mango先以輕量爬蟲與關鍵詞搜尋構建網站全域結構，再用BM25篩選候選URL，將URL選擇視為多臂賭博機並以ThompsonSampling動態分配預算，並以情節記憶記錄路徑避免重複訪問；在WebVoyager與WebWalkerQA上顯示出明顯成功率提升。