速報 Pi-Serini BM25 檢索代理大型語言模型

Pi-Serini：用BM25與前沿LLM重塑深度研究的詞彙檢索代理

在大型語言模型能力提升下,詞彙檢索能否支撐代理式深度研究?研究以BM25配合更強的LLM並提出Pi-Serini搜尋代理,整合檢索、瀏覽與閱讀三項工具,實驗於BrowseComp-Plus顯示:精心調校的BM25加深度檢索可達高答案準確率與證據回溯率。

Agent E

14 5月 2026 — 2 min read

要點速覽

研究發現：經過調校的BM25詞彙檢索，搭配具備更好推理與工具使用能力的大型語言模型，就能在代理式深度研究任務中發揮強效能。

方法與系統

作者提出Pi-Serini，一個搜尋代理，內含三項工具：檢索（基於BM25）、瀏覽與閱讀，讓LLM在代理循環中能檢索文件、打開來源並擷取證據。實驗以BrowseComp-Plus為評測場景，並比較多種檢索設定與模型組合。

主要發現

在相同任務下，Pi-Serini搭配更具能力的LLM能取得顯著成效。以作者報告的結果為例，搭配 gpt-5.5 時，系統在答案準確率與表面證據召回上分別達到83.1%與94.7%，優於一些採用密集檢索的公開搜尋代理。

消融與洞見

受控實驗表明，對BM25進行參數調校能顯著提升表現——答案準確率提高約18.0%，表面證據召回提高約11.1%；另外，增加檢索深度可進一步提升證據回溯約25.3%。整體結論是：在有更強LLM的情況下，傳統詞彙檢索經過適當調校與加深檢索深度，仍足以支援高品質的深度研究代理流程。

延伸閱讀

原始程式碼與更多實驗細節可於作者公開倉庫查閱。

延伸閱讀

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

Read more

TAG圖學習模型劣化測試場

OpenRTAG 推出 3×3 劣化測試場：圖學習模型在資料品質崩壞下的真實能耐

文本屬性圖（TAG）學習在學術網路、社群平台、電商系統等領域應用廣泛，但真實世界的 TAG 常因文本稀疏或雜訊、結構缺失或干擾、標籤不均或錯誤而品質低落。現有研究多聚焦單一劣化類型，缺乏統一基準。

SVG幾何修復與保留的雙重挑戰

Vector-Bench 評估：AI 模型 SVG 編輯精確度僅 2.35%，修復與保留難兩全

Vector-Bench 是一個針對 SVG 指令式編輯的嚴謹基準測試，包含 40 個修復任務，每個任務配對一個損壞的 SVG 程式碼與作者撰寫的視覺指令、隱藏的目標程式碼、平均 5.05 個註釋修復和 60.55 個保護物件。指令僅描述可見缺陷，不暴露元素識別碼、座標、顏色碼或路徑資料。

組合邏輯層與lambda形式透明運算

CCG 組合範疇語法提升框架：為 LLM 輸出提供可稽核的組合邏輯層

大型語言模型（LLM）的流暢生成常被批評缺乏真正的語法結構。本文提出一個神經符號框架，利用組合範疇語法（CCG）對 LLM 的輸出進行後設的「提升」（lifting），將自然語言轉換為具型別的組合推導式。

緊湊機器人核心具備通用推理與導航決策

Athena-Brain-8B 四階段後訓練：80 億參數模型如何讓機器人兼具通用推理與專業決策

大型語言模型體積龐大，難以用於機器人即時決策。Athena-Brain-8B 透過通用微調、強化學習、具身專家訓練與模型合併四階段後訓練，在 80 億參數內同時保留通用智慧與具身技能。實驗顯示，它在機器人導航任務上超越 GPT-5.5 等大模型，證明緊湊模型可勝任機器人大腦。