檢索增強 - Agents Report

深度分析

Qwen 與 RAG 管線：面向烏克蘭多領域 PDF 文件理解的檢索與重排實作

在 UNLP 多領域文件理解競賽中，作者團隊以 Qwen 系列模型構建一套檢索增強（RAG）管線，聚焦於保留文件結構的上下文分段、問題感知的密集檢索與以候選選項為條件的重排，並以受限生成機制完成最終答案選擇。

深度分析

將多輪搜尋壓縮為單次檢索：SIRA 的雙向詞級擴展與加權 BM25 流程

資訊檢索正從多輪試探式查詢改為以單次專家式檢索應對複雜語意請求。SIRA借助大型模型離線豐富語彙、線上擴展查詢並以經統計驗證的詞項驅動BM25一次檢索。實驗在多項嚴苛基準上顯示檢索品質與下游問答覆蓋顯著提升。方法無需再訓練檢索器，保留可解釋性與低成本優勢。

速報

MILD與ECPO：讓駕駛從監督者變經理的代理人式人車協作

部分自動駕駛會增加駕駛認知負擔。本研究提出Mediator-in-the-Loop-Driving(MILD)，以代理人架構整合座艙與車外感知，並由輕量策略代理人提出可解釋建議，採Evidence-and-Constraint-weightedPolicyOptimization(ECPO)及檢驗器與檢索增強模組強化決策。實驗於三個公開資料集顯示MILD於可稽核指標與人類評分上優於基線。

深度分析

MM‑StanceDet：結合檢索增強與多代理的多模態立場偵測框架

隨著文字與圖片混合的社群貼文增多，立場偵測變得更具挑戰性。研究提出檢索增強的多模態多代理框架，結合檢索、專屬分析、辯論與自省四階段。實驗顯示於五大資料集上顯著超越現有最佳模型，尤其在處理文本與影像訊號衝突時，框架的辯論階段能有效降低單步推理的錯誤率，提升整體預測穩定性。

深度分析

ACE‑Bench：執行自由的 Azure SDK 程式碼正確性基準

本研究針對大型語言模型在 Azure SDK 使用上的正確性提出 ACE‑Bench，一種免執行、快速判定通過與否的基準。它將官方文件範例轉為自足任務，透過正規表達式與 LLM 評審檢查 API 使用與工作流，降低測試成本並提升可重現性。實驗顯示多模型在檢索增強下表現提升，且不同模型差異顯著。