檢索增強生成 (RAG) - Agents Report

深度分析

檢索增強生成（RAG）在智利服務條款自動偵測與在地部署實作

此研究針對智利線上服務條款的潛在不當條款提出在地化的檢索增強生成（RAG）框架。方案以階層式切分與輕量偵測先篩出疑似條款，接著使用密集—稀疏混合檢索、重排序與提示增強，驅動中型開放權重模型完成分類。作者同時發布擴充語料庫與調整後的法律標註架構，實驗顯示檢索增強提示可在計算與通道成本較低下，讓本地模型逼近雲端系統表現。

深度分析

在 RAG AI 答案引擎中被引用的決定因素：GEO 實驗證據

本研究在受控的檢索增強生成（RAG）環境中，探討哪些內容因子會讓來源在AI答案引擎輸出中被優先引用。研究以兩文件對決的實驗設計，把兩個候選來源同時注入模型上下文，並在六款大型語言模型上執行252,000次試驗，檢驗18項可控內容變數（含主題匹配、完整性、可信度、可讀性、競爭性與時效性）。

深度分析

MAP-Law：以覆蓋指標與邊際增益控制檢索，強化多回合法律諮詢

法律諮詢屬高風險且需可檢驗的任務，檢索深度直接影響答案的可支持性與系統效率。

深度分析

VLM→RAG LLM 雙階段管線：針對低資源原住民語的文化影像標註翻譯

美洲NLP2026文化影像標註任務挑戰低資源族語與文化語域，佛羅里達大學Gators提出雙階段流程：先以西班牙文由視覺語言模型生成中介說明，再以檢索增強的多示例提示由大型語言模型進行長上下文翻譯。實驗顯示對若干目標語言在開發集與測試集上均明顯優於基準，且檢索與合成資料在成效中扮演關鍵角色。

深度分析

LongMINT：評估長時序代理系統中記憶干擾對檢索與聚合推理的影響

長時序代理中的記憶因頻繁更新產生互相干擾，妨礙回溯與跨次序聚合推理。本研究提出一套干擾密集型基準，涵蓋狀態追蹤、多回合對話、維基修訂與Git提交，並設計單目標召回與多目標聚合題型。評估顯示整體準確率偏低，檢索與記憶構建是主要瓶頸，需更穩健的記憶管理策略。

深度分析

以 BGB 法條結構為基準的 RAG 切塊策略比較：小節檢索優勢與成本權衡

研究以德國民法典為基準，評估多種文本切塊策略在檢索增強生成（RAG）中的表現。比較結構化分段、固定窗口、語義分群、Lumber與RAPTOR等方法，並衡量召回、延遲與索引成本。結果顯示保留法條結構的分節或小節檢索能顯著提高Recall，且計算與存儲效率更佳。

向量資料庫

LEANN：以圖形化按需重算與高階節點修剪實現低資源本地向量資料庫

LEANN是一個以個人裝置為目標的向量資料庫專案，主打在不犧牲檢索準確度下大幅降低儲存需求。它以圖形化的選擇性重算（graph-based selective recomputation）和高階節點保留修剪策略，改為按需計算embedding而非長期存放，藉此減少磁碟佔用並維持語意搜尋效能。

深度分析

NVIDIA 領域化嵌入微調實務：單張 GPU 下的 RAG 優化與部署流程

NVIDIA 提出一套針對檢索增強生成（RAG）系統的領域嵌入微調管線，強調以單張 GPU 與不到一天的訓練時間，從原始企業文件自動產生合成問答、挖掘硬負例並支援多跳問題展開。

深度分析

BlenderRAG：以檢索增強生成（RAG）提升可編譯的 Blender Python 3D 物件產出

自動生成可執行Blender程式仍面臨語法與幾何一致性問題。BlenderRAG以檢索增強生成，在500例多模態範本中擷取語義相近的文字、程式與渲染圖作為提示，引導大型語言模型產出更可靠的3D物件。實驗顯示編譯成功率由40.8%提升至70.0%，語意對齊顯著改善。

深度分析

OntoLogX：以本體、RAG 與 LLM 將系統日誌轉換為威脅知識圖譜

系統日誌蘊含豐富威脅情報，但格式零散難以直接利用。OntoLogX結合本體、檢索增強生成與迭代校正，利用大型語言模型將原始日誌轉成本體驅動的知識圖譜，並以會話群組對應MITRE ATT&CK戰術。實驗也顯示檢索與校正能提升精準與召回，程式碼專用模型對結構化日誌特別有利。

深度分析

CyberCane：神經─符號 + PhishOnt 本體推理，實作隱私保護釣魚檢測

在隱私敏感領域（如醫療）中，釣魚郵件檢測必須在幾乎零誤報、可解釋性、與資料不外洩間取得平衡。CyberCane 提出一套雙階段神經─符號流程：第一階段以輕量決定性符號規則快速過濾明顯技術違規並產出可驗證指標；第二階段對邊界或可疑郵件執行經過自動個資遮蔽的檢索增強生成（RAG），僅檢索釣魚專屬語料以避免敏感資料外流。

深度分析

StratRAG 基準：在含干擾候選池下比較 BM25、密集向量與混合檢索

StratRAG 將 HotpotQA 的 distractor 設定重新結構化，針對檢索階段提供一套可重複、可量化的多跳評測基準。資料集包含約2,200個題目，每題配對固定的15篇候選文件（2篇黃金文件、13篇相關干擾文），可直接計算 Recall@k、MRR 與 NDCG 等檢索指標。