RAG - Agents Report | 代理人報告

深度分析

RAG 知識檢索生成全面解析：從基礎架構到多模態未來

這篇綜述論文從知識驅動的角度全面回顧檢索增強生成（RAG）的發展。文章首先釐清 RAG 的核心元件：檢索機制、生成流程以及兩者間的知識整合。接著提出一套分類法，從基礎的檢索增強模型到整合多模態資料與推理能力的高階架構。文中也詳述常用評估基準與資料集，並探討問答、摘要、資訊檢索等應用場景。

深度分析

TurboVec 實戰分析：無訓練 4 位元量化兼顧 RAG 檢索效率與多租戶隱私

企業 RAG 系統面臨向量檢索層的兩大挑戰：訓練式量化可能暴露語料統計，且後過濾租戶隔離降低召回率。TurboVec 採用無程式碼書量化技術，無需訓練即達 4 位元壓縮，在 DBpedia 基準上 Recall@5 超越 FAISS PQ 達 8.5 個百分點，並在 Snowpark 部署中實現 11 毫秒查詢延遲。

深度分析

Shapley Context Pruning：以合作賽局理論提升 RAG 上下文剪枝效率

RAG 系統面臨長上下文處理瓶頸，現有方法缺乏理論基礎。SCP 以合作賽局觀點，用 Shapley 值計算句子邊際貢獻，搭配 3M 參數的 Deep Sets 網路與蒙特卡羅採樣，實現可擴展的上下文排序與剪枝。實驗在多跳推理等任務上表現優異，並提供可解釋性。

深度分析

C3R：利用 Conformal Prediction 提升多領域檢索的汙染控制與可靠性

多領域檢索常因返回錯誤領域文件而增加風險，C3R 以推論領域後驗機率提供每領域汙染上限認證，支援異質預算與軟降分機制，對於無標籤查詢在不可保證時自行放棄，實驗在包括公共法規資料的多樣測試集上皆未違背認證，同時相較於最嚴格的硬過濾保留更高召回率，顯示在受規範限制的產業應用具實務價值。

LangChain

使用 langchain-milvus 套件實作向量儲存、混合檢索與非同步 RAG

LangChain 與 Milvus 的新整合套件提供向量儲存、相似度搜尋與混合檢索功能，支援非同步操作與多向量欄位，讓開發者能快速建置語意搜尋與 RAG 應用，提升 AI 系統效能與彈性。此套件同時支援稀疏向量與內建 BM25 檢索，適用於大型語意搜尋與推薦系統。

深度分析

DIVE：解決向量壓縮過擬合，提升 LLM 嵌入向量在小數據集的高效縮減

面對大型語言模型高維嵌入向量導致的存儲與延遲壓力，研究者提出 DIVE 壓縮適配器。該技術透過基於 Hinge 的三元組損失實現梯度自限，避免在數據稀少時過度擾動預訓練空間，並結合多頭 NT-Xent 對比損失提供自監督信號以防止模型崩潰。實驗顯示 DIVE 在多個 BEIR 數據集上性能全面超越現有方案，且能穩定提升檢索品質。

Bike4Mind

Bike4Mind 開源核心 AI 知識平台：支援多模型工作區與自治代理

Bike4Mind 是以 TypeScript 打造的開源核心 AI 知識平台，支援多模型切換與 ReAct 風格自治代理，提供筆記本與 RAG 引擎。平台內建 Quest Master 可自動規劃多步任務，平行執行文字、程式、影像與網路搜尋，產出可重用成果物。使用者可自行部署或選擇多租戶雲端服務，提升本地化與商業化彈性。

Infographic: Optimizing a 4B AI model on a laptop for faithful deep research.

深度分析

4B 小模型也能做深層研究？揭秘 On-Device AI 引用忠實度的「暴露量」關鍵

針對在個人裝置部署 4B 規模 AI 研究代理人的挑戰，本研究探討如何提升其引用忠實度。研究將引用品質拆分為忠實度與可信覆蓋率，透過調整單一來源的字數暴露量與檢索品質進行對比實驗。結果顯示增加暴露量可顯著提升忠實度且成本極低，而覆蓋率則由檢索召回率決定。這為邊緣 AI 實現可靠的文獻研究提供了低成本的優化路徑。

Fortémi

Rust 打造的 AI 知識庫 Fortémi：融合混合搜尋與知識圖譜的第二大腦

面對企業內部雜亂的非結構化數據，開源專案 Fortémi 提供了一套基於 Rust 與 PostgreSQL 的 AI 知識庫解決方案。該系統透過 pgvector 與全文檢索的混合搜尋，結合知識圖譜與多模態數據處理，將碎片化資訊轉換為結構化知識。其支援 MCP 協定讓 AI 代理人能無縫整合，為個人知識管理與企業級 RAG 應用提供高效能且低延遲的自託管基礎設施。

Claude exam-prep skill converting course materials into a zero-hallucination study coach.

Claude Code

universal-examprep-skill：將 Claude 轉化為零幻覺的期末衝刺教練

面對考前衝刺的壓力，GitHub 開源專案 universal-examprep-skill 提供了一套針對 Claude Agent 的技能插件。該工具能將投影片與考卷轉化為知識庫，透過嚴格的接地機制確保 AI 僅依據素材回答並標註來源，達成百分之百的範圍外拒答率。此方案有效解決了 AI 幻覺問題，讓學習者能快速建立可驗證的複習流程。

ezdata

ezdata：AI 原生資料平台整合異構資料與 RAG 能力全解析

ezdata是一套以Python為基礎的AI原生資料平台，支援多種異構資料源的接入與ETL整合，內建任務排程、RAG知識庫與AI分析功能，提供多租戶與RBAC管理，讓使用者可在本機或雲端快速建立資料驅動的AI應用。同時支援Elasticsearch向量檢索與多種連接器，適合企業構建AI工作流。

深度分析

NVIDIA 推出單卡一天完成的領域專用嵌入模型微調流程，提升 RAG 檢索效能

通用嵌入模型常在處理企業專業文件時失效，導致 RAG 系統檢索精度不足。NVIDIA 推出一套微調流程，利用 LLM 自動生成合成問答對並挖掘硬負樣本，同時引入多跳查詢以強化複雜語意推理。該方案僅需單張 GPU 在一天內即可完成訓練，實測可提升 Recall@10 與 NDCG@10 逾 10%，顯著優化專業領域的檢索效能。