向量檢索 - Agents Report

深度分析

TurboVec 實戰分析：無訓練 4 位元量化兼顧 RAG 檢索效率與多租戶隱私

企業 RAG 系統面臨向量檢索層的兩大挑戰：訓練式量化可能暴露語料統計，且後過濾租戶隔離降低召回率。TurboVec 採用無程式碼書量化技術，無需訓練即達 4 位元壓縮，在 DBpedia 基準上 Recall@5 超越 FAISS PQ 達 8.5 個百分點，並在 Snowpark 部署中實現 11 毫秒查詢延遲。

深度分析

「Scribby」多層次 LLM 驅動語意影片分析框架：細粒度摘要與向量檢索新突破

隨著影片上傳量激增，研究提出Scribby多層次LLM框架，以句子級語意分群形成「verse」細粒度摘要，並提供向量檢索與互動時間軸。實驗顯示其在相關查詢召回與章節對齊上與人工標註相近，處理速度比人工快5至6倍。此外，系統在結構化與非結構化影片上均表現穩定，顯示出跨類型的韌性。

深度分析

NTILC 以功能邊際損失實現工具庫上下文壓縮與高精度選擇

隨著語言模型代理人的工具庫持續擴大，傳統的在提示內嵌入全部工具說明已導致上下文代價線性上升。NTILC透過將工具規格壓縮成嵌入向量，利用檢索取代全文掃描，並以功能邊際損失避免語意模糊。實驗顯示其可削減超過95%的上下文使用量，推理延遲降低至原先的26%，提升代理效能。

深度分析

以 1/Ratio@k 評估 ANN 檢索品質：實驗結果、下游影響與 LEANN 應用

近似最近鄰搜尋常以Recall@k評估，但此指標忽視結果品質。研究提出以1/Ratio@k取代，能在相同效能下提供更真實的品質衡量，實驗顯示在圖像分類與檢索增強生成任務中，1/Ratio@k與下游表現高度相關，且成本更低。同時為LEANN等向量資料庫提供效能與儲存的平衡參考。

深度分析

向量檢索的學習瓶頸：MED 理論揭示僅需 Θ(k) 維度即可達成完美 top‑k

研究探討向量檢索在top‑k任務的最小可嵌入維度（MED），指出在內積、餘弦相似度與歐氏距離下，所需維度僅與k成Θ(k)關係，與元素數量m無關。進一步的中心點設定顯示維度上界為O(k²log m)，說明效能限制主要來自學習可行性而非幾何約束。

ArcRift

ArcRift：以 Model Context Protocol 建構本機優先的會話持久記憶層

GitHub上出現聚焦本機記憶層的新專案，目的為把瀏覽器聊天與開發工具的上下文持久化。ArcRift以瀏覽器外掛與本地MCP伺服器配合SQLite知識圖譜，將對話編入可搜尋記憶並自動注入提示上下文。該作法可讓AI工具跨會話保留記憶，提升開發連貫性與效率。

深度分析

HARNESS‑LM（HLM）：以三階段訓練將SLM表示轉移至低延遲檢索器

贊助搜尋面臨高吞吐與低延遲的矛盾，HARNESS‑LM以三階段訓練：先以大型SLM訓出高品質teacher，再用ℓ2對齊轉移向量到小型query編碼器，最後以對比微調精煉學生模型。實驗顯示可在保有高精準度的同時大幅降低線上延遲並帶來營收與曝光提升。

direct-corpus-interaction

終端式 DCI 檢索：精準定位原始文件以補足向量檢索局限

研究團隊提出「直接語料庫互動（DCI）」，主張讓代理跳過向量嵌入檢索，改由類終端介面直接在原始語料上搜尋與驗證。

深度分析

生產環境 RAG 失準解析：從向量檢索到檢索即服務的可擴展設計

本文探討生產環境下RAG系統失準的根源：檢索而非語言模型出問題。作者提出以混合檢索、大量候選集、多階段排序與統一服務為核心做法，文章強調先廣撒候選再用快速過濾與昂貴重排精煉證據的漏斗式流程。結果顯示，改善檢索架構能顯著降低自信錯誤回答風險。

llamaindex

Flexible GraphRAG：以 LlamaIndex 與 LangChain 支援的多庫 GraphRAG 平台

這篇報導介紹一個將文件處理、知識圖譜與向量檢索結合的開源平台，採用LlamaIndex與LangChain為管線基礎，支援多種屬性圖與RDF資料庫、多款向量與搜尋引擎，並能自動增量同步資料。此平台旨在提供混合檢索與AI對話功能，對企業導入RAG與知識管理有直接應用價值。

SimpleMem

SimpleMem：為 LLM 代理設計的多模態終身記憶與向量檢索框架

開源專案SimpleMem提出針對LLM代理的終身記憶方案，支援文本與多模態資料。其設計聚焦有效壓縮、語義向量檢索與知識圖譜式組織，旨在降低儲存與檢索成本並維持上下文關聯。結果可提升代理在長期任務的記憶延續性與檢索效率，便於與RAG流程整合。

速報

Memoria：把 Git 思維帶進 AI 代理的記憶管理

Memoria 是一個在 GitHub 出現的開源專案，主張將類 Git 的版本控制應用到 AI 代理的記憶層。專案提供快照、分支、合併與回溯功能，並結合向量與全文混合檢索以語意索引記憶。系統內建矛盾偵測、隔離低信度項與完整稽核鍊，並支援本地嵌入模型以優先保護資料隱私。