速報
語義解纏管線(SDP):降低向量語義纏結、提高 RAG Top‑K 檢索精準度
研究發現,當文件在連續文字混雜多主題時,向量化會造成語義纏結。提出語義解纏管線(SDP),以四階段預處理重構文件、採情境化結構與持續回饋,目的是降低跨主題重疊並改善檢索。實驗顯示Top-K檢索精準由約32%增至約82%、Entanglement Index由0.71降到0.14。
速報
研究發現,當文件在連續文字混雜多主題時,向量化會造成語義纏結。提出語義解纏管線(SDP),以四階段預處理重構文件、採情境化結構與持續回饋,目的是降低跨主題重疊並改善檢索。實驗顯示Top-K檢索精準由約32%增至約82%、Entanglement Index由0.71降到0.14。
深度分析
本文改寫自一篇立場論文,主張當前人工智慧系統缺乏一個能將「系統理解」延續到下一次互動的基礎層級。作者提出連續性層(continuity layer),並以一種稱為Decomposed Trace Convergence Memory(DTCM)的儲存原語為技術核心,主張在寫入時分解語境痕跡、在讀取時重構當下情境。
Agentic RAG
拿個offer推出的開源專案ragent,定位企業級AgenticRAG平台,覆蓋文件解析、多路檢索、意圖識別、問題重寫與工具調用。以Java與Spring為技術棧,整合向量庫與管理後台,強調全鏈路追蹤與工程化部署,對企業建置RAG具參考價值。有利於團隊快速建置生產級RAG流程。
深度分析
隨著檢索增強生成在長工業文件上的應用日增,傳統切塊方法常忽略文件層級結構,導致資訊流失。MultiDocFusion 結合視覺解析、OCR 與 LLM‑驅動的階層解析,透過 DFS 分組產生階層化切塊。實驗顯示檢索精度提升 8‑15%,QA 分數提升 2‑3%,突顯結構感知切塊的效益。
檢索增強生成
GitHub 新發現 RAG_Techniques 專案提供多項檢索增強生成技術教學,涵蓋 LangChain、LlamaIndex 與向量資料庫整合。結合 UltraRAG、VimRAG 與 Databricks 多步驟代理人等最新研究,提升多模態與混合查詢效能。此專案為台灣 AI 開發者提供可落地的實作範例與產業應用洞見。
深度分析
大型語言模型在知識密集任務上易產生幻覺,CodaRAG 以互補學習為靈感,將檢索從被動查找轉為主動關聯,透過知識整合、關聯導航與干擾消除三階段重建證據鏈。實驗顯示其召回率提升 7‑10%、生成準確度提升 3‑11%,顯著提升模型的事實推理能力。
深度分析
知識追蹤模型在跨平台資料上易失效。RAG‑KT 以多視圖融合檢索生成結構化上下文,結合 LLM 進行受限推論,提供可解釋預測。實驗證明其在三大基準上提升準確度與魯棒性,顯示跨平台教育應用前景。
深度分析
本研究針對法律領域語言模型的挑戰,提出以百川基礎模型為底的 WisdomInterrogatory(LuWen),透過大規模法律語料持續預訓練、精挑細選的指令微調,以及結合完整法律知識庫的檢索增強生成。實驗顯示在判決預測、司法考試、文本摘要等五項任務上均優於多項基線模型。
法律 AI
NyayaMind 針對印度司法系統提供透明法律推理與判決預測,結合檢索與推理模組,提升解釋品質與證據對應,並可擴展至其他法域,顯示 AI 輔助審判的可信度。
VerifAI
本研究提出 VerifAI,一套針對生醫領域的問答搜尋引擎,結合檢索增強生成與事後聲明驗證。系統將答案拆解為原子聲明,並以微調的自然語言推理模型比對檢索證據,確保事實一致性。實驗顯示其在 HealthVer 基準上優於 GPT‑4,顯著降低幻覺式引用,提升答案可驗證性。