檢索增強生成 (RAG) - Agents Report | 代理人報告 (Page 2)

深度分析

LLM 與 RAG 驅動的多代理平面圖解析：為視障者建構具安全意識的可及室內導航

本研究提出一套 LLM 驅動的多代理平面圖解析與檢索增強生成（RAG）架構，可由單張建築平面圖自動建立空間知識圖，並輸出具安全意識的第一人稱步行導航指引，特別面向視障與低視能使用者。系統由解析器、圖構建器、自我批判器、路徑規劃器與安全評估器等多個代理組成，並以自我修正回饋迴路提升穩定度。

深度分析

KompeteAI：以檢索增強生成（RAG）與合併運算子加速的多代理 AutoML 平台

近年以大型語言模型驅動的AutoML受探索與執行瓶頸限制。KompeteAI透過動態RAG、加入與合併運算子擴展假設空間，並用預測評分與快速偵錯縮短驗證時程。實驗顯示平均提升約3%並把評估速度加快6.9倍，同步提出10.2GB的Kompete-bench。

DiagramBank

DiagramBank：89,422 張示意圖資料集支援示意圖設計與檢索增強生成 (RAG)

DiagramBank是一個針對學術示意圖設計而建的大規模資料集，收錄89,422張來自頂級AI/ML會議的示意圖，並將每張圖與論文標題、摘要、圖說與內文引用片段配對。資料集透過自動化管線抽取PDF中的圖像與對應上下文，並以CLIP類型過濾器分辨示意圖與其他圖表。

深度分析

SPIRE：以路徑可定位子文件實現結構化且可解釋的證據檢索

在檢索增強生成中,半結構化文件的階層與序列化介面發生錯配。SPIRE以路徑可定位子文件保留結構身分,並採用全域與局部兩階段語境化:全域於嵌入補入標題與章節骨架,局部於檢索後擴展鄰近節點並以LLM過濾精簡證據。實驗顯示在固定預算下能提升引用品質與多樣性。

PennyLang

PennyLang：為 PennyLane 建構的 LLM 訓練資料集與 RAG 評估

PennyLang 報告提出一套專為 PennyLane 設計的量子程式碼資料集，包含 3,347 筆經過標註的 PennyLane 範例，來源涵蓋官方文件、教科書與開源倉庫。研究建立系統化的清理、標註與格式化流程，並以 Retrieval-Augmented Generation (RAG) 評估框架測試多款大語言模型的程式碼生成能力。

深度分析

CodeMMR 與 MMCoIR：統一自然語言、程式碼與影像的多模態檢索架構

CodeMMR提出一個統一的多模態檢索框架，並配合全新基準MMCoIR，涵蓋Web介面、資料視覺化、SVG、示意圖與UML等五大視覺領域，並支援多種程式語言與函式庫。透過指令式多模態對齊訓練，CodeMMR把自然語言、程式碼與影像嵌入同一語意空間，在標準評測上顯著領先既有視覺語言嵌入模型。

深度分析

多代理分層臨床架構 MARCH：結合 3D ViT 與檢索增強提升胸部 CT 報告可解釋性

醫學影像自動報告常受臨床幻覺與缺乏逐步核驗影響。本研究提出MARCH多代理分層框架，模擬住院醫師、進修醫師與主治醫師協作，結合檢索增強與多輪共識機制以提升診斷依據與語言準確度。實驗顯示在胸部CT資料集上，臨床一致性與語言指標均更優於現有方法。

RAGFlow

RAGFlow：將檢索增強生成（RAG）與代理人流程整合的開源工程實作

在 GitHub 值得關注的開源專案 RAGFlow 中，作者把檢索增強生成與代理人能力結合，建構一層供大型語言模型使用的上下文引擎。專案採 Python 生態與 Apache 授權，並提供線上示範與文件；此方向有助企業模組化多步查詢與工具協調，降低整合成本並提升可觀察性。