深度分析
LLM 與 RAG 驅動的多代理平面圖解析:為視障者建構具安全意識的可及室內導航
本研究提出一套 LLM 驅動的多代理平面圖解析與檢索增強生成(RAG)架構,可由單張建築平面圖自動建立空間知識圖,並輸出具安全意識的第一人稱步行導航指引,特別面向視障與低視能使用者。系統由解析器、圖構建器、自我批判器、路徑規劃器與安全評估器等多個代理組成,並以自我修正回饋迴路提升穩定度。
深度分析
本研究提出一套 LLM 驅動的多代理平面圖解析與檢索增強生成(RAG)架構,可由單張建築平面圖自動建立空間知識圖,並輸出具安全意識的第一人稱步行導航指引,特別面向視障與低視能使用者。系統由解析器、圖構建器、自我批判器、路徑規劃器與安全評估器等多個代理組成,並以自我修正回饋迴路提升穩定度。
深度分析
近年以大型語言模型驅動的AutoML受探索與執行瓶頸限制。KompeteAI透過動態RAG、加入與合併運算子擴展假設空間,並用預測評分與快速偵錯縮短驗證時程。實驗顯示平均提升約3%並把評估速度加快6.9倍,同步提出10.2GB的Kompete-bench。
DiagramBank
DiagramBank是一個針對學術示意圖設計而建的大規模資料集,收錄89,422張來自頂級AI/ML會議的示意圖,並將每張圖與論文標題、摘要、圖說與內文引用片段配對。資料集透過自動化管線抽取PDF中的圖像與對應上下文,並以CLIP類型過濾器分辨示意圖與其他圖表。
深度分析
在檢索增強生成中,半結構化文件的階層與序列化介面發生錯配。SPIRE以路徑可定位子文件保留結構身分,並採用全域與局部兩階段語境化:全域於嵌入補入標題與章節骨架,局部於檢索後擴展鄰近節點並以LLM過濾精簡證據。實驗顯示在固定預算下能提升引用品質與多樣性。
PennyLang
PennyLang 報告提出一套專為 PennyLane 設計的量子程式碼資料集,包含 3,347 筆經過標註的 PennyLane 範例,來源涵蓋官方文件、教科書與開源倉庫。研究建立系統化的清理、標註與格式化流程,並以 Retrieval-Augmented Generation (RAG) 評估框架測試多款大語言模型的程式碼生成能力。
深度分析
CodeMMR提出一個統一的多模態檢索框架,並配合全新基準MMCoIR,涵蓋Web介面、資料視覺化、SVG、示意圖與UML等五大視覺領域,並支援多種程式語言與函式庫。透過指令式多模態對齊訓練,CodeMMR把自然語言、程式碼與影像嵌入同一語意空間,在標準評測上顯著領先既有視覺語言嵌入模型。
深度分析
醫學影像自動報告常受臨床幻覺與缺乏逐步核驗影響。本研究提出MARCH多代理分層框架,模擬住院醫師、進修醫師與主治醫師協作,結合檢索增強與多輪共識機制以提升診斷依據與語言準確度。實驗顯示在胸部CT資料集上,臨床一致性與語言指標均更優於現有方法。
RAGFlow
在 GitHub 值得關注的開源專案 RAGFlow 中,作者把檢索增強生成與代理人能力結合,建構一層供大型語言模型使用的上下文引擎。專案採 Python 生態與 Apache 授權,並提供線上示範與文件;此方向有助企業模組化多步查詢與工具協調,降低整合成本並提升可觀察性。