多模態檢索 - Agents Report

深度分析

隨著多模態大型語言模型被廣泛應用於通用多模態檢索，研究發現傳統對比學習忽略查詢的細粒度資訊，導致「粒盲」問題。ELVA 以規則式強化學習結合排名獎勵與邊際獎勵，重新排序負樣本，提升檢索精度。實驗在新建的 MRBench 基準上取得 13.1% 的顯著提升，證明其有效緩解粒盲。

深度分析

作者示範微調Qwen3‑VL‑Embedding‑2B於視覺文件檢索，使用CachedMultipleNegativesRankingLoss與MatryoshkaLoss，NDCG@10從0.888提升至0.947，證明領域微調可顯著提升檢索效能。

深度分析

本研究針對工程規範文件的多模態特性，提出MCERF框架結合ColPali視覺檢索與多樣化推理管線，透過自適應路由提升問答正確率。實驗顯示相較於傳統RAG提升逾四成，顯示視覺檢索在工程文件理解上的關鍵價值。此技術亦提供模組化設計，可於不同模型間快速移植，未來有望支援更大規模的工程文件庫。

深度分析

短篇劇情類短影片壓縮大量社交線索，現有視聽模型能看出表面行動，卻難以推斷角色內在意圖與敘事因果。研究提出 StoryTR 基準與一套 Agentic 資料管線，透過三層 Theory of Mind（意圖解碼、敘事推理、邊界定位）生成具說明性的訓練鏈條，並用於訓練小型 7B 模型。

深度分析

隨著搜尋查詢日益多步且結果多模態且雜訊，研究者推出 MERRIN 基準測試，使用自然語言查詢、加入影片與音訊等未充分探討的模態，要求在噪聲網路中檢索並推理。測試十種模型在三種搜尋設定下，平均正確率 22.3%，最高 40.1%。結果顯示目前代理人在多模態資訊選擇與推理上仍有顯著挑戰。

沉浸式對話式推薦系統

隨著 XR 技術普及，沉浸式對話式推薦系統開始關注情境即時標籤。研究將資訊需求分為明確意圖與主動需求，並以新指標評估標籤選擇。實驗在時尚、電影與零售三個場景測試 IR、LLM 與 VLM 方法，發現它們未能充分利用場景資訊、產生冗餘標籤且難以預測使用者主動需求，凸顯未來改進空間。

深度分析

工程規範文件包含文字、表格與圖示，傳統 RAG 難以完整擷取。MCERF 以多模態檢索模型 ColPali 結合 LLM 推理，提供混合查詢、圖表融合、高階推理與自洽決策四種模式。實驗顯示相較基線提升 41.1% 正確率，顯示此框架在工程文件理解上具顯著效益。