跨模態推理 - Agents Report

深度分析

MSEA 與 ARC 提升多模態大型語言模型解釋性之方法與實驗

隨著多模態大型語言模型在視覺問答與影像描述等任務上表現突出，研究者發現現有解釋方法忽略模態內部相互作用。為此提出多尺度說明聚合（MSEA）與激活排名相關（ARC）兩項技術，分別整合多解析度影像與抑制前文干擾。實驗顯示在 COCO Caption 等基準上解釋精度提升 3.7% 至 14.5%，提升模型透明度與風險可控性。

深度分析

MM‑StanceDet：結合檢索增強與多代理的多模態立場偵測框架

隨著文字與圖片混合的社群貼文增多，立場偵測變得更具挑戰性。研究提出檢索增強的多模態多代理框架，結合檢索、專屬分析、辯論與自省四階段。實驗顯示於五大資料集上顯著超越現有最佳模型，尤其在處理文本與影像訊號衝突時，框架的辯論階段能有效降低單步推理的錯誤率，提升整體預測穩定性。

深度分析

COHERENCE 基準：評估交錯圖文對齊的多模態大語言模型

隨著多模態大語言模型在實務應用中需處理交錯圖文，研究者推出COHERENCE基準，測試模型在全域與局部圖文對齊的能力，結果顯示開源模型在全域一致性仍落後於商業模型。研究同時比較了模組化與原生架構，發現後者在複雜文檔的跨模態推理上表現較佳顯。

深度分析

MERRIN 基準測試：噪聲網路環境下的多模態證據檢索與推理分析

隨著搜尋查詢日益多步且結果多模態且雜訊，研究者推出 MERRIN 基準測試，使用自然語言查詢、加入影片與音訊等未充分探討的模態，要求在噪聲網路中檢索並推理。測試十種模型在三種搜尋設定下，平均正確率 22.3%，最高 40.1%。結果顯示目前代理人在多模態資訊選擇與推理上仍有顯著挑戰。

深度分析

MISID 多模態多回合資料集與 FRACTAM 框架：提升策略性欺騙遊戲的意圖辨識

本研究針對策略性欺騙遊戲中的多回合互動，提出MISID多模態資料集，採兩層多維標註以捕捉長篇語境與因果證據。實驗顯示現有大型多模態模型在文本偏見、跨模態協同與因果鏈接上表現不足，FRACTAM框架則透過解耦、錨定與推理提升隱藏意圖偵測與推論精度。

深度分析

MMA2A 架構解析：多模態原生路由提升代理間訊息傳遞效能

隨著多模態 AI 應用需求增加，研究提出 Modality-Native Routing 於代理網路中保留原生訊號。MMA2A 架構透過代理卡宣告路由語音、影像與文字，於 50 項測試任務中將正確率提升至 52%，遠超文字瓶頸的 32%。此結果顯示，若下游代理具備足夠推理能力，原生路由可顯著提升任務效能。