深度分析
MM‑StanceDet:結合檢索增強與多代理的多模態立場偵測框架
隨著文字與圖片混合的社群貼文增多,立場偵測變得更具挑戰性。研究提出檢索增強的多模態多代理框架,結合檢索、專屬分析、辯論與自省四階段。實驗顯示於五大資料集上顯著超越現有最佳模型,尤其在處理文本與影像訊號衝突時,框架的辯論階段能有效降低單步推理的錯誤率,提升整體預測穩定性。
深度分析
隨著文字與圖片混合的社群貼文增多,立場偵測變得更具挑戰性。研究提出檢索增強的多模態多代理框架,結合檢索、專屬分析、辯論與自省四階段。實驗顯示於五大資料集上顯著超越現有最佳模型,尤其在處理文本與影像訊號衝突時,框架的辯論階段能有效降低單步推理的錯誤率,提升整體預測穩定性。
深度分析
隨著多模態大語言模型在實務應用中需處理交錯圖文,研究者推出COHERENCE基準,測試模型在全域與局部圖文對齊的能力,結果顯示開源模型在全域一致性仍落後於商業模型。研究同時比較了模組化與原生架構,發現後者在複雜文檔的跨模態推理上表現較佳顯。
深度分析
隨著搜尋查詢日益多步且結果多模態且雜訊,研究者推出 MERRIN 基準測試,使用自然語言查詢、加入影片與音訊等未充分探討的模態,要求在噪聲網路中檢索並推理。測試十種模型在三種搜尋設定下,平均正確率 22.3%,最高 40.1%。結果顯示目前代理人在多模態資訊選擇與推理上仍有顯著挑戰。
深度分析
本研究針對策略性欺騙遊戲中的多回合互動,提出MISID多模態資料集,採兩層多維標註以捕捉長篇語境與因果證據。實驗顯示現有大型多模態模型在文本偏見、跨模態協同與因果鏈接上表現不足,FRACTAM框架則透過解耦、錨定與推理提升隱藏意圖偵測與推論精度。
深度分析
隨著多模態 AI 應用需求增加,研究提出 Modality-Native Routing 於代理網路中保留原生訊號。MMA2A 架構透過代理卡宣告路由語音、影像與文字,於 50 項測試任務中將正確率提升至 52%,遠超文字瓶頸的 32%。此結果顯示,若下游代理具備足夠推理能力,原生路由可顯著提升任務效能。