多模態學習 - Agents Report

深度分析

HCIG：層次圖注意力網路實現跨模態不協調偵測，提升諷刺與霸凌辨識

隨著社群平台文字與圖片常出現語意衝突，研究提出HCIG層次式跨模態不協調圖網路，分別在詞彙、片語與全局層面建模不一致，並以層次注意力融合。實驗在MMSD與MultiBully上分別達85.74%準確與69.62%準確，顯示階層式圖式推理優於傳統融合。

速報

DMIL：以樣本為單位的分解式多模態互動學習新框架

多模態學習需要同時捕捉不同模態間的冗餘、獨特與協同資訊，然而這些隱含的互動在不同樣本間會動態變化。研究以資訊理論為基礎，指出現有的模態集成與聯合學習方式分別在捕捉協同與冗餘資訊上存在缺陷，因而提出 Decomposition-based Multimodal Interaction Learning（DMIL）框架。

深度分析

USV-1.0 多模態短影片資料集：MMF-Net 與 VTCL 的任務與基線

短影片平台快速興起，本研究建立一個大規模用戶生成短片資料集，並提出主題辨識與視訊與文字檢索兩項任務。方法方面，採用一個多模態融合網路整合影像、音訊與字幕以辨識影片主題，並以對比式學習在影片與使用者標題間建立語意對應。資料以查詢字與上傳標題做弱監督收集且未全面人工剪輯，並提供基準評測以促進後續研究。

速報

衡量關鍵：生成式、多模態與代理型醫療人工智慧基準框架

研究為生成式、多模態與代理型醫療AI制定基準框架。透過臨床任務設計、跨模態評測與人機互動指標,評估生成品質、推理一致性與代理能力。結果指出現有模型在一致性、可解釋性與臨床可用性仍有差距,建議採多維標準導向應用。並強調人機協作評估與安全性監測。