深度分析
PluRule:以多模態對比資料評估視覺語言模型在多元社群審核的效能
社群治理正朝向由社群自行訂規範的多元化趨勢。PluRule 提供一個多語、多模態的基準資料集,收錄13,371則違規實例、72,675則留言與3,643張圖片,涵蓋1,989個Subreddit與2,885項規則。
深度分析
社群治理正朝向由社群自行訂規範的多元化趨勢。PluRule 提供一個多語、多模態的基準資料集,收錄13,371則違規實例、72,675則留言與3,643張圖片,涵蓋1,989個Subreddit與2,885項規則。
深度分析
Sentence Transformers擴展多模態嵌入與重排序,能以同一API編碼文字、影像、音訊與影片;示例以Qwen3‑VL微調視覺文件檢索,採CachedMultipleNegativesRankingLoss與MatryoshkaLoss訓練,在指定資料上把NDCG@10由0.888提升到0.947,顯示領域微調能顯著改善檢索表現。
深度分析
地球觀測常需跨時間、跨感測器的互動證據擷取。EO-Gym建立可執行的多模態地理工作空間,支援時空導航、跨模態切換與35種專用工具,並以超過660k索引檔案作為資料庫。研究提供9,078條交互軌跡作為訓練與評估,並顯示經EO專屬微調的模型在互動推理上明顯改善。
深度分析
大型視覺語言模型在長序列生成時面臨視覺訊號稀釋,研究提出Persistent Visual Memory(PVM),以平行於FFN的檢索分支和獨立注意力正規化直接回取影像嵌入以維持長期視覺感知,實驗在Qwen3‑VL 4B與8B上展現整體準確度提升並抗長序列導致的衰退。
深度分析
SentenceTransformers在v5.4加入多模態支援,讓文字、影像、音訊與影片可用同一API編碼與比較,開啟視覺文件檢索與跨模態搜尋新應用,並提供多模型選擇與GPU需求說明。同時支援多模態重排序模型,可提升跨模態檢索精度,預期將加速企業多媒體資訊管理與生成式AI流程。
蒸餾MLLM
UniEditBench 提出一套統一的影像與影片編輯評測基準,連結重構式與指令驅動兩大範式。研究建立包含九類影像與八類影片操作的分類法,並以視覺大模型作為教師,蒸餾出 4B/8B 的輕量評估器,對結構保真、文字對齊、背景一致性、自然度與時空一致性等多維指標進行評分。