深度分析
SMART:從單向量到多向量檢索的零訓練與輕量後訓練路徑
多模態檢索常用單一向量(single-vector)做全域比對,但會壓縮掉局部證據,影響細節敏感任務的準確度。
深度分析
多模態檢索常用單一向量(single-vector)做全域比對,但會壓縮掉局部證據,影響細節敏感任務的準確度。
深度分析
本文說明以微調多模態嵌入與重排序器應對視覺文件檢索的挑戰。採用大型視覺語言嵌入模型配合CachedMultipleNegativesRankingLoss與MatryoshkaLoss訓練,並以含難負樣本的評估集測量檢索成效。微調結果使NDCG@10從0.888提升到0.947,顯示領域微調能明顯改善檢索品質。
深度分析
Sentence Transformers擴展多模態嵌入與重排序,能以同一API編碼文字、影像、音訊與影片;示例以Qwen3‑VL微調視覺文件檢索,採CachedMultipleNegativesRankingLoss與MatryoshkaLoss訓練,在指定資料上把NDCG@10由0.888提升到0.947,顯示領域微調能顯著改善檢索表現。
深度分析
SentenceTransformers在v5.4加入多模態支援,讓文字、影像、音訊與影片可用同一API編碼與比較,開啟視覺文件檢索與跨模態搜尋新應用,並提供多模型選擇與GPU需求說明。同時支援多模態重排序模型,可提升跨模態檢索精度,預期將加速企業多媒體資訊管理與生成式AI流程。
深度分析
Sentence Transformers在v5.4擴展到文字、影像、音訊與影片的多模態嵌入與重排序功能。新版可把不同模態映射到共用向量空間,支援跨模態相似度比較與混合模態重排序,適用於視覺文件檢索與多模態RAG流程。此更新簡化多模態檢索整合,但也提高訓練與部署的資源需求,推升相關微調與基礎設施工具的重要性。
深度分析
Sentence Transformers 在 2026 年 4 月推出 v5.4,加入多模態嵌入與重排功能,支援文字、影像、音訊與影片的統一向量化。透過模型自動偵測模態並使用相同相似度函式,開發者可實作跨模態檢索與混合模態重排。此更新預計加速視覺文件搜尋與多媒體 RAG 流程,提升 AI 應用的多樣性與效能。