跨模態表示 - Agents Report

深度分析

本研究使用互最近鄰指標比較視覺編碼器DINOv2與語言模型OpenLlama，發現小樣本下似有對齊，但擴增至百萬級後，跨模態一致性僅保留粗類別語意，顯著削弱了柏拉圖表示假說的支持。此結果暗示不同模態模型仍可學得豐富的世界表徵，但未必收斂至同一表示，對多模態基礎模型設計與資源選擇產生啟示。