深度分析 CSMCIR:以 MCoT 與對稱 Q-Former 結合熵感知記憶庫提升複合影像檢索對齊 複合影像檢索(CIR)讓使用者以參考圖像加上文字修改描述來找目標圖,但跨模態與不對稱編碼導致表徵空間碎片化,限制檢索效能。CSMCIR提出三大協同設計:多層次Chain-of-Thought提示(MCoT)以產生判別性目標描述、共享參數的對稱雙塔Q-Former編碼器以建立模態對稱,以及基於熵與時間權重的記憶庫策略以維持高品質負樣本池。