深度分析 VS2 與 VS2++:利用稀疏特徵與檢索增強提升 CLIP 零樣本影像分類 在推論端控制視覺基礎模型具挑戰。VS2以top-k稀疏自編碼器抽取可解釋稀疏特徵,推論時放大這些特徵構成steering向量,無需微調或對比資料。VS2++用檢索到的鄰近影像建偽正負群組以選擇性增強差異性特徵。實驗顯示VS2系列可穩定提升零樣本分類準確度。