深度分析
SSMProbe:用狀態空間模型揭示 MAE 視覺表徵的順序敏感性
視覺模型分析常將 Patch Tokens 視為無序集合,忽略了 Token 順序的潛在價值。本研究提出 SSMProbe 框架,利用狀態空間模型(SSM)的線性時不變特性捕捉序列依賴,並結合可微分 Sinkhorn 機制學習最優 Token 排列。實驗結果顯示,在凍結的 MAE 表徵上,學習排列順序可將 ImageNet-1K 準確率從 58.1% 提升至 70.3%,證明 Token 順序是視覺表徵中被低估的關鍵維度。