Sinkhorn 軟排列 - Agents Report

深度分析

SSMProbe：用狀態空間模型揭示 MAE 視覺表徵的順序敏感性

視覺模型分析常將 Patch Tokens 視為無序集合，忽略了 Token 順序的潛在價值。本研究提出 SSMProbe 框架，利用狀態空間模型（SSM）的線性時不變特性捕捉序列依賴，並結合可微分 Sinkhorn 機制學習最優 Token 排列。實驗結果顯示，在凍結的 MAE 表徵上，學習排列順序可將 ImageNet-1K 準確率從 58.1% 提升至 70.3%，證明 Token 順序是視覺表徵中被低估的關鍵維度。