速報 視覺變壓器的「綁定」資訊:提升多物件辨識的關鍵 本研究針對視覺變壓器(ViT)在多物件場景中的特徵綁定問題進行資訊理論化分析,提出測量模型表徵中綁定資訊的探測方法。實驗以不同挑戰(特徵共享、遮擋、自然特徵)之資料集,評估 ViT 各層(CLS token、空間 token)的綁定表現,並比較多個預訓練模型。