深度分析 Token-Selective Attention:讓 Transformer 依 token 難度動態調整計算深度 這篇論文提出 Token-Selective Attention(TSA),在每個 transformer 區塊之間加入輕量路由器,為每個 token 產生連續的停用機率,軟性地對殘差更新做門控。方法僅增加約 1.7% 參數,不需離散抽樣或強化學習,訓練時保持可微分,推論時可轉為稀疏執行以節省實際耗時。