adaptive-computation-depth - Agents Report

深度分析

Token-Selective Attention：讓 Transformer 依 token 難度動態調整計算深度

這篇論文提出 Token-Selective Attention（TSA），在每個 transformer 區塊之間加入輕量路由器，為每個 token 產生連續的停用機率，軟性地對殘差更新做門控。方法僅增加約 1.7% 參數，不需離散抽樣或強化學習，訓練時保持可微分，推論時可轉為稀疏執行以節省實際耗時。