深度分析 樹狀結構前饋層的動態稀疏化與自動剪枝:大模型計算新方案 研究聚焦於 Transformer 前饋層的高運算成本,提出樹狀結構的硬性階層路由以實現動態稀疏化。實驗證明每個 token 只啟用約 5% 單元,仍能在語言模型與問答任務上匹配密集基線,且可擴展至超過 1B 參數。訓練中出現自動剪枝效應,將動態路由部分固定為靜態稀疏,顯示此方法具備可控且高效的稀疏化潛力。