深度分析 Universal Transformer 與 ACT 在遞迴推理的角色:記憶令牌、初始化與深度權衡 本報導解讀最新研究,探討單一區塊(weight-shared)通用Transformer在極難數獨任務上的表現,指出學習型記憶令牌為能否完成遞迴推理的關鍵。研究發現:沒有記憶令牌的配置在所有測試下皆無法取得實質成效;記憶令牌數量出現明確門檻,T=8起進入穩定區間,過多則因注意力攤薄而劣化。