記憶令牌 - Agents Report

深度分析

本報導解讀最新研究，探討單一區塊（weight-shared）通用Transformer在極難數獨任務上的表現，指出學習型記憶令牌為能否完成遞迴推理的關鍵。研究發現：沒有記憶令牌的配置在所有測試下皆無法取得實質成效；記憶令牌數量出現明確門檻，T=8起進入穩定區間，過多則因注意力攤薄而劣化。