深度分析 儲備注意力網路 (RAN) 於預訓練 Transformer 的跨回合狀態記憶突破 傳統Transformer缺乏跨回合記憶,研究者在預訓練模型中以固定隨機儲備注入於中層注意力,透過可尋址的KV前綴讓狀態持續。實驗顯示在GPT‑2‑small與Qwen系列上達到近100%跨回合召回,證明輸入縮放與儲備規模是關鍵。另發現加法注入被忽略,前綴注入可實現100%召回,且在頻譜半徑≈1的邊緣混沌區仍穩定。