RAN - Agents Report | 代理人報告

深度分析

儲備注意力網路 (RAN) 於預訓練 Transformer 的跨回合狀態記憶突破

傳統Transformer缺乏跨回合記憶，研究者在預訓練模型中以固定隨機儲備注入於中層注意力，透過可尋址的KV前綴讓狀態持續。實驗顯示在GPT‑2‑small與Qwen系列上達到近100%跨回合召回，證明輸入縮放與儲備規模是關鍵。另發現加法注入被忽略，前綴注入可實現100%召回，且在頻譜半徑≈1的邊緣混沌區仍穩定。