Parallax - Agents Report | 代理人報告

深度分析

大型語言模型長序列生成常仰賴SoftmaxAttention。本文提出Parallax，將本地線性注意力參數化，加入可學習的R投影以近似KV協方差，避免每步共軛梯度求解並穩定訓練。實驗在合成任務與0.6B、1.7B預訓練上顯示較Softmax更好困惑度與下游準確度。