深度分析 Parallax(PLX):以參數化協方差修正提升本地線性注意力的長序列檢索能力 大型語言模型長序列生成常仰賴SoftmaxAttention。本文提出Parallax,將本地線性注意力參數化,加入可學習的R投影以近似KV協方差,避免每步共軛梯度求解並穩定訓練。實驗在合成任務與0.6B、1.7B預訓練上顯示較Softmax更好困惑度與下游準確度。