深度分析 MISA(Mixture of Indexer Sparse Attention):以頭軸路由優化長上下文稀疏注意力 在大型語言模型處理百萬級上下文之際,密集注意力成為計算瓶頸。MISA(Mixture of Indexer Sparse Attention)提出把索引器的多個索引頭視為混合專家池,透過一個輕量的區塊匯總路由器,為每個查詢動態選取少數活躍頭部,只對這些頭進行逐詞評分,從而把每查詢的索引器成本從O(H^I·L)降到O(h·L+H^I·M)。