SRAM 計算

深度分析

注意力蒸餾在知識蒸餾、模型壓縮與持續學習等場景中扮演關鍵角色，但傳統做法會在 GPU HBM 中產生 N_Q×N_K 的二次記憶體與 IO 負擔，限制了長上下文的應用。