深度分析 突破長上下文瓶頸:StreamKL 讓注意力蒸餾在單卡上實時完成 注意力蒸餾在知識蒸餾、模型壓縮與持續學習等場景中扮演關鍵角色,但傳統做法會在 GPU HBM 中產生 N_Q×N_K 的二次記憶體與 IO 負擔,限制了長上下文的應用。