FlashQLA FlashQLA:在 NVIDIA Hopper (SM90+) 上以 TileLang 優化 Gated Delta Network(GDN)線性注意力的高效核函式庫 Qwen團隊推出FlashQLA以TileLang打造、針對GatedDeltaNetwork的高效線性注意力核心庫。它透過門控衰減驅動的並行化、硬體友善的代數改寫與融合式warp內核,在Hopper GPU上實現前向2–3倍、後向約2倍的加速。