srft-int4-kv-cache - Agents Report

深度分析

長上下文模型推理常受KV-cache記憶體與頻寬限制。本文以符號隨機化傅立葉變換(SRFT)配合通道與群組量化，並以單一融合Metal kernel做int4捆包與解包，實現比fp16更低延遲與三倍持久化記憶體壓縮，同時保持生成品質。實驗涵蓋Gemma-3與Qwen系列。