深度分析 SRFT + int4 KV-cache:在 Apple Silicon 統一記憶體下的低延遲長上下文部署 長上下文模型推理常受KV-cache記憶體與頻寬限制。本文以符號隨機化傅立葉變換(SRFT)配合通道與群組量化,並以單一融合Metal kernel做int4捆包與解包,實現比fp16更低延遲與三倍持久化記憶體壓縮,同時保持生成品質。實驗涵蓋Gemma-3與Qwen系列。