大型語言模型效能

深度分析

本研究針對檢索增強生成（RAG）模型的推論效率問題提出 QCFuse 系統，以使用者查詢為中心融合 KV 快取，透過語意摘要錨點提升查詢表示，並在關鍵 Transformer 層的注意力分布上選擇性重新計算相關 token，實驗顯示回應速度提升約 40%，且在部分情境下提升準確度。

深度分析

在大型語言模型服務需求激增的背景下，持續批次化透過 KV 快取、分塊預填與不規則批次三項技術，同時處理預填與解碼階段，減少填充浪費並提升 GPU 利用率。此方法使多使用者同時對話的吞吐量大幅提升，預計將改變 AI 服務的資源配置與成本結構。