深度分析 QCFuse:查詢感知快取融合提升 RAG 推論效能 本研究針對檢索增強生成(RAG)模型的推論效率問題提出 QCFuse 系統,以使用者查詢為中心融合 KV 快取,透過語意摘要錨點提升查詢表示,並在關鍵 Transformer 層的注意力分布上選擇性重新計算相關 token,實驗顯示回應速度提升約 40%,且在部分情境下提升準確度。