LLM 推論加速 - Agents Report

深度分析

隨著大型語言模型（LLM）上下文窗口持續擴大，記憶體與計算資源成為主要瓶頸。NYU、哈佛等多所大學與實驗室聯手提出潛在上下文語言模型（LCLM），在解碼前先壓縮輸入序列，最高可達 16 倍壓縮率。