深度分析 「LCLM」潛在上下文語言模型:實現 16 倍壓縮與 8.8 倍推論加速 隨著大型語言模型(LLM)上下文窗口持續擴大,記憶體與計算資源成為主要瓶頸。NYU、哈佛等多所大學與實驗室聯手提出潛在上下文語言模型(LCLM),在解碼前先壓縮輸入序列,最高可達 16 倍壓縮率。