深度分析
WaveFilter:利用離散小波轉換提升擴散模型長上下文 KV 快取效能
WaveFilter以小波轉換改良擴散語言模型的KV快取,結合粗粒度語意概覽與多尺度遞迴篩選,顯著降低長序列計算成本,同時提升生成品質與效能,為長上下文任務提供更實用的解決方案。結合Fast‑dLLM後,WaveFilter在LongBench基準提升2%準確率,且吞吐量近,降低長上下文部署門檻。
深度分析
WaveFilter以小波轉換改良擴散語言模型的KV快取,結合粗粒度語意概覽與多尺度遞迴篩選,顯著降低長序列計算成本,同時提升生成品質與效能,為長上下文任務提供更實用的解決方案。結合Fast‑dLLM後,WaveFilter在LongBench基準提升2%準確率,且吞吐量近,降低長上下文部署門檻。
深度分析
DeepSeek發表V4,主打可實際應用的百萬標記上下文:以壓縮稀疏與高度壓縮交錯注意力大幅減少KV快取與推論成本,並以DSec沙箱與DSML工具格式強化長時程代理訓練與工具呼叫,提升代理任務穩定性與競爭力。並在多項代理基準展現具競爭力成績
深度分析
研究發現RoPE在Transformer長上下文存在根本性限制。隨著上下文長度增加,RoPE對位置的偏好與對詞彙的排序會變得不可預測。理論證明位置反轉與詞彙反轉的機率逼近一半,位置或詞彙替換可能不改變注意力分數。實驗於多個大型模型與延展技巧下皆現象一致,顯示需開發全新位置編碼機制以因應長上下文需求。
深度分析
GoogleDeepMind推出的Gemma4系列多模態模型採Apache2開源授權,支援文字、影像與部分音訊,具長上下文與量化效能,已在多平台測試顯示31B版文字基準領先,預計提升本地端與邊緣AI部署易用性。此舉有望加速開源生態與嵌入式裝置的AI應用普及。
深度分析
背景:大型語言模型的KV快取會隨上下文線性膨脹,造成記憶體與延遲瓶頸。做法:TTKV模擬人類記憶,將近期KV留在HBM高精度,舊KV壓縮並移至DRAM,使用區塊化串流注意力重疊傳輸與計算。結果:在128K上下文實驗,交叉層流量降約5.94×,延遲與吞吐皆顯著改善。