長上下文 - Agents Report

深度分析

「Gemma 4」多模態語言模型：思考模式與長上下文效能新突破

Gemma 4 為新一代開源多模態語言模型，提供2.3B至31B參數的密集與MoE版本，加入思考模式與統一無編碼器架構，提升推論速度、記憶體與長上下文效能，並採用KV快取共享、p‑RoPE位置編碼與多代幣推測抽稿頭以降低資源需求。實驗顯示在STEM、視訊與長文檔測試上與更大模型相當。

深度分析

Gemma 4 多模態模型：開源、長上下文與邊緣部署的技術突破

Google DeepMind於2026年4月在Hugging Face釋出Gemma 4多模態模型，支援文字、影像與音訊輸入，採Apache 2授權，可在本機與邊緣設備上部署，展現長上下文與量化效能的平衡，預期將推動開發者生態與私密AI應用。

深度分析

HRM 適配器：利用 Hankel 降階模型提升長上下文參數高效微調效能

本研究針對需要累積序列狀態的長上下文任務，提出一種基於 Hankel 降階模型的 HRM（Hankel Reduced-order Model）適配器。HRM 以平衡截斷方式初始化 SSM 殘差模組，利用系統矩陣的時間不變性實現 FFT 並行掃描，計算成本與 LoRA 相當。

深度分析

突破長上下文瓶頸：StreamKL 讓注意力蒸餾在單卡上實時完成

注意力蒸餾在知識蒸餾、模型壓縮與持續學習等場景中扮演關鍵角色，但傳統做法會在 GPU HBM 中產生 N_Q×N_K 的二次記憶體與 IO 負擔，限制了長上下文的應用。

深度分析

GLM-5.2 突破 1 百萬 Token 長上下文與 IndexShare 開源技術解析

中國AI初創Z.ai推出GLM-5.2，大幅提升1百萬token長上下文效能，採IndexShare降低FLOPs，開放MIT授權，於長程編碼基準接近封閉模型表現。同時提供思考努力層級調整，兼顧效能與成本，或許改寫開源代理生態格局。此舉也可能促使商業雲服務調整價格結構。

深度分析

NVIDIA Nemotron 3 Nano Omni：支援長上下文與全域多模態的開放式 AI 引擎

NVIDIA於2026年4月發布Nemotron3NanoOmni，多模態模型支援文字、影像、影片與音訊，同時處理長文件與跨媒體推理，測試顯示在文件、視訊與語音基準上均領先，預示企業AI應用將更具效率與安全性。該模型在多模態推理上達到最高9倍吞吐量提升，且支援8GB以上GPU實時部署。

深度分析

RoVE：在 Transformer 中引入相對位置感的值向量注意力卷積

Rotary Position Embeddings（RoPE）讓注意力分數具相對位置感，但值通道保持位置盲點。研究提出RoVE，於值向量同步旋轉，將注意力轉為相對位置感的卷積。實驗在GPT‑2 124M與354M模型上提升少樣本學習、長上下文檢索與OOD perplexity，與YaRN結合更顯效益。

深度分析

動態稀疏排程提升大型語言模型長上下文強化學習效能

在強化學習中，驗證式獎勵導致極長的思考鏈，使訓練成本高企。研究提出動態稀疏排程，透過控制稀疏與密集策略的尾部不匹配，實現2倍以上生成加速，同時保持穩定性。此方法在多尺寸Qwen3模型及程式碼任務上皆驗證有效。動態稀疏排程根據生成長度調整KV預算，確保每個代幣的低位不匹配保持在安全門檻以上。

深度分析

長上下文基準升級：1f4af‑LongBench 與 LongScore 助力 LLM 128k token 評測

隨著LLM長上下文需求提升，既有基準多採固定長度且未分離基礎能力，導致評估不精準。研究提出可控長度的1f4af‑LongBench與新指標LongScore，成功將模型基礎表現與長上下文能力分離，重新排列模型排名。此舉預示未來評估將更聚焦於真實長文本處理能力。

深度分析

WaveFilter：利用離散小波轉換提升擴散模型長上下文 KV 快取效能

WaveFilter以小波轉換改良擴散語言模型的KV快取，結合粗粒度語意概覽與多尺度遞迴篩選，顯著降低長序列計算成本，同時提升生成品質與效能，為長上下文任務提供更實用的解決方案。結合Fast‑dLLM後，WaveFilter在LongBench基準提升2%準確率，且吞吐量近，降低長上下文部署門檻。

深度分析

DeepSeek‑V4 的交錯壓縮注意力（CSA/HCA）：將百萬標記長上下文變為可用資源

DeepSeek發表V4，主打可實際應用的百萬標記上下文：以壓縮稀疏與高度壓縮交錯注意力大幅減少KV快取與推論成本，並以DSec沙箱與DSML工具格式強化長時程代理訓練與工具呼叫，提升代理任務穩定性與競爭力。並在多項代理基準展現具競爭力成績

深度分析

RoPE 在極長上下文下的失效：位置與詞彙辨識的理論與實驗證據

研究發現RoPE在Transformer長上下文存在根本性限制。隨著上下文長度增加，RoPE對位置的偏好與對詞彙的排序會變得不可預測。理論證明位置反轉與詞彙反轉的機率逼近一半，位置或詞彙替換可能不改變注意力分數。實驗於多個大型模型與延展技巧下皆現象一致，顯示需開發全新位置編碼機制以因應長上下文需求。

「Gemma 4」多模態語言模型：思考模式與長上下文效能新突破

Gemma 4 多模態模型：開源、長上下文與邊緣部署的技術突破

HRM 適配器：利用 Hankel 降階模型提升長上下文參數高效微調效能

突破長上下文瓶頸：StreamKL 讓注意力蒸餾在單卡上實時完成

GLM-5.2 突破 1 百萬 Token 長上下文與 IndexShare 開源技術解析

NVIDIA Nemotron 3 Nano Omni：支援長上下文與全域多模態的開放式 AI 引擎

RoVE：在 Transformer 中引入相對位置感的值向量注意力卷積

動態稀疏排程提升大型語言模型長上下文強化學習效能

長上下文基準升級：1f4af‑LongBench 與 LongScore 助力 LLM 128k token 評測

WaveFilter：利用離散小波轉換提升擴散模型長上下文 KV 快取效能

DeepSeek‑V4 的交錯壓縮注意力（CSA/HCA）：將百萬標記長上下文變為可用資源

RoPE 在極長上下文下的失效：位置與詞彙辨識的理論與實驗證據

Gemma 4 多模態模型：開源、長上下文與邊緣部署的技術突破