長上下文訓練 - Agents Report

深度分析

Granite4.1是一組密集型解碼器大語言模型，採五階段預訓練並延伸至512K長上下文。團隊以高品質資料、LLM-as-Judge與多階段強化學習精修。實測顯示8B密集模型可匹敵更大MoE架構，提升企業部署效率與成本可控性。同時提供fp8量化版本以降低推論成本與記憶體占用。

深度分析

背景：IBM發布Granite4.1，聚焦高品質小型語言模型與長上下文處理。核心做法包括多階段的資料精選、長文訓練與嚴謹的LLM評判與多階段強化學習。主要結果是小型密集模型在指令遵循與工具呼叫表現上能接近或超越更大型混合專家模型，並以開放授權釋出。

深度分析

隨著模型需處理長序列，Ulysses 序列平行化透過把注意力頭分散到多卡並使用 all‑to‑all 通訊，解決了二次方記憶體瓶頸。實驗在 4 張 H100 上將序列長度提升至 96K，記憶體降低 3.3 倍，吞吐量提升 3.7 倍，為長上下文 AI 訓練開闢新可能。