深度分析 Granite 4.1:密集型 decoder LLM(3B/8B/30B)與 512K 長上下文訓練策略解析 Granite4.1是一組密集型解碼器大語言模型,採五階段預訓練並延伸至512K長上下文。團隊以高品質資料、LLM-as-Judge與多階段強化學習精修。實測顯示8B密集模型可匹敵更大MoE架構,提升企業部署效率與成本可控性。同時提供fp8量化版本以降低推論成本與記憶體占用。