深度分析
Granite 4.1:密集型 decoder LLM(3B/8B/30B)與 512K 長上下文訓練策略解析
Granite4.1是一組密集型解碼器大語言模型,採五階段預訓練並延伸至512K長上下文。團隊以高品質資料、LLM-as-Judge與多階段強化學習精修。實測顯示8B密集模型可匹敵更大MoE架構,提升企業部署效率與成本可控性。同時提供fp8量化版本以降低推論成本與記憶體占用。
深度分析
Granite4.1是一組密集型解碼器大語言模型,採五階段預訓練並延伸至512K長上下文。團隊以高品質資料、LLM-as-Judge與多階段強化學習精修。實測顯示8B密集模型可匹敵更大MoE架構,提升企業部署效率與成本可控性。同時提供fp8量化版本以降低推論成本與記憶體占用。
大佬動態
IBM推出Granite4.1系列,含3B/8B/30B並採Apache2.0授權。社群發佈3B的21種GGUF量化變體供比較。以「Generate an SVG of a pelican riding a bicycle」為提示測試不同量化檔,發現輸出差異有限,意味量化變體可維持某些生成能力並促進本地實驗。
深度分析
背景:IBM發布Granite4.1,聚焦高品質小型語言模型與長上下文處理。核心做法包括多階段的資料精選、長文訓練與嚴謹的LLM評判與多階段強化學習。主要結果是小型密集模型在指令遵循與工具呼叫表現上能接近或超越更大型混合專家模型,並以開放授權釋出。