深度分析
Granite 4.1 技術解析:五階段預訓練、長上下文與分階段強化學習
背景:IBM發布Granite4.1,聚焦高品質小型語言模型與長上下文處理。核心做法包括多階段的資料精選、長文訓練與嚴謹的LLM評判與多階段強化學習。主要結果是小型密集模型在指令遵循與工具呼叫表現上能接近或超越更大型混合專家模型,並以開放授權釋出。
深度分析
背景:IBM發布Granite4.1,聚焦高品質小型語言模型與長上下文處理。核心做法包括多階段的資料精選、長文訓練與嚴謹的LLM評判與多階段強化學習。主要結果是小型密集模型在指令遵循與工具呼叫表現上能接近或超越更大型混合專家模型,並以開放授權釋出。
深度分析
這項研究提出一套可逐部份生成向量素描的技術流程:先用一個通用的自動化標註管線,把向量素描拆解成語意部件並完成路徑到部件的對應,產出 ControlSketch-Part 資料集;再以 SFT(監督微調)初始化單回合繪製策略,後接創新的多回合過程回饋 GRPO 強化學習,使代理人在每回合根據目前畫布與下一部件描述生成對應向量路徑。