監督微調 SFT - Agents Report

深度分析

逐部份向量素描：結合 VLM 自動標註與 SFT + 多回合 GRPO 訓練的代理人

這項研究提出一套可逐部份生成向量素描的技術流程：先用一個通用的自動化標註管線，把向量素描拆解成語意部件並完成路徑到部件的對應，產出 ControlSketch-Part 資料集；再以 SFT（監督微調）初始化單回合繪製策略，後接創新的多回合過程回饋 GRPO 強化學習，使代理人在每回合根據目前畫布與下一部件描述生成對應向量路徑。

Granite 4.1 技術解析：五階段預訓練、長上下文與分階段強化學習

逐部份向量素描：結合 VLM 自動標註與 SFT + 多回合 GRPO 訓練的代理人