深度分析 Terminus-4B:以 Qwen3-4B 後訓練精調的 4B 子代理(SFT + GRPO)設計與效能評估 Terminus-4B 是為終端執行任務量身打造的 4B 參數微型語言模型,透過有監督精調(SFT)與基於評分者的強化學習(RL)訓練,擔任執行子代理以替主代理執行 build、測試與診斷流程。