SFT - Agents Report | 代理人報告

深度分析

突破英文中心主義：Qwen3.5-27B 透過 SFT 與 GRPO 實現土耳其語原生推理

針對多語言 AI 常以英文思考再翻譯成目標語言的問題，TÜDÜM 專案利用 Qwen3.5-27B 建立土耳其語推理管線。該方案先透過 LoRA 進行監督式微調以強制思考路徑土耳其語化，隨後導入 GRPO 強化學習優化數學表現。實驗發現 SFT 能有效將思考過程轉為土耳其語，雖導致整體準確率下降，但 RL 可部分恢復數學能力。

深度分析

使 SFT 成為良好 RL 初始化：PEAR 的分布校正與 token/區塊/序列重權策略

此研究指出，單純追求監督式微調（SFT）離線成績，未必能帶來線上強化學習（RL）階段的最終提升。

深度分析

ACE：以對抗單元測試與偏好優化驅動的自我演化程式碼生成框架

面對標註資料成本與驗證覆蓋限制，ACE提出一套以執行為中心的自我演化機制：同一大型語言模型交替扮演解題器與對抗器，對抗器不產生期望輸出，而是生成能誘發運行時錯誤或例外的單元測試輸入；以執行結果建構布林矩陣，挑選穩健解答作為監督資料，並以偏好優化強化對抗器。

深度分析

CoT-Guard：以 4B 小型模型監控推理鏈與程式碼，強化供應鏈偵測

供應鏈攻擊與第三方路由器可能在使用者請求中植入隱藏目標，CoT-Guard提出以四十億參數等級的小型監控模型，透過監督式微調蒐集強監控示例，並以專門設計的強化學習在難樣本上提升泛化能力。該方法能同時分析推理鏈與生成程式碼，對提示操控與程式碼注入具更高偵測率，提供一種低成本的使用者端防護方案。

深度分析

SFT‑GRPO 資料重疊對後訓練超參數的影響：深度實驗與結果分析

研究重新審視 SFT 後接 GRPO 的訓練流程，探討資料重疊率對 Lean 4 自動形式化的影響。實驗以 Qwen3‑8B 為基礎，分別測試 0%、30% 與 100% 重疊情境，結果顯示低重疊能提升編譯與語意正確率，0% 重疊時 GRPO 在 Gaokao 基準上較 SFT 提升 10.4 個百分點。完全重疊則使兩階段效益持平，凸顯資料分離的重要性。

深度分析

TRL v1.0 正式上線：支援超過 75 種後訓練方法的穩定庫

TRL v1.0 正式發佈，將原本的研究代碼庫升級為穩定的後訓練庫，支援超過 75 種方法並採用最小抽象設計以因應領域快速變化。新版本在穩定與實驗層面共存，提供明確的合約與升級指引。此舉提升了在產業應用中的可靠性，並預示未來非同步 GRPO 與可觀測性功能的發展方向。