深度分析
CAST:結合非特權剪枝與優勢翻轉的 GRPO 強化學習新方案
RLVR以稀疏結果獎勵提升大型語言模型推理,CAST引入非特權剪枝非對稱自教與優勢翻轉,利用答案自由自教師在令牌層調整優勢,並為全正/全錯群組賦予有界基礎優勢。實驗顯示在Qwen3系列模型上,CAST於相同預算提升Avg@16與Pass@16,證明正確性感知的令牌塑形可增強RLVR效能。
深度分析
RLVR以稀疏結果獎勵提升大型語言模型推理,CAST引入非特權剪枝非對稱自教與優勢翻轉,利用答案自由自教師在令牌層調整優勢,並為全正/全錯群組賦予有界基礎優勢。實驗顯示在Qwen3系列模型上,CAST於相同預算提升Avg@16與Pass@16,證明正確性感知的令牌塑形可增強RLVR效能。
多代理強化學習
去中心化金融崛起下社群話語能驅動代幣價格波動本研究提出Hide-and-Shill多代理強化學習框架模擬推手追隨者與偵測器以代幣價格變化為市場回報並納入注意力成本採用GRPO穩定稀疏獎勵學習提升協調性操盤偵測效能並對即時監管與市場透明度具實務意義
深度分析
EchoDistill提出一種對齊式的「從噪到淨」自蒸餾訓練框架,利用凍結的乾淨音訊教師為帶噪學生提供語義參考,並在訓練時讓學生在噪聲條件下展開多條候選生成軌跡。透過群體相對策略優化(GRPO)結合逐詞級的令牌對齊獎勵與音訊感知的獎勵塑形,EchoDistill鼓勵模型在雜訊下依據真實聲學證據做出推理,而非退回語言先驗。
深度分析
Hugging Face 推出 TRL v1.0,將 75+ 後訓練方法整合於一套庫。採用最小抽象、局部實作的混沌適應設計,提供穩定與實驗雙層合約。此舉提升了在變動 AI 領域的可用性,並預計加速非同步 GRPO 與自動化警示功能的落地,進一步鞏固其在產業環境的影響力。
深度分析
Hugging Face 發布 TRL v1.0,將多年研究代碼演化為穩定的後訓練(post-training)程式庫。TRL 集合超過七十五種後訓練方法,採用「穩定核心+實驗層」並存的設計,透過刻意縮限抽象、偏好具體實作與可升級的實驗 API,降低下游破壞風險。
深度分析
平面幾何題同時考驗視覺感知與嚴謹推理,傳統做法多以端到端微調多模態大模型(MLLM)來同時處理兩端,但容易犧牲基礎語言模型的推理能力。本文改寫的研究提出一條可解耦的路徑:先訓練一個 MLLM Interpreter 將圖形轉成結構化且精簡的條件宣告語言(CDL),再交由現成的 LLM 做符號化推理。
深度分析
強化學習在可驗證回報的長文推理任務中扮演關鍵角色。GXPO在不新增回合或回報計算下,以兩次探測梯度與一次修正梯度、三次反向傳播模擬多步展望,藉由幾何外推調整政策更新方向,兼顧更新品質與計算成本。實驗在Qwen2.5與Llama上顯示精準度與收斂時間具改善。
深度分析
本篇教學以輕量模型示範四種後訓練方法:監督微調、獎勵建模、直接偏好優化與群組相對策略,並透過LoRA在ColabT4上完成。結果顯示即使硬體受限,也能提升模型對數學推理與回應品質。同時比較了傳統參數放大與LoRA高效微調的成本差異,指出此路線可降低部署門檻,促進開源社群與企業快速驗證對齊策略。
深度分析
Mobile-R1 提出針對視覺語言模型(VLM)驅動的行動代理的互動式強化學習框架,核心在於以任務層級獎勵(task-level reward)取代僅靠單步動作回饋的做法。作者設計三階段訓練流程:格式微調、動作層級的單步 GRPO 線上訓練,以及基於多回合軌跡的任務層級 GRPO 訓練,強化探索與錯誤修正能力。
深度分析
研究針對以Manim從文字生成程式化動畫的挑戰,提出ManimTrainer結合監督微調與GRPO強化學習,以及ManimAgent的Renderer-in-the-loop與文件輔助推理策略,實驗顯示兩階段訓練與代理式推理互補,能顯著提升渲染成功率與視覺相似度。
深度分析
本研究提出以多代理辯論式評審作為強化學習(RL)獎勵的框架,目標提升大型語言模型在科學構想生成上的新穎性與可行性。
深度分析
研究重新審視 SFT 後接 GRPO 的訓練流程,探討資料重疊率對 Lean 4 自動形式化的影響。實驗以 Qwen3‑8B 為基礎,分別測試 0%、30% 與 100% 重疊情境,結果顯示低重疊能提升編譯與語意正確率,0% 重疊時 GRPO 在 Gaokao 基準上較 SFT 提升 10.4 個百分點。完全重疊則使兩階段效益持平,凸顯資料分離的重要性。