GRPO - Agents Report | 代理人報告 (Page 2)

深度分析

AdaMame‑GRPO：提升大型推理模型多語言一致性與 token 效率的雙階段訓練方法

大型推理模型在非英文查詢常出現語言崩潰。AdaMame 透過兩階段 SFT+RL，使用查詢條件對齊因子自適應調整語言，兼顧正確率與語言一致性。實驗顯示在 12 種語言上，同時提升答案正確率與語言忠實度，且降低 token 用量，此方法亦為未來多語言 AI 部署提供可行路徑。

深度分析

VISTA：視角一致自驗證訓練提升 GUI grounding 準確率

隨著介面自動化需求提升，GUI grounding需要更精準的點擊定位。VISTA以多視角目標保留裁切結合自驗證錨點，將同一畫面多樣化比較，提升群組獎勵變異。實驗顯示在ScreenSpot‑Pro上，Qwen3‑VL系列模型準確率提升逾7%。顯著提升實務效能。

深度分析

Hybrid Open‑Ended Tri‑Evolution (HOTE)：結合提問、解答與評分的深度研究框架

深度研究是AI向通用智慧邁進的關鍵，但傳統模型受限於固定參數與可驗證任務。研究者提出HybridOpen‑EndedTri‑Evolution(HOTE)框架，結合提問者、解答者與評分者三模組，採用工具與非工具雙模式強化學習，使模型在開放式長文研究任務中自我演化。實驗顯示8B模型經HOTE訓練後，在HealthBench、ResearchQA與DeepResearchBench等三大基準上超越8‑32B開源模型，且訓練時間僅為傳統方法的一半，證明此方法在效能與效率上具顯著優勢。

深度分析

低成本雲端控制台驗證：AliyunConsoleAgent 以蒸餾、GRPO 強化學習與 Terraform 實現高決定性

隨著雲端平台功能快速迭代，文件與實際介面常出現落差。AliyunConsoleAgent 透過蒸餾前沿模型軌跡與雙通道獎勵的強化學習，於真實雲端環境中自動驗證文件，達到63.5%成功率，同時將推論成本降低92%。此成果顯示開源模型在企業級雲端自動化驗證上具備可行性，並為降低成本與保護資料隱私提供新路徑。

深度分析

CAST：結合非特權剪枝與優勢翻轉的 GRPO 強化學習新方案

RLVR以稀疏結果獎勵提升大型語言模型推理，CAST引入非特權剪枝非對稱自教與優勢翻轉，利用答案自由自教師在令牌層調整優勢，並為全正/全錯群組賦予有界基礎優勢。實驗顯示在Qwen3系列模型上，CAST於相同預算提升Avg@16與Pass@16，證明正確性感知的令牌塑形可增強RLVR效能。

多代理強化學習

多代理強化學習框架 Hide-and-Shill：結合 GRPO 與資訊成本偵測 DeFi 操盤

去中心化金融崛起下社群話語能驅動代幣價格波動本研究提出Hide-and-Shill多代理強化學習框架模擬推手追隨者與偵測器以代幣價格變化為市場回報並納入注意力成本採用GRPO穩定稀疏獎勵學習提升協調性操盤偵測效能並對即時監管與市場透明度具實務意義

深度分析

EchoDistill：以逐詞級對齊與GRPO強化音訊大模型（ALLM）在噪聲下的語義魯棒性

EchoDistill提出一種對齊式的「從噪到淨」自蒸餾訓練框架，利用凍結的乾淨音訊教師為帶噪學生提供語義參考，並在訓練時讓學生在噪聲條件下展開多條候選生成軌跡。透過群體相對策略優化（GRPO）結合逐詞級的令牌對齊獎勵與音訊感知的獎勵塑形，EchoDistill鼓勵模型在雜訊下依據真實聲學證據做出推理，而非退回語言先驗。

深度分析

TRL v1.0：成為支援 PPO、DPO 與 GRPO 的穩定後訓練庫

Hugging Face 推出 TRL v1.0，將 75+ 後訓練方法整合於一套庫。採用最小抽象、局部實作的混沌適應設計，提供穩定與實驗雙層合約。此舉提升了在變動 AI 領域的可用性，並預計加速非同步 GRPO 與自動化警示功能的落地，進一步鞏固其在產業環境的影響力。

深度分析

TRL v1.0：Hugging Face 的通用後訓練庫，支援 SFT、DPO 與 GRPO 擴展

Hugging Face 發布 TRL v1.0，將多年研究代碼演化為穩定的後訓練（post-training）程式庫。TRL 集合超過七十五種後訓練方法，採用「穩定核心＋實驗層」並存的設計，透過刻意縮限抽象、偏好具體實作與可升級的實驗 API，降低下游破壞風險。

深度分析

CDL中介化：以MLLM Interpreter與LLM分工結合CoT與GRPO提升平面幾何推理

平面幾何題同時考驗視覺感知與嚴謹推理，傳統做法多以端到端微調多模態大模型（MLLM）來同時處理兩端，但容易犧牲基礎語言模型的推理能力。本文改寫的研究提出一條可解耦的路徑：先訓練一個 MLLM Interpreter 將圖形轉成結構化且精簡的條件宣告語言（CDL），再交由現成的 LLM 做符號化推理。

深度分析

Gradient Extrapolation（GXPO）：三次反向傳播下的優化器端多步展望政策優化

強化學習在可驗證回報的長文推理任務中扮演關鍵角色。GXPO在不新增回合或回報計算下，以兩次探測梯度與一次修正梯度、三次反向傳播模擬多步展望，藉由幾何外推調整政策更新方向，兼顧更新品質與計算成本。實驗在Qwen2.5與Llama上顯示精準度與收斂時間具改善。

深度分析

使用 LoRA 與 TRL 完成 Qwen2.5-0.5B‑Instruct 對齊：四階段實作詳解

本篇教學以輕量模型示範四種後訓練方法：監督微調、獎勵建模、直接偏好優化與群組相對策略，並透過LoRA在ColabT4上完成。結果顯示即使硬體受限，也能提升模型對數學推理與回應品質。同時比較了傳統參數放大與LoRA高效微調的成本差異，指出此路線可降低部署門檻，促進開源社群與企業快速驗證對齊策略。