Reinforcement Learning - Agents Report

深度分析

DADiff：以擴散模型量化生成軌跡偏差，突破強化學習Sim-to-Real動力學不匹配

強化學習在實作時常面臨模擬環境與現實世界動力學不匹配的挑戰。研究提出 DADiff 框架，將狀態轉移視為生成過程，利用擴散模型的生成軌跡偏差來量化域間差異，並透過修正獎勵函數或篩選數據來優化策略。實驗結果顯示，該方法在處理隨機動力學環境時性能優於現有方案，有效提升了策略的跨域適配能力。

深度分析

vLLM V0 升級 V1 實錄：在強化學習 RL 中，「正確性」優先於「補正」

ServiceNow-AI 團隊在將推論引擎從 vLLM V0 升級至 V1 時，發現強化學習訓練指標出現異常偏離。團隊透過修正 logprob 語義、調整運行時預設值、同步權重更新路徑，並將最終投影層設為 fp32 精度，成功將 V1 訓練曲線與 V0 基准對齊。此舉證明在 RL 遷移過程中，確保推論後端行為的一致性比單純在目標函數中加入補正項更為關鍵。

Infographic for ARKD knowledge distillation, illustrating adaptive bidirectional KL divergence balancing with reinforcement learning to optimize large language model compression.

深度分析

「ARKD」結合強化學習與雙向 KL 散度提升 LLM 知識蒸餾品質

大型語言模型壓縮面臨知識蒸餾中分布擬合與泛化能力的權衡挑戰。研究團隊提出 ARKD 框架，利用強化學習驅動的策略網路，根據教師與學生模型的分布特徵動態調整前向與反向 KL 散度的權重，實現主模式與長尾分佈的雙重對齊。實驗證明 ARKD 在多個基準測試中均優於傳統靜態方法，顯著提升了小型模型的生成品質與跨領域泛化表現。

深度分析

Audio‑Side Time Prompt 與 TimePro‑RL：提升大型音訊語言模型的細粒度時間感知

大型音訊語言模型在時間感知上仍有挑戰。研究者以時間戳嵌入作為音訊側提示，並結合強化學習形成 TimePro‑RL 框架。實驗證實，此技術在音訊定位、聲事件偵測與密集說明等任務上顯著提升效能。

深度分析

T-STAR 框架：將推理路徑轉化為認知樹，解決 AI 代理人獎勵稀疏問題

針對 AI 代理人在複雜推理中面臨的獎勵稀疏挑戰，T-STAR 框架提出將推理路徑由「鏈」轉化為「樹」，透過認知樹結構與手術式策略優化，精確定位關鍵錯誤並修正推理行為，顯著提升 LLM 在多輪對話與長鏈推理任務中的表現。