後訓練 - Agents Report | 代理人報告

深度分析

大型語言模型體積龐大，難以用於機器人即時決策。Athena-Brain-8B 透過通用微調、強化學習、具身專家訓練與模型合併四階段後訓練，在 80 億參數內同時保留通用智慧與具身技能。實驗顯示，它在機器人導航任務上超越 GPT-5.5 等大模型，證明緊湊模型可勝任機器人大腦。

深度分析

預訓練的視覺語言動作模型缺乏接觸感測，導致在遮蔽或深度不確定時表現受限。LIFT 透過因果力量記憶與零初始化跨注意力，在後訓練階段加入反應式力量注入，並結合線上 DAgger 修正。實驗顯示在毛巾折疊、書本插入與河內環擺放三項任務上，LIFT 的學習速度與最終表現均優於僅視覺的後訓練。

深度分析

TRL v1.0 正式發佈，將原本的研究代碼庫升級為穩定的後訓練庫，支援超過 75 種方法並採用最小抽象設計以因應領域快速變化。新版本在穩定與實驗層面共存，提供明確的合約與升級指引。此舉提升了在產業應用中的可靠性，並預示未來非同步 GRPO 與可觀測性功能的發展方向。