Mobile-R1 - Agents Report | 代理人報告

深度分析

Mobile-R1：以任務層級獎勵與三階段訓練強化視覺語言模型驅動的行動代理

Mobile-R1 提出針對視覺語言模型（VLM）驅動的行動代理的互動式強化學習框架，核心在於以任務層級獎勵（task-level reward）取代僅靠單步動作回饋的做法。作者設計三階段訓練流程：格式微調、動作層級的單步 GRPO 線上訓練，以及基於多回合軌跡的任務層級 GRPO 訓練，強化探索與錯誤修正能力。