深度分析 Mobile-R1:以任務層級獎勵與三階段訓練強化視覺語言模型驅動的行動代理 Mobile-R1 提出針對視覺語言模型(VLM)驅動的行動代理的互動式強化學習框架,核心在於以任務層級獎勵(task-level reward)取代僅靠單步動作回饋的做法。作者設計三階段訓練流程:格式微調、動作層級的單步 GRPO 線上訓練,以及基於多回合軌跡的任務層級 GRPO 訓練,強化探索與錯誤修正能力。