深度分析 SOLAR-RL:以半線上軌跡回溯提升長時序 GUI 強化學習的步級信用歸因 面對多模態大型語言模型驅動的視覺化 GUI 代理,長時序、多步驟工作流的信用歸因與樣本效率是關鍵難題。SOLAR-RL 採取半線上策略:從靜態資料重建多樣化 rollout、以步級有效性檢測首個失敗點,並對有效前綴回溯分配密集獎勵,同時做目標對齊的回饋塑形,藉此在不進行實際互動下模擬線上反饋。