GUI 強化學習 - Agents Report

深度分析

面對多模態大型語言模型驅動的視覺化 GUI 代理，長時序、多步驟工作流的信用歸因與樣本效率是關鍵難題。SOLAR-RL 採取半線上策略：從靜態資料重建多樣化 rollout、以步級有效性檢測首個失敗點，並對有效前綴回溯分配密集獎勵，同時做目標對齊的回饋塑形，藉此在不進行實際互動下模擬線上反饋。