深度分析 使用 SSMA 與 ACLOO 的 Android Coach:提升線上 GUI 強化學習訓練效率 面對Android代理線上訓練模擬器延遲與樣本不足,AndroidCoach提出SingleStateMultipleActions(單狀態多動作)範式。以線上訓練的critic估算多個動作長期價值,並結合流程獎勵與留一式優勢估計穩定更新。實驗顯示成功率與訓練效率均有提升。