MobiBench:模組化多路徑離線基準為行動 GUI 代理帶來可重現性

行動 GUI 代理可在使用者與手機應用間代操作,但現有評測分為單一路徑離線資料與動態線上測試,各有誤判或不可複現的問題。MobiBench提出首個模組化且具多路徑感知的離線評測框架,能在靜態環境中實現高擬真、可擴展與可重複的評估。

多路徑離線基準 行動代理 MobiBench

MobiBench帶來的變革:離線也能做高擬真評測

MobiBench提出一套模組化、支援多路徑的離線評測框架,專為行動 GUI 代理設計。開頭就點出兩個痛點:傳統離線單一路徑資料容易把合理替代動作當成錯誤;而線上實測雖能容納多樣行為,卻在可擴展性與可重複性上吃虧。

方法與驗證

MobiBench透過模組化設計,把代理拆成可獨立評估的子模組,並以多條操作路徑來接納不同合理解法,於離線環境還原高擬真的互動情境。作者的實驗指出,MobiBench在評估結果上與人工評估達到高度一致性(報告中呈現的比率接近線上精心設計的測試),同時保留離線基準的可擴展與可重複優勢。

發現與實務建議

模組層級的系統性分析揭露多項見解:比較多種技術手法的效能差異、不同模型規模下的模組配置取捨、以及目前大型語言模型在此任務上的內在限制。根據這些觀察,研究提出可操作的設計指引,幫助開發者在能力與成本間找到平衡,提升行動代理的實用性。

總結來看,MobiBench把評測從單一路徑或難以複現的線上實驗,帶到一個既可接受多元解法又能離線重複執行的新框架,有助於推動行動 GUI 代理的可比較性與可持續優化。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more