速報 MobiBench:模組化多路徑離線基準為行動 GUI 代理帶來可重現性 行動 GUI 代理可在使用者與手機應用間代操作,但現有評測分為單一路徑離線資料與動態線上測試,各有誤判或不可複現的問題。MobiBench提出首個模組化且具多路徑感知的離線評測框架,能在靜態環境中實現高擬真、可擴展與可重複的評估。