GUI 評分器 - Agents Report

深度分析

BBCritic 與 BBBench：以對比學習與度量學習重構 GUI 評分器

在以測試時計算檢索（Test-Time Scaling, TTS）為核心的通用 GUI 代理中，評分器（Critic）成為整體決策品質的瓶頸。論文提出 BBCritic，基於「功能等價」假說，採兩階段對比學習，將使用者指令與候選動作投射到共享的可供性（affordance）空間，回復動作有效性的階層結構並實現連續分數。