深度分析 BBCritic 與 BBBench:以對比學習與度量學習重構 GUI 評分器 在以測試時計算檢索(Test-Time Scaling, TTS)為核心的通用 GUI 代理中,評分器(Critic)成為整體決策品質的瓶頸。論文提出 BBCritic,基於「功能等價」假說,採兩階段對比學習,將使用者指令與候選動作投射到共享的可供性(affordance)空間,回復動作有效性的階層結構並實現連續分數。