深度分析
事件驅動步級級聯:降低電腦使用代理人推論成本並提升成功率
隨著電腦使用代理人能直接操作圖形介面推動軟體自動化,每步皆使用大型模型導致成本高。研究提出事件驅動的步級級聯,預設小模型,僅在監測器偵測到卡頓或語意漂移時升級至大型模型。實驗在OSWorld與WebArena顯示,成功率與大型模型相近,同時將大型模型使用率降低逾七成,顯著縮短執行時間與成本。
深度分析
隨著電腦使用代理人能直接操作圖形介面推動軟體自動化,每步皆使用大型模型導致成本高。研究提出事件驅動的步級級聯,預設小模型,僅在監測器偵測到卡頓或語意漂移時升級至大型模型。實驗在OSWorld與WebArena顯示,成功率與大型模型相近,同時將大型模型使用率降低逾七成,顯著縮短執行時間與成本。
深度分析
隨著大型模型在空間推理需求上升,研究者提出 SCBench 以階層任務測試模型的內部環境表徵與規劃能力。透過可驗證的執行輸出,三款前沿模型在能力層級上呈遞減趨勢,且低代幣預算即獲顯著提升,失敗多因全域約束違反。(原文未詳述)