AI 代理人 - Agents Report

深度分析

MarketBench：以市場化競標評估 LLM 的自我預測與成本估算

在軟體工程任務中，MarketBench讓AI代理人先預測成功機率與代幣使用量，再以市場競標方式分配工作，實驗顯示模型自我評估普遍偏差，影響拍賣結果與成本效益。此測試以93個SWE‑benchLite任務與六種最新大型語言模型驗證，結果顯示平均成功率預測誤差超過20%，代幣使用預測誤差亦高於30%。