深度分析 MarketBench:以市場化競標評估 LLM 的自我預測與成本估算 在軟體工程任務中,MarketBench讓AI代理人先預測成功機率與代幣使用量,再以市場競標方式分配工作,實驗顯示模型自我評估普遍偏差,影響拍賣結果與成本效益。此測試以93個SWE‑benchLite任務與六種最新大型語言模型驗證,結果顯示平均成功率預測誤差超過20%,代幣使用預測誤差亦高於30%。