multi-agent-benchmark - Agents Report

深度分析

研究提出一個長回合、多玩家的經濟博弈基準，將拍賣、暗盤交易、議價與虛張聲勢等機制整合為單一測試。實驗以成本優化語言模型對抗三種程式代理，結果顯示策略一致性與資源紀律比單項技能更關鍵，且兩款啟發式程式代理超越多數語言模型。此一基準亦能揭示模型常見失誤模式如過度出價與自我競標。