深度分析 Cattle Trade 多代理基準:用拍賣、虛張聲勢與資源限制檢測 LLM 策略推理 研究提出一個長回合、多玩家的經濟博弈基準,將拍賣、暗盤交易、議價與虛張聲勢等機制整合為單一測試。實驗以成本優化語言模型對抗三種程式代理,結果顯示策略一致性與資源紀律比單項技能更關鍵,且兩款啟發式程式代理超越多數語言模型。此一基準亦能揭示模型常見失誤模式如過度出價與自我競標。