速報 COSPLAY:讓大型語言模型從可學習技能庫發現、重用技能以強化長期遊戲決策 長期互動遊戲環境考驗代理人跨時步鏈式技能與延遲回饋決策。COSPLAY讓大型語言模型從可學習技能庫檢索並重用技能,技能管線自動萃取精煉技能與契約。實驗於六款遊戲顯示,使用8B基模型相較四個先進基線在單人遊戲上平均回報提升逾25.1%。且在多人社交推理類遊戲亦維持競爭力。