COSPLAY:讓大型語言模型從可學習技能庫發現、重用技能以強化長期遊戲決策
長期互動遊戲環境考驗代理人跨時步鏈式技能與延遲回饋決策。COSPLAY讓大型語言模型從可學習技能庫檢索並重用技能,技能管線自動萃取精煉技能與契約。實驗於六款遊戲顯示,使用8B基模型相較四個先進基線在單人遊戲上平均回報提升逾25.1%。且在多人社交推理類遊戲亦維持競爭力。
COSPLAY:讓LLM在長期遊戲中建立技能庫並重用
長期互動環境要求代理人能跨多步驟串聯技能,並在延遲回饋與部分觀測下做出穩健決策。COSPLAY提出共同演化框架,由決策代理向一個可學習的技能庫檢索技能以引導行動;同時,由技能管線自動從代理未標註的執行紀錄中發掘、萃取並精煉可重用技能與其契約。
這種雙向流程使得決策代理能持續改善技能檢索與行動生成,技能庫也會隨著新發現持續更新與精化。作者在六款遊戲環境上進行實驗,結果指出以8B基模型為核心的COSPLAY,在單人遊戲基準相較四個先進LLM基線平均回報提升逾25.1%,在多人社交推理類遊戲亦維持競爭力。
研究顯示,系統化發現並重用技能可提升長期決策一致性,為以遊戲作為測試床的代理人技能學習提供實證依據。
延伸閱讀
- BiCICLe — 多代理提示學習(In-Context Learning)應用於雙臂協同規劃
- Vision-Language-Action (VLA) 驅動的機器人超音波自適應穿刺:Cross-Depth Fusion 與不確定性感知控制
- Triton Ragged Attention 與 pack–attend–unpack:在 ViT 上降低派遣延遲並實現裁剪加速
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。