速報 COSPLAY 技能學習長期決策大型語言模型

COSPLAY：讓大型語言模型從可學習技能庫發現、重用技能以強化長期遊戲決策

長期互動遊戲環境考驗代理人跨時步鏈式技能與延遲回饋決策。COSPLAY讓大型語言模型從可學習技能庫檢索並重用技能，技能管線自動萃取精煉技能與契約。實驗於六款遊戲顯示，使用8B基模型相較四個先進基線在單人遊戲上平均回報提升逾25.1%。且在多人社交推理類遊戲亦維持競爭力。

24 4月 2026 — 2 min read

COSPLAY：讓LLM在長期遊戲中建立技能庫並重用

長期互動環境要求代理人能跨多步驟串聯技能，並在延遲回饋與部分觀測下做出穩健決策。COSPLAY提出共同演化框架，由決策代理向一個可學習的技能庫檢索技能以引導行動；同時，由技能管線自動從代理未標註的執行紀錄中發掘、萃取並精煉可重用技能與其契約。

這種雙向流程使得決策代理能持續改善技能檢索與行動生成，技能庫也會隨著新發現持續更新與精化。作者在六款遊戲環境上進行實驗，結果指出以8B基模型為核心的COSPLAY，在單人遊戲基準相較四個先進LLM基線平均回報提升逾25.1%，在多人社交推理類遊戲亦維持競爭力。

研究顯示，系統化發現並重用技能可提升長期決策一致性，為以遊戲作為測試床的代理人技能學習提供實證依據。

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

GUI 代理人多數缺乏從經驗中學習的能力。CogniGUI 框架模仿人類雙系統思考，以 OmniParser 快速解析介面，並以 GRPO 強化學習評估多條操作路徑，選擇最有效率者。實驗顯示，該方法在接地與導航基準上均超越現有技術，建立從靜態操作邁向認知適應的新典範。

本研究提出「外觀指標」（Appearance Pointers），一種輕量且模態無關的機制，讓擴散變形金剛（DiTs）能精確理解並應用使用者指定區域的視覺或文字提示。透過區域對應網路與空間聚合模組，此方法可在不重新訓練基礎模型的前提下，同時處理多個區域描述，並支援影像與文字混合輸入。

一項針對多代理CI/CD管線的研究發現，權威框架注入攻擊能讓驗證者忽略明顯的惡意程式碼。即使系統提示未被洩漏，且管線內含多層驗證，攻擊者偽裝成預先批准的遙測功能仍可繞過所有內容檢查，最高導致55%的案例成功部署秘密竊取程式碼。研究指出，基於來源的防禦機制才是關鍵。

現有AI安全系統對隱藏仇恨內容的偵測幾近失效，準確率低於25%。研究提出Adaptive View Retrieval框架，將問題轉化為感知檢索，透過自適應選擇最佳視角，在HatefulIllusion資料集上達93.2%準確率，大幅超越現有方法。