PCGRLLM:用大型語言模型自動生成遊戲獎勵函數
研究指出遊戲中獎勵設計耗費大量專家知識。本文提出PCGRLLM架構,結合回饋機制與推理式提示工程,自動由故事生成獎勵函數。實驗在二維環境與多種提示法上跑測,表現大幅優於既有結構並接近人類水平。可望減少對人力依賴並助長創意流程。研究採用兩款先進大型語言模型驗證。
PCGRLLM:把獎勵設計交給語言模型
獎勵設計是遊戲 AI 訓練的關鍵,卻常仰賴大量領域專家與人力。新提出的 PCGRLLM 架構採取回饋機制與推理式提示工程,嘗試讓大型語言模型從劇情或內容直接生成可用的獎勵函數,降低人工作業負擔。
研究在一個二維環境中進行故事到獎勵的生成任務,使用兩款先進的 LLM 並測試多種推理式提示方法。作者比較了擴充後的架構與既有結構,評估模型在生成獎勵函數上的適用性與品質。
實驗結果顯示 PCGRLLM 相較於先前結構有顯著提升,整體表現可達接近人類的水準。研究強調回饋回圈與推理式提示在內容生成任務中的重要性,並指出此方向能減少對人力的依賴,同時支援並擴展創意流程,對遊戲 AI 開發具有實務應用潛力。
延伸閱讀
- AADvark:以 FreeCAD、JSON 與四元數求解器實現可動組裝的代理式 CAD
- 主動推理與 empowerment:以量化指標界定 AI 的代理性
- 深度強化學習下的持久子網路:四足機器人中自我類表徵的形成與可重用性
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。