速報
PCGRLLM:用大型語言模型自動生成遊戲獎勵函數
研究指出遊戲中獎勵設計耗費大量專家知識。本文提出PCGRLLM架構,結合回饋機制與推理式提示工程,自動由故事生成獎勵函數。實驗在二維環境與多種提示法上跑測,表現大幅優於既有結構並接近人類水平。可望減少對人力依賴並助長創意流程。研究採用兩款先進大型語言模型驗證。
速報
研究指出遊戲中獎勵設計耗費大量專家知識。本文提出PCGRLLM架構,結合回饋機制與推理式提示工程,自動由故事生成獎勵函數。實驗在二維環境與多種提示法上跑測,表現大幅優於既有結構並接近人類水平。可望減少對人力依賴並助長創意流程。研究採用兩款先進大型語言模型驗證。
深度分析
研究聚焦視覺語言模型的物理推理能力,透過四種獎勵訊號比較其效能。結果顯示,以答案正確性為基礎的獎勵提升最大,且注意力權重獎勵在空間推理上有顯著改善,指出監督注意力是未來提升方向。