社會學習 - Agents Report

深度分析

以強化學習驗證非推理式社會傳播：價值塑形促成模型式表示的傳遞

本研究以強化學習模擬檢視人類如何在不進行心智推理下，透過簡單社會線索從專家行為間接獲得高階環境表示。作者在一個可重組的格子世界中，比較兩類社會學習策略：決策偏向（policy-level imitation）與價值塑形（value shaping），並將其分別套用於模型式（model-based）與模型自由（model-free）學習者。