深度分析 以強化學習驗證非推理式社會傳播:價值塑形促成模型式表示的傳遞 本研究以強化學習模擬檢視人類如何在不進行心智推理下,透過簡單社會線索從專家行為間接獲得高階環境表示。作者在一個可重組的格子世界中,比較兩類社會學習策略:決策偏向(policy-level imitation)與價值塑形(value shaping),並將其分別套用於模型式(model-based)與模型自由(model-free)學習者。