強化學習 - Agents Report

深度分析

研究把遊戲自我對弈當作訓練場域，指出終局勝負信號不足以區分遷移性推理與遊戲技巧。Stratagem以φ（可遷移係數）與ψ（推理演化獎勵）在軌跡層級調制優勢，選擇性強化抽象且逐步演化的推理模式。實驗在數學、通用推理與程式生成上皆有一致性提升，特別在多步推理題型上改善明顯。