深度分析 Stratagem:以軌跡調制強化學習促進可遷移推理 研究把遊戲自我對弈當作訓練場域,指出終局勝負信號不足以區分遷移性推理與遊戲技巧。Stratagem以φ(可遷移係數)與ψ(推理演化獎勵)在軌跡層級調制優勢,選擇性強化抽象且逐步演化的推理模式。實驗在數學、通用推理與程式生成上皆有一致性提升,特別在多步推理題型上改善明顯。