Transformer Transformer 學習 Cubing:以 MCTS、SFT 與 DPO 強化 Cube-and-Conquer 的分割策略 SAT為關鍵且具挑戰性的問題。本文提出以transformer為基礎的神經符號後訓練框架,結合MCTS生成偏好資料與教師推理痕跡,採監督微調(SFT)再以直接偏好優化(DPO)精調。最終4B參數模型於100個競賽基準獲得pass@5=53,表現匹敵最佳符號啟發式。