Cube-and-Conquer - Agents Report

Transformer

SAT為關鍵且具挑戰性的問題。本文提出以transformer為基礎的神經符號後訓練框架，結合MCTS生成偏好資料與教師推理痕跡，採監督微調(SFT)再以直接偏好優化(DPO)精調。最終4B參數模型於100個競賽基準獲得pass@5=53，表現匹敵最佳符號啟發式。