深度分析 神經符號結合 LTLf 與 DFA:提升離線 Transformer 強化學習的安全與規範遵循 離線強化學習在安全關鍵領域常缺乏即時修正機制,研究提出將LTLf公式編譯成確定性有限自動機,透過可微分滿足信號作為正則化,注入至TrajectoryTransformer與DecisionTransformer等自回歸模型。實驗在ColourBomb網格環境驗證,策略在保留競爭性回報的同時,大幅提升安全與達成目標的約束滿足率,展現神經符號結合於離線RL的可行性。