DFA - Agents Report | 代理人報告

深度分析

神經符號結合 LTLf 與 DFA：提升離線 Transformer 強化學習的安全與規範遵循

離線強化學習在安全關鍵領域常缺乏即時修正機制，研究提出將LTLf公式編譯成確定性有限自動機，透過可微分滿足信號作為正則化，注入至TrajectoryTransformer與DecisionTransformer等自回歸模型。實驗在ColourBomb網格環境驗證，策略在保留競爭性回報的同時，大幅提升安全與達成目標的約束滿足率，展現神經符號結合於離線RL的可行性。