深度分析 SAS:以李雅普諾夫能量函數與 transformer 提示強化離線強化學習的測試時安全 離線強化學習部署易因資料分布偏移導致危險行為。研究提出SAS:測試時由預訓練transformer想像多條軌跡,依李雅普諾夫條件挑選安全片段回填為提示,無需參數更新即可對齊安全性;實驗顯示可降低成本與失敗率並保持回報。方法將提示視為對潛在高階技能的貝式推理。