SAS - Agents Report | 代理人報告

深度分析

離線強化學習部署易因資料分布偏移導致危險行為。研究提出SAS：測試時由預訓練transformer想像多條軌跡，依李雅普諾夫條件挑選安全片段回填為提示，無需參數更新即可對齊安全性；實驗顯示可降低成本與失敗率並保持回報。方法將提示視為對潛在高階技能的貝式推理。