深度分析 SafeAdapt:基於 Rashomon 集合的可證明安全政策更新方法 在安全關鍵任務中,強化學習代理人需在動態環境下更新政策,同時保證安全性。SafeAdapt 透過 Rashomon 集合,先驗限定政策參數空間,使任何更新投影後仍符合安全約束。實驗於 Frozen Lake 與 Poisoned Apple 環境證實,該方法在適應過程中保持安全,避免了正則化基線的安全遺忘。