深度分析 貝式負獎勵提升 AI 代理人安全性:次線性後悔與導師覆蓋機制 研究聚焦於強化學習代理人在開放環境中可能採取的意外高獎勵策略,提出將獎勵範圍加入極大負值 -L 的貝式安全機制,並設計當預測值低於門檻時切換至安全導師的覆蓋機制。結果顯示代理人在次線性後悔下保持安全,且在任何可判定低複雜度謂詞被優化策略觸發前,導師已先觸發。