潛在 Q-Barrier 盾牌:為安全 in-context 強化學習加上行動層安全濾網
研究指出,僅靠預訓練的in-context強化學習在部署分佈外時,回報與安全常難兼顧。提出潛在Q-Barrier盾牌:部署前學情境表示、潛在動態與成本評估器;部署時無參數更新,依歷史與剩餘預算過濾或軟性重權動作。五項基準實驗顯示,盾牌能改善部署期的回報與安全權衡。
潛在 Q-Barrier 盾牌提升安全型 ICRL 部署表現
研究指出,傳統僅靠預訓練的 in-context 強化學習(ICRL)在面對部署時的分佈外變動,經常難以在回報與安全之間取得良好平衡。其原因之一是剩餘的安全預算只透過凍結的策略條件化影響行為,缺乏在行動層面對未來成本進行檢核的機制。
為此,作者提出一種「潛在 Q-Barrier 盾牌」。方法在部署前學習三部分:情境表示、潛在動態模型,以及一組成本評估器(ensemble cost critic)。在實際部署階段不進行參數更新,盾牌會從歷史互動推斷當前情境,並利用剩餘預算與對未來成本的預測,對候選動作做篩選或軟性重權,藉此阻擋或抑制可能導致超出成本限制的行為。
理論上,作者證明了一項條件化且具誤差分解的 barrier-margin 結果:若一個動作滿足 Q-Barrier 條件,則在學到的成本評估器下,它會使下一個潛在預算狀態維持近似的安全延續;誤差主要來源為 Bellman 誤差與潛在狀態預測誤差。
實驗方面,研究者在五項安全 ICRL 基準上比較盾牌與一個強大的安全 ICRL 基線。結果顯示,盾牌在短暫的情境窗口後於多數基準提升了部署期的回報,且在所有基準中匹配或降低了平均單集成本,整體改善了部署時的回報—安全權衡。
延伸閱讀
- PCAS:以依賴圖與 Datalog 宣告式政策實現確定性授權編譯器
- DIBA:以行為位移揭露 RLVR 下的成員推斷風險
- LaTeXpOsEd:以 LaTeX 源檔、模式比對與大型語言模型評估預印本的資安風險
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。