深度分析
雙教師自蒸餾(SelfCI):透過反向 KL 與 PoE 平衡隱私與效用
隨著大型語言模型被當作個人助理運行在敏感資料上,情境完整性(Contextual Integrity, CI)成為衡量 disclosure 適當性的關鍵指標。
深度分析
隨著大型語言模型被當作個人助理運行在敏感資料上,情境完整性(Contextual Integrity, CI)成為衡量 disclosure 適當性的關鍵指標。
深度分析
離線強化學習在部署時常遇到目標變更且策略不可重訓的情況。本研究以Product-of-Experts把已凍結演員與目標先驗精確合成,並證明在對角高斯下等價於一個帶KL正則化的閉式更新。實驗指出PoE/KL-Reg在先驗退化時能溫和退化並維持演員行為,成為一層以演員為錨的安全調整。