ConceptAgent:在黑盒下喚醒被抹除概念,揭露擴散模型語義控制的侷限

擴散模型廣泛用於文字轉圖,但概念抹除常只壓制未徹底移除。研究從去噪軌跡發現抹除破壞早期文字對齊但語義仍沿動態傳播,因模型後期仰賴噪聲狀態而出現繞過機會。提出ConceptAgent:免訓練黑盒多代理,透過替代導引噪聲起始喚醒被抹除概念,實驗證實在無參數與梯度存取下仍能準確可控喚醒。

概念代理喚醒被抹除概念

重點速讀

研究指出:即便概念被「抹除」,擴散模型仍可能被喚醒。新方法ConceptAgent在黑盒條件下示範如何恢復被抹除概念,挑戰現有抹除策略的有效性。

研究要點

過去多採白盒優化或反演方法進行概念抹除,但作者從去噪軌跡觀察,發現抹除主要破壞生成早期的文字—語義對齊,卻未能完全阻止語義訊息沿著去噪動態繼續傳播。隨生成進行,模型對逐步演化的噪聲狀態依賴增加,這使得原本被抹除的映射有被繞過的可能。

方法與發現

為了驗證這一動態現象,提出ConceptAgent:一個免訓練、黑盒且多代理的框架,藉由從替代導引的噪聲起始值初始化去噪軌跡,喚醒原先被抹除的概念。該方法不需存取模型參數、梯度或內部表示,實驗結果顯示在黑盒條件下能夠準確且可控地恢復被抹除的語義。

意義

研究結果提醒:僅靠現有抹除技術難以達到根本隔離,語義控制是個動態過程,應將去噪軌跡與噪聲狀態納入考量以設計更強韌的防護。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more