概念抹除 - Agents Report

深度分析

使用向量場融合的 Mosaic 與 CoME-Bench：流基 T2I 的多概念抹除與評估

流基T2I模型能在單張影像中同時生成多概念，既有刪除方法難以處理此種組合場景；本文提出CoME-Bench與Mosaic，透過向量場差異的空間局部性，動態構建概念遮罩並選擇性融合基底與已刪除向量場，無需額外優化即可在同一生成流程中移除多個目標概念；實驗顯示在保持非目標內容下，Mosaic能顯著抑制目標概念。

速報

ConceptAgent：在黑盒下喚醒被抹除概念，揭露擴散模型語義控制的侷限

擴散模型廣泛用於文字轉圖，但概念抹除常只壓制未徹底移除。研究從去噪軌跡發現抹除破壞早期文字對齊但語義仍沿動態傳播，因模型後期仰賴噪聲狀態而出現繞過機會。提出ConceptAgent：免訓練黑盒多代理，透過替代導引噪聲起始喚醒被抹除概念，實驗證實在無參數與梯度存取下仍能準確可控喚醒。

深度分析

SPACE：透過交叉注意力稀疏化提升大型擴散模型的概念抹除

面對擴散模型在訓練資料中可能帶入的版權與露骨內容風險，本文提出SPACE，一種在交叉注意力權重上以封閉式迭代更新結合L1稀疏化的概念抹除方法，藉由將概念映射集中到低維重要參數子空間來移除目標概念。實驗指出此法在大型模型上改善抹除效能並大幅減少修改後權重的儲存需求。

深度分析

雙投影閉式概念抹除：零訓練線性轉換技術在 Stable Diffusion 的應用與效能

隨著生成式模型安全需求提升，研究者提出雙投影閉式概念抹除技術，利用兩步線性變換先投影目標概念再於左零空間施加受限變換，實現快速且理論可證的概念移除。實驗證明在多款 Stable Diffusion 與 FLUX 上表現媲美或優於現有方法，且更好保留非目標概念。