SceneSplit:以分場景黑盒攻擊揭露Text-to-Video安全弱點
文字轉影片快速增長帶來安全風險。研究提出SceneSplit,將有害敘事拆成多個各自無害的場景,藉場景序列收窄生成空間並導向不安全結果。配合迭代場景操作與策略庫以繞過過濾器。評估在多款T2V模型上顯示攻擊成功率顯著提升。此結果提示現行安全機制需重新審視與改進。
SceneSplit揭示文字轉影片模型的新型繞過攻擊
研究指出,隨著文字轉影片技術快速擴散,現有安全機制可被敘事結構利用而失效。研究團隊提出SceneSplit,一種黑盒 jailbreak 方法,透過把有害敘事切分成多個表面無害的場景,利用這些場景的序列限制生成空間,將原本廣泛的安全輸出空間收窄到潛在不安全的區域,從而提高生成惡意影片的機率。
核心手法包含迭代場景操作以繞過過濾器,並維護一套可重用的策略庫以提升攻擊穩定度。作者在T2VSafetyBench的11個安全類別上測試,並報告SceneSplit在多款T2V模型上達到較既有基線明顯更高的Attack Success Rate。研究強調,防護不能只檢視單一場景輸出,必須把敘事結構與場景組合作為防禦設計考量,以彌補現行機制的結構性弱點。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。