深度分析 推理端提示投影:以總變差理論在不改動生成器下實現文本到影像擴散模型的安全對齊 文本到影像擴散模型普及後,開放式提示也引發不當生成風險。作者提出推理端的提示投影:用大語言模型產生最小改寫、再以視覺語言模型驗證,選擇性將高風險提示映射到容差控制的安全集合,無需重訓生成器。實驗顯示較模型層對齊能有效降低不當生成率,同時保留良性提示的對齊表現。