提示投影 - Agents Report

深度分析

文本到影像擴散模型普及後，開放式提示也引發不當生成風險。作者提出推理端的提示投影：用大語言模型產生最小改寫、再以視覺語言模型驗證，選擇性將高風險提示映射到容差控制的安全集合，無需重訓生成器。實驗顯示較模型層對齊能有效降低不當生成率，同時保留良性提示的對齊表現。