Turbo 模型 - Agents Report

深度分析

隨著文字生成圖像模型追求更高語意對齊，生成多樣性卻日益受限。研究提出在 DiffusionTransformer的多模態注意力通道中即時施加情境空間排斥，於結構已形成但構圖未定前引導生成路徑。實驗顯示此法可在不犧牲影像品質與語意符合度的前提下，顯著提升輸出多樣性，且計算開銷極低。