分割文字條件 - Agents Report

深度分析

隨著文字生成影像模型普及，完整敘述常導致語意混淆。DiT‑ST 透過大型語言模型將說明拆解為分割句，並在去噪階段分層注入，提升語意原語表徵學習。實驗顯示此框架有效減輕 DiT 的完整文字理解缺陷，對模型效能與訓練成本產生正面影響。