深度分析 DiT‑ST:分割文字條件提升文字生成影像擴散模型效能 隨著文字生成影像模型普及,完整敘述常導致語意混淆。DiT‑ST 透過大型語言模型將說明拆解為分割句,並在去噪階段分層注入,提升語意原語表徵學習。實驗顯示此框架有效減輕 DiT 的完整文字理解缺陷,對模型效能與訓練成本產生正面影響。