深度分析 PromptEcho:以凍結 VLM 的逐詞交叉熵作為 RL 獎勵,提升 T2I 提示遵從 文本到影像生成仍難確保圖像和提示精準對應;PromptEcho利用凍結視覺語言模型的逐字交叉熵,直接擷取預訓練中編碼的圖文對齊知識,無需人工標註或額外訓練,可改善屬性綁定、空間關係與計數等細節;在DenseAlignBench與多項基準顯著提升提示遵從度。