逐詞交叉熵獎勵 - Agents Report

深度分析

文本到影像生成仍難確保圖像和提示精準對應；PromptEcho利用凍結視覺語言模型的逐字交叉熵，直接擷取預訓練中編碼的圖文對齊知識，無需人工標註或額外訓練，可改善屬性綁定、空間關係與計數等細節；在DenseAlignBench與多項基準顯著提升提示遵從度。