深度分析 PromptEcho:利用凍結視覺語言模型的交叉熵獎勵提升文字生成影像的強化學習效能 研究針對文字生成影像模型的獎勵訊號不足問題提出解決方案。PromptEcho 透過凍結視覺語言模型計算影像與提示的 token 級交叉熵損失,無需人工標註或獎勵模型訓練,提供即時且高效的獎勵。實驗證明在多項基準測試中顯著提升模型的提示遵循能力,且獎勵品質隨 VLM 規模提升而提升。