強化學習 - Agents Report

深度分析

研究針對文字生成影像模型的獎勵訊號不足問題提出解決方案。PromptEcho 透過凍結視覺語言模型計算影像與提示的 token 級交叉熵損失，無需人工標註或獎勵模型訓練，提供即時且高效的獎勵。實驗證明在多項基準測試中顯著提升模型的提示遵循能力，且獎勵品質隨 VLM 規模提升而提升。