深度分析 聆聽者增強 GRPO 提升影像偏好對齊的視覺語言模型準確性 為解決影像生成模型偏好對齊的挑戰,研究者引入聆聽者回饋式強化學習框架,讓獨立視覺語言模型評估推理鏈的信心。此方法在 ImageReward 基準上取得 67.4% 的最高準確率,並在大型人類偏好資料集上提升最高 6%,同時減少推理矛盾,展示了可擴展的對齊路徑。