影像偏好對齊 - Agents Report

深度分析

為解決影像生成模型偏好對齊的挑戰，研究者引入聆聽者回饋式強化學習框架，讓獨立視覺語言模型評估推理鏈的信心。此方法在 ImageReward 基準上取得 67.4% 的最高準確率，並在大型人類偏好資料集上提升最高 6%，同時減少推理矛盾，展示了可擴展的對齊路徑。