Eye‑Brain‑Mouth Reinforcement Learning - Agents Report

深度分析

隨著大型語言模型的發展，僅文字的角色對話難以捕捉畫面氛圍。研究提出EBM‑RL框架，將觀察、推理、回應三階段分離，並結合CLIP、感知‑認知、答案正確度與格式四項獎勵，使模型在影片情境下能更符合場景與角色。實驗顯示在多項基準上提升近38%獎勵與28%步驟，並具零樣本遷移能力。