VQA - Agents Report | 代理人報告

深度分析

隨著視覺語言模型在視覺問答上表現提升，多代理協作被提出。研究提出 EAGLE 框架，透過顯示證據對齊與視覺根據驗證，提升六項基準的整體正確率，展示以影像證據為基礎的多代理一致性可大幅提升可靠性。此外，EAGLE 免除額外訓練成本，具備可解釋性，於高解析度與複雜空間推理任務中領先現有方案。