InterChart:揭露視覺語言模型在多圖表推理的弱點

視覺語言模型在多圖表推理場景面臨挑戰。InterChart提出針對2–3張相關圖表的診斷基準,題型涵蓋實體推斷、趨勢關聯與數值估計。基準分三級從單圖事實到跨圖語義推斷。評測顯示模型隨圖表複雜度上升而顯著退步。該工作揭示跨圖整合為系統性瓶頸,對科學報告與財務分析有實務影響。

視覺語言模型多圖推理

InterChart揭示多圖表推理短板

InterChart推出一套針對多張相關圖表的診斷基準,直接點名視覺語言模型在跨圖整合上的弱點。基準將任務分為三級:單張事實推理、合成對齊後的跨圖整合分析,以及面向真實複雜圖對的語義推斷。

題型涵蓋實體推斷、趨勢關聯、數值估計與抽象多步推理,重點是要求模型在2至3張主題或結構相關的圖表間蒐整與連結資訊。作者對多款先進的開放與封閉源模型進行評測,結果顯示隨著圖表複雜度提高,模型準確度出現明顯下滑。

研究同時發現,若將複合圖拆解為較簡單的視覺單元,模型表現會有所提升,凸顯當前系統在跨圖整合與多步推理上的系統性侷限。InterChart藉此提供一個可重複的評測框架,期望促進面向多視覺環境的多模態推理改進,對科學報告、財務分析與政策儀表板等實務場景具參考價值。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more