深度分析 Grid2Matrix:揭示視覺語言模型的數位失認現象與細節保留瓶頸 隨著視覺語言模型在多模態推理上表現優異,研究團隊設計 Grid2Matrix 基準,測試模型將彩色格子映射成矩陣的能力。結果顯示模型在小格子上即出現零樣本失效,且錯誤與格子跨越視覺補丁邊界高度相關,提出「數位失認」概念,指出語言輸出階段的資訊缺口。