深度分析 VEN-VL:結合MKE、HTE(MoE路由)與SIP,提升視覺令牌的容量與密度 面對多模態模型在部署端的效能與準確性矛盾,VEN-VL提出enrich then compact原則:先以多視角知識集成(MKE)豐富視覺容量,再以階層式MoE路由(HTE)逐層濃縮強化資訊密度,並以結構資訊保留(SIP)的重建監督守護語義。結果是在僅保留少量凝縮令牌下仍顯著提升複雜視覺理解任務的表現。