深度分析 以度量傳輸衡量視覺文本壓縮:代理成本、TE 分數與無標籤決策路由 背景:視覺文本壓縮透過將文字渲染為影像並重編碼以降低 token 數。方法:本文把 ViT 的 patch 編碼表述為推前映射,將損失分解為精準度與覆蓋兩項成本,並用無標籤探針估計以產生輸入層級的路由與局部重編碼機制。結果:在 24 個基準上,該無標籤規則能匹配多數資料集的最佳路徑並提升整體效能。