深度分析 ViTok-v2:以 NaFlex 原生解析度訓練、2D RoPE 與 DINOv3 損失擴展至近 5B 參數的 ViT 影像自編碼器 ViTok-v2提出一套可在任意解析度與縱橫比下運作的Vision Transformer自編碼器,透過NaFlex式原生解析度訓練與2D RoPE位置編碼,搭配以DINOv3為基礎的感知損失取代LPIPS與GAN,達成在無對抗訓練下穩定放大至5B參數。