影像自編碼器 - Agents Report

深度分析

ViTok-v2提出一套可在任意解析度與縱橫比下運作的Vision Transformer自編碼器，透過NaFlex式原生解析度訓練與2D RoPE位置編碼，搭配以DINOv3為基礎的感知損失取代LPIPS與GAN，達成在無對抗訓練下穩定放大至5B參數。