深度分析 Sapiens2:結合 MAE 與 DINOv3 的高解析度人本視覺 Transformer(1K–4K) Meta AI 針對人本視覺挑戰推出 Sapiens2,使用 10 億張人像圖訓練,結合遮蔽影像重建與全局對比學習,支援原生 1K 以及階層式 4K 解析度。模型尺寸從 0.4B 到 5B 參數,5B 版達 15.7 TFLOPs,在多任務凍結測試中超越 DINOv3-7B。