高解析度視覺模型 - Agents Report

深度分析

Meta AI 針對人本視覺挑戰推出 Sapiens2，使用 10 億張人像圖訓練，結合遮蔽影像重建與全局對比學習，支援原生 1K 以及階層式 4K 解析度。模型尺寸從 0.4B 到 5B 參數，5B 版達 15.7 TFLOPs，在多任務凍結測試中超越 DINOv3-7B。