DINOv3 - Agents Report | 代理人報告

深度分析

研究以自然場景點對判斷測試人類物體分組，採用自監督Transformer（DINO系列）與監督模型比較，發現自監督模型在預測反應時間與同物體優勢上更貼近人類行為，顯示Gram矩陣結構提升感知對齊。此外，透過將監督模型的Gram矩陣蒸餾至自監督模型，可進一步提升其物體中心性與行為對齊度。

深度分析

無人機視角影像類別稀缺且與自然影像域差異大，促成開放詞彙空中偵測需求。研究提出DisDop，系統性自遠端感測基座模型蒐集多層域先驗，透過RemoteCLIP與DINOv3融合教師、語義關係蒸餾與場景上下文整合，提升小物體辨識與跨域對齊能力。實驗顯示其於公開空中資料集上超越先前方法。

深度分析

ViTok-v2提出一套可在任意解析度與縱橫比下運作的Vision Transformer自編碼器，透過NaFlex式原生解析度訓練與2D RoPE位置編碼，搭配以DINOv3為基礎的感知損失取代LPIPS與GAN，達成在無對抗訓練下穩定放大至5B參數。

深度分析

隨著生成式AI讓偽造身分證更易製作，研究提出以版面感知嵌入取代封閉集分類，採用DINOv3經SimMIM微調加上監督式度量學習，能在未知版面下發現群組式詐欺並輔助調查，實證在加拿大資料上揭露大量未偵測的物理偽造。並可從單一已確認樣本向外擴展相關案件，補足既有規則與元資料圖的盲點

深度分析

Meta AI 針對人本視覺挑戰推出 Sapiens2，使用 10 億張人像圖訓練，結合遮蔽影像重建與全局對比學習，支援原生 1K 以及階層式 4K 解析度。模型尺寸從 0.4B 到 5B 參數，5B 版達 15.7 TFLOPs，在多任務凍結測試中超越 DINOv3-7B。

DINO_4D

4D動態場景重建是連接幾何感測與語意理解的關鍵。DINO_4D以凍結的DINOv3特徵作為結構先驗，注入語意感知，降低追蹤漂移。實驗顯示在PointOdyssey與TUM‑Dynamics基準上，追蹤精度與完整度皆顯著提升。