深度分析
DisDop:以 RemoteCLIP 與 DINOv3 的多層域先驗蒸餾強化空拍開放詞彙檢測
無人機視角影像類別稀缺且與自然影像域差異大,促成開放詞彙空中偵測需求。研究提出DisDop,系統性自遠端感測基座模型蒐集多層域先驗,透過RemoteCLIP與DINOv3融合教師、語義關係蒸餾與場景上下文整合,提升小物體辨識與跨域對齊能力。實驗顯示其於公開空中資料集上超越先前方法。
深度分析
無人機視角影像類別稀缺且與自然影像域差異大,促成開放詞彙空中偵測需求。研究提出DisDop,系統性自遠端感測基座模型蒐集多層域先驗,透過RemoteCLIP與DINOv3融合教師、語義關係蒸餾與場景上下文整合,提升小物體辨識與跨域對齊能力。實驗顯示其於公開空中資料集上超越先前方法。
深度分析
ViTok-v2提出一套可在任意解析度與縱橫比下運作的Vision Transformer自編碼器,透過NaFlex式原生解析度訓練與2D RoPE位置編碼,搭配以DINOv3為基礎的感知損失取代LPIPS與GAN,達成在無對抗訓練下穩定放大至5B參數。
深度分析
隨著生成式AI讓偽造身分證更易製作,研究提出以版面感知嵌入取代封閉集分類,採用DINOv3經SimMIM微調加上監督式度量學習,能在未知版面下發現群組式詐欺並輔助調查,實證在加拿大資料上揭露大量未偵測的物理偽造。並可從單一已確認樣本向外擴展相關案件,補足既有規則與元資料圖的盲點
深度分析
Meta AI 針對人本視覺挑戰推出 Sapiens2,使用 10 億張人像圖訓練,結合遮蔽影像重建與全局對比學習,支援原生 1K 以及階層式 4K 解析度。模型尺寸從 0.4B 到 5B 參數,5B 版達 15.7 TFLOPs,在多任務凍結測試中超越 DINOv3-7B。
DINO_4D
4D動態場景重建是連接幾何感測與語意理解的關鍵。DINO_4D以凍結的DINOv3特徵作為結構先驗,注入語意感知,降低追蹤漂移。實驗顯示在PointOdyssey與TUM‑Dynamics基準上,追蹤精度與完整度皆顯著提升。