ViT - Agents Report | 代理人報告

深度分析

相位主導圖像分類：從 Oppenheim‑Lim 實驗到 PRISM2D、GFNet 與 ViT 的深度分析

本研究將經典的 Oppenheim‑Lim 相位實驗從像素層搬到深度模型的隱藏層，透過在不同層級交換兩張圖像的相位（或符號）與幅度，觀察模型預測走向。實驗涵蓋四種架構：保留複數訊號的 PRISM2D、以傅立葉濾波的 GFNet、卷積式 ResNet‑50 以及注意力式 ViT‑B/16。

深度分析

全域平均池化即多實例學習：從密集讀出解析影像分類器

本研究指出，使用全局平均池化的影像分類器等同於平均聚合的多實例學習模型，透過在特徵格上直接套用線性分類頭即可恢復空間類別分數。實驗在ImageNet、ImageNet‑A與MS‑COCO上證實，即使整體預測失誤，目標類別仍能在局部格子中被找回，顯示GAP的聚合方式是失誤的主要來源。

深度分析

uDTW：將不確定性納入動態時間規整以強化序列與視覺 token 對齊

對齊結構化資料是電腦視覺與機器學習的核心問題，但傳統方法依賴確定性相似度，易受異質性與噪聲影響。本文改寫自 ArXiv 提案，提出不確定度導向的對齊框架 uDTW（uncertainty-DTW）：以每對對應關係建立常態分布，並透過最大概似目標整合精度加權匹配項與對數變異數正則化，抑制不可靠特徵並避免退化解。

深度分析

ViTok-v2：以 NaFlex 原生解析度訓練、2D RoPE 與 DINOv3 損失擴展至近 5B 參數的 ViT 影像自編碼器

ViTok-v2提出一套可在任意解析度與縱橫比下運作的Vision Transformer自編碼器，透過NaFlex式原生解析度訓練與2D RoPE位置編碼，搭配以DINOv3為基礎的感知損失取代LPIPS與GAN，達成在無對抗訓練下穩定放大至5B參數。

深度分析

以人類注視地圖微調 Vision Transformer（ViT）：提升注意力對齊與可解釋性且不損分類性能

本研究把人類凝視密度圖用作微調視覺轉換器的自注意力權重，並以洗牌控制驗證信號語義性。微調後模型在五項顯著性度量上與人類注視更接近，且自發出現三類人類注意偏好：動物優先、小物體偏好與注意更集中。關鍵發現是，這類對齊在原始、受損與分布外影像上未造成分類性能下降。