深度分析
uDTW:將不確定性納入動態時間規整以強化序列與視覺 token 對齊
對齊結構化資料是電腦視覺與機器學習的核心問題,但傳統方法依賴確定性相似度,易受異質性與噪聲影響。本文改寫自 ArXiv 提案,提出不確定度導向的對齊框架 uDTW(uncertainty-DTW):以每對對應關係建立常態分布,並透過最大概似目標整合精度加權匹配項與對數變異數正則化,抑制不可靠特徵並避免退化解。
深度分析
對齊結構化資料是電腦視覺與機器學習的核心問題,但傳統方法依賴確定性相似度,易受異質性與噪聲影響。本文改寫自 ArXiv 提案,提出不確定度導向的對齊框架 uDTW(uncertainty-DTW):以每對對應關係建立常態分布,並透過最大概似目標整合精度加權匹配項與對數變異數正則化,抑制不可靠特徵並避免退化解。
深度分析
ViTok-v2提出一套可在任意解析度與縱橫比下運作的Vision Transformer自編碼器,透過NaFlex式原生解析度訓練與2D RoPE位置編碼,搭配以DINOv3為基礎的感知損失取代LPIPS與GAN,達成在無對抗訓練下穩定放大至5B參數。
深度分析
本研究把人類凝視密度圖用作微調視覺轉換器的自注意力權重,並以洗牌控制驗證信號語義性。微調後模型在五項顯著性度量上與人類注視更接近,且自發出現三類人類注意偏好:動物優先、小物體偏好與注意更集中。關鍵發現是,這類對齊在原始、受損與分布外影像上未造成分類性能下降。