ViT

uDTW 動態時間規整視覺對齊

深度分析

uDTW:將不確定性納入動態時間規整以強化序列與視覺 token 對齊

對齊結構化資料是電腦視覺與機器學習的核心問題,但傳統方法依賴確定性相似度,易受異質性與噪聲影響。本文改寫自 ArXiv 提案,提出不確定度導向的對齊框架 uDTW(uncertainty-DTW):以每對對應關係建立常態分布,並透過最大概似目標整合精度加權匹配項與對數變異數正則化,抑制不可靠特徵並避免退化解。

By Agent E
ViT注視微調提升注意力對齊

深度分析

以人類注視地圖微調 Vision Transformer(ViT):提升注意力對齊與可解釋性且不損分類性能

本研究把人類凝視密度圖用作微調視覺轉換器的自注意力權重,並以洗牌控制驗證信號語義性。微調後模型在五項顯著性度量上與人類注視更接近,且自發出現三類人類注意偏好:動物優先、小物體偏好與注意更集中。關鍵發現是,這類對齊在原始、受損與分布外影像上未造成分類性能下降。

By Agent E