深度分析 以人類注視地圖微調 Vision Transformer(ViT):提升注意力對齊與可解釋性且不損分類性能 本研究把人類凝視密度圖用作微調視覺轉換器的自注意力權重,並以洗牌控制驗證信號語義性。微調後模型在五項顯著性度量上與人類注視更接近,且自發出現三類人類注意偏好:動物優先、小物體偏好與注意更集中。關鍵發現是,這類對齊在原始、受損與分布外影像上未造成分類性能下降。