穩定稀疏自編碼器 - Agents Report

深度分析

以 DINOv2 激活與穩定稀疏自編碼器重構 32,000 個視覺概念：Minkowski 幾何視角

以自監督DINOv2嵌入為研究對象，採用穩定稀疏自編碼器抽取32000個視覺概念；分析發現分類、分割與深度估計分別動員不同、低維的功能子空間；進一步觀察到概念呈部分稠密與局部連通性，並提出以原型凸混合與有界區域為核心的Minkowski表徵假說，這一觀點改變對視覺Transformer可解釋性與操作策略的理解。