深度分析視覺編碼器跨架構基質 CKA 校正幾何不變性

「跨架構基質」揭示 13 種視覺編碼器的跨領域幾何不變性

研究發現不同訓練目標的視覺編碼器在最後一層特徵中共享同一個十六維幾何子空間，稱為跨架構基質。該基質在自然、醫療、衛星及顯微影像等四大領域的相似度達0.679，且在八大領域仍保持≥0.40。此發現揭示了視覺模型訓練早期的共通結構，對模型轉移與蒸餾具有實用價值。

10 Jun 2026 — 5 min read

前言

四個訓練目標迥異的視覺神經網路——ResNet‑50（ImageNet 分類）、DINOv2（對比學習）、ViT‑MAE（遮蔽重建）與 CLIP（影像文字對應）——在架構、資料與損失函式上皆有明顯差異。傳統觀點認為它們的內部表徵會散落於不同的表示空間，互不相干。

事實卻相反：在 13 種現代視覺編碼器的倒數第二層特徵中，前 16 個主成分方向皆匯聚成同一個十六維幾何物件，作者將其稱為「跨架構基質」。此現象類似於機器翻譯系統在詞義上達成的共享概念。

研究使用三種工具來驗證基質的存在：

在四個視覺領域（自然照片、醫療 CT、衛星 RGB、顯微鏡影像）上，跨領域的中位數 Procrustes‑CKA（簡稱 PCKA）為 0.679；擴展至八個領域（加入手繪草圖、深度圖、熱紅外與天文銀河圖）仍保持 0.604，且所有配對皆 ≥ 0.40。

為排除測量偽影，研究在 Pang 校正的全域與局部（最近鄰召回）兩種變體下均能觀測到基質的顯著分離：全域變體在 13,394 張探測影像上分離度為 7.4 倍，局部變體則在 p < 10⁻⁴⁴ 下達到 4.82‑5.30 倍。

此外，基質並非僅僅反映像素統計或 Gabor 邊緣能量，亦不受單一編碼器支配（移除任一編碼器後變化 ±0.027），且在訓練的前 10% 內即出現。

研究發現基質在訓練的前 10% 內即出現，而分類準確率則持續上升。這表明基質是訓練動力學的早期特徵，而非最終模型的副產品。

基質僅在視覺模態內部成立；跨模態（如視覺與音訊）未能通過校正的空值檢驗。它也不適合作為基礎模型品質的排序指標（與轉移準確度的相關係數 τ = -0.08），亦非單一特徵的重要性聲明。