速報
視覺變壓器的「綁定」資訊:提升多物件辨識的關鍵
本研究針對視覺變壓器(ViT)在多物件場景中的特徵綁定問題進行資訊理論化分析,提出測量模型表徵中綁定資訊的探測方法。實驗以不同挑戰(特徵共享、遮擋、自然特徵)之資料集,評估 ViT 各層(CLS token、空間 token)的綁定表現,並比較多個預訓練模型。
速報
本研究針對視覺變壓器(ViT)在多物件場景中的特徵綁定問題進行資訊理論化分析,提出測量模型表徵中綁定資訊的探測方法。實驗以不同挑戰(特徵共享、遮擋、自然特徵)之資料集,評估 ViT 各層(CLS token、空間 token)的綁定表現,並比較多個預訓練模型。
深度分析
研究提出以資訊理論為基礎的「Decan」多樣性指標,透過單次前向傳遞取得每位元驚訝度,無需嵌入模型或人工標註。實驗在McDiv基準與OLMo‑2‑7B後訓練流程上均展現與人類判斷相近的表現,並偵測到RLHF導致的多樣性下降,此指標亦可用於比較不同解碼策略的多樣性貢獻。
速報
部署中的強化學習缺乏運行時可靠性理論。研究提出雙可預測性P,一個資訊理論指標,量化代理與環境互動轉換不確定性為共同可預測性的效率。實驗顯示P普遍被抑制,且能更早偵測耦合異常。以資訊數位孿生IDT監測,可在低延遲下顯著提高耦合退化偵測率,勝過僅靠獎勵監控。
深度分析
本文以資訊論角度建模遮罩式後設說明流程,將說明向量視為訊息、遮罩評估視為通道使用,推導每次查詢的資訊容量與強反向界限,並以蒙地卡羅互信息估計作為非漸近查詢基準,指出當說明熵超過通道資訊時任何解碼器皆無法可靠回復,實驗比較最優解碼與Lasso/OLS替代法的差異。
深度分析
機器學習常假設模型正確性需在訓練後驗證;本研究提出以代數約束於設計階段即完成數值穩定與計算正確性的驗證;透過維度型別系統、超圖分析與自適應領域模型的結合,實現多項式時間可判定的檢查;結果顯示此框架可在不增加部署與推論開銷的前提下,提升 AI 系統的可信度。