表徵對齊 - Agents Report

深度分析

研究指出，當教師與學生模型共享初始權重且學習率足夠小時，即使學生只接受純噪音訓練，也能繼承教師的數字分類能力。此現象被稱為隱蔽特徵傳遞，核心機制是表徵對齊而非資訊傳遞。實驗顯示，凍結輸入投影會破壞傳遞，而凍結輸出投影則不影響，證實幾何對齊是關鍵。

速報

研究檢驗柏拉圖表示假說，分析現代人工智慧表徵來源。採訊號、偏差、雜訊三分框架，並以線性表示假說與稀疏自編碼器抽取物件—屬性線性特徵，比較稀疏與稠密表示的跨模態對齊。結果顯示中心化與正規化能改善模型偏差，資料稀少會提升表示雜訊。有助於解釋不同架構下表示對齊現象。

深度分析

研究提出Repr‑Align，針對將自回歸模型轉為遮罩式擴散語言模型的效率瓶頸。核心做法是在不改變架構下，凍結AR教師、於每層以cosine相似度將DLM隱藏表徵對齊AR，並同時訓練masked denoising目標。實驗顯示對齊可提升轉換品質並顯著降低訓練成本。