深度分析 循環變換器內部狀態的關係式偏好編碼:以 Ouro-2.6B 為例的深度分析 研究背景:循環變換器在迭代過程中如何編碼人類偏好仍未明朗。核心技術:透過抽取 Ouro-2.6B 每輪隱藏狀態,訓練約 500 萬參數的輕量評估頭,使用配對差異的線性探測。結果顯示:配對評估可達 95.2% 測試準確,關係式編碼佔主導,對模型可解釋性與偏好學習具重要啟示。