pairwise evaluation - Agents Report

深度分析

研究背景：循環變換器在迭代過程中如何編碼人類偏好仍未明朗。核心技術：透過抽取 Ouro-2.6B 每輪隱藏狀態，訓練約 500 萬參數的輕量評估頭，使用配對差異的線性探測。結果顯示：配對評估可達 95.2% 測試準確，關係式編碼佔主導，對模型可解釋性與偏好學習具重要啟示。