自適應優化器 - Agents Report

深度分析

研究指出，語言模型在以無語意輸出微調教師模型後，會透過單一駕駛向量繼承教師的語意偏好。實驗顯示，向量可在推論時復現偏好，且需自適應優化器才能成功蒸餾。此發現解釋了跨模型失效的原因。未來此機制可能影響模型安全與偏見控制，提供新型可控微調方法。