自我訓練語言模型:無提示自生成語料提升能力的潛在相容性假說
研究探討在不使用提示、教師或獎勵模型的情況下,語言模型能否僅透過自我生成的純文字資料進行自我訓練。結果顯示,合成語料的效用取決於資料與模型之間的相容性,而非資料本身的固有品質。相同系列的模型間轉移效果最佳,跨系列則顯著較弱。傳統的語意相似度或平均機率指標無法預測哪類語料有助於提升模型表現。
研究團隊在 ArXiv 發表的論文中,驗證了語言模型能否僅靠自我生成的文字資料進行無提示的自我訓練,且不依賴任何提示、教師、驗證器或獎勵模型。
相容性假說
作者提出「潛在能力再顯現」假說,認為弱自我訓練只能放大預訓練模型已具備的能力,前提是合成語料與模型之間具備相容性,這是一種來源與學生之間的關係屬性,而非資料本身的固有特性。
實驗設定
在最小化的設定下,研究者僅以 BOS(句首)標記產生文字,對基礎語言模型進行微調,沒有任何任務說明或外部監督。
三大發現
- 合成語料的效用是關係性的:自生成資料最有效,同系列模型的語料轉移優於更強大但訓練方式不同的來源;跨系列轉移效果顯著較差。
- 常見的內在指標失效:語意相似度或學生模型的平均 token 機率都無法預測哪些語料有助於提升效能。
- 能力與逐字記憶可分離:在 Pythia 系列受控實驗中,模型的基準效能保持或提升,但對未見過的精確匹配抽取率下降超過 95%,且未使用任何遺忘或隱私目標。
這些結果顯示,無提示自我訓練的關鍵在於放大模型已有的知識,而非從合成資料中引入新結構,同時提供了一種在不需額外遺忘機制下降低逐字記憶的途徑。
延伸閱讀
- FAC Synthesis:以Feature Activation Coverage與稀疏自編碼器提升LLM後訓練特徵覆蓋
- 將字典學習與稀疏自編碼器擴展到 Claude 3 Sonnet:大尺度可解釋特徵的訓練與驗證
- NFD 與 depth-μP:揭示深度 ResNet 中梯度獨立化與特徵學習崩塌機制
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。