深度分析 以目標重複率抽樣提升語言模型預訓練資料混合效率:實驗與成本分析 研究指出在資料稀缺時高品質資料需多次重複,導致小規模混合實驗與大規模目標的重複次數不一致,進而使最佳比例預測失準。透過與目標相同的重複率抽樣,可在僅使用1/16訓練代幣的情況下,將混合誤差降至0.05左右。此發現顯示重複次數應成為混合優化的主要之一變數。