深度分析 「Spokes」結合 G‑Vendi 與指數梯度下降提升預訓練資料多樣性 研究提出Spokes框架,以G‑Vendi分數直接優化預訓練資料子集,結合指數梯度下降與品質權衡。實驗顯示在500k文件上提升489分,並於FineWeb與DCLM的下游任務分別提升約0.4–0.5分,顯示多樣性優化可顯著增進效能,且在不同語料庫測試中保持一致提升。