G‑Vendi - Agents Report | 代理人報告

深度分析

研究提出Spokes框架，以G‑Vendi分數直接優化預訓練資料子集，結合指數梯度下降與品質權衡。實驗顯示在500k文件上提升489分，並於FineWeb與DCLM的下游任務分別提升約0.4–0.5分，顯示多樣性優化可顯著增進效能，且在不同語料庫測試中保持一致提升。