SynPro - Agents Report | 代理人報告

深度分析

SynPro：以有機語料與模型感知合成提升資料綁定時代的訓練效率

隨著前沿大模型從算力綁定轉向資料綁定，高品質人類文本供給已無法跟上擴展需求。SynPro 提出一套以有機文本為基礎的合成資料生成框架，透過「重述」（rephrasing）與「重格式化」（reformat）兩種操作，並以品質、忠實度與資料影響力三項獎勵用強化學習優化生成器，持續對模型尚未吸收的內容產生具資訊量且依據原始語料的合成樣本。