深度分析 FinePhrase:結構化提示提升合成預訓練資料品質的實驗與成果 合成資料是大型語言模型訓練的常見做法。研究比較了提示詞設計、生成模型與來源資料三個面向,發現結構化輸出如表格與教學最有效;生成模型超過 1 億參數無明顯提升;原始資料選取亦關鍵。最終推出的 FinePhrase 資料集在效能與成本上雙贏。