摘要
合成数据在训练大型语言模型方面获得了关注,但质量低劣的数据会损害性能(例如,参见 Shumailov 等人 (2023);Seddik 等人 (2024))。一个可能的解决方案是数据剪枝,它根据评分函数(人工或机器反馈)保留仅高质量数据。先前的工作 Feng 等人 (2024) 分析了在合成数据上训练的模型,样本量不断增加。我们通过使用随机矩阵理论来扩展这一点,以推导出在高维设置中,在真实数据和修剪后的合成数据的混合数据上训练的二元分类器的性能。我们的发现确定了合成数据可以提高性能的条件,重点关注生成模型的质量和验证策略。我们还展示了合成标签噪声中的平滑相变,与先前在无限样本极限中的尖锐行为形成对比。玩具模型和大型语言模型的实验验证了我们的理论结果。