摘要
arXiv:2502.08924v1 交叉发布类型: cross
摘要: 合成生成的数据在训练大型语言模型中扮演着越来越重要的角色。然而,虽然合成数据已被证明是有用的,但研究也表明,如果没有适当的编目,它会导致LLM(大型语言模型)在训练多次迭代后性能停滞不前,甚至“崩溃”。在本文中,我们正式提出这一问题,并开发了一个理论框架来研究为了确保LLM性能持续改善,需要多少编目。我们发现这些要求几乎是最低的。我们描述了一种训练程序,即使几乎所有非合成训练数据的质量都很差,该程序也能收敛到最优的LLM。我们的分析灵感源自于增强学习,这是一种经典机器学习技术,利用一个非常弱的学习算法来产生任意好的分类器。我们的训练程序包含了最近提出的许多关于在合成数据上训练LLM的方法,因此我们的分析揭示了它们成功的原因,并指出了未来改进的机会。我们进行了实验来验证我们的理论,并展示了动态集中在最具挑战性的示例上的标注资源(类似于增强学习中弱学习者的努力),能够提高性能。