LLM2D

摘要

arXiv:2502.08924v1 交叉发布类型: cross 摘要: 合成生成的数据在训练大型语言模型中扮演着越来越重要的角色。然而，虽然合成数据已被证明是有用的，但研究也表明，如果没有适当的编目，它会导致LLM（大型语言模型）在训练多次迭代后性能停滞不前，甚至“崩溃”。在本文中，我们正式提出这一问题，并开发了一个理论框架来研究为了确保LLM性能持续改善，需要多少编目。我们发现这些要求几乎是最低的。我们描述了一种训练程序，即使几乎所有非合成训练数据的质量都很差，该程序也能收敛到最优的LLM。我们的分析灵感源自于增强学习，这是一种经典机器学习技术，利用一个非常弱的学习算法来产生任意好的分类器。我们的训练程序包含了最近提出的许多关于在合成数据上训练LLM的方法，因此我们的分析揭示了它们成功的原因，并指出了未来改进的机会。我们进行了实验来验证我们的理论，并展示了动态集中在最具挑战性的示例上的标注资源（类似于增强学习中弱学习者的努力），能够提高性能。