LLM2D

摘要

互联网上人工智能生成内容的增多引发了一个关键问题：当生成式机器学习模型使用包含早期模型创建的数据的网络规模数据集进行预训练时会发生什么？一些作者预言在“替换”场景下会出现模型崩溃：一系列模型，第一个模型用真实数据训练，后续每个模型仅使用其前一个模型生成的合成数据进行训练。在这种情况下，模型会逐渐退化。另一些人认为崩溃很容易避免；在“累积”场景中，训练一系列模型，但每次训练都使用迄今为止生成的所有真实和合成数据。在这项工作中，我们加深并扩展了对这些对比场景的研究。首先，通过比较三种突出的生成式建模设置中的替换和累积场景来研究崩溃与避免崩溃；我们发现这三种设置中都出现了相同的对比结果。其次，我们研究了一种折衷方案；可用数据与累积场景相同——但与累积场景不同，与替换场景类似，每个模型都使用固定的计算预算进行训练；我们证明，模型在真实数据上的测试损失大于累积场景，但显然会趋于平稳，这与替换场景中看到的差异不同。第三，我们研究了真实数据基数和比例对于避免模型崩溃的相对重要性。令人惊讶的是，我们发现真实数据和合成数据之间存在非平凡的相互作用，其中合成数据在减少测试损失方面的价值取决于真实数据的绝对数量。我们的见解对于预测未来的前沿生成模型是会崩溃还是会蓬勃发展尤为重要，我们的结果为经验性和数学地研究合成数据的上下文相关价值开辟了途径。