摘要
arXiv:2504.03814v2 宣告类型:替代交叉
摘要:大型语言模型(LLMs)越来越多地参与到互联网内容的创建中。这会产生一种反馈循环,因为后续的模型将基于这些生成的、合成的数据进行训练。这一现象正逐渐引起关注,特别是因为之前的研究所表明,这可能会导致分布偏移——模型错误地代表和忘记它们预期要逼近的人类数据的真实底层分布(例如,导致质量急剧下降)。在本研究中,我们研究了人类数据属性对迭代训练循环中分布偏移动态的影响。我们首先通过对比四个数据集(两个基于推特,两个基于Reddit)证实,分布偏移动态会因人类数据的不同而变化。然后我们测试数据质量是否会影响这种偏移的速度。我们发现,在推特数据集上这是适用的,但在Reddit数据集上则不是。接着,我们将重点放在Reddit数据集上,并对一系列数据集属性进行了更全面的评估。这项实验发现词汇多样性与较大的不利偏移相关,而语义多样性与较小的不利偏移相关,表明包含具有高词汇(但受限的语义)多样性的文本可能会加剧生成文本的退化。然后,我们研究了政治偏见的发展,并发现观察到的偏移类型(偏见减少、放大或反转)取决于人类(真实)分布的政治倾向。总体而言,我们的工作通过指出这一现象高度依赖于训练所涉及的人类数据特征,扩展了关于递归微调后果的现有文献。这表明,根据其属性,互联网的不同部分(例如,GitHub、Reddit)可能会经历不同类型的偏移。