摘要
arXiv:2504.03814v1 类别: cross
摘要:大型语言模型(LLMs)正日益参与到互联网内容的创建中。这会形成一种反馈循环,即后续模型将被训练使用这些生成的合成数据。这一现象正受到越来越多的关注,尤其是因为先前的研究表明,这可能导致分布偏移——模型未能准确代表(人类数据)预期逼近的真实分布(例如,导致质量急剧下降)。在本研究中,我们研究了人类数据特性对迭代训练环中分布偏移动力学的影响。我们首先通过比较四个数据集(两个基于Twitter,两个基于Reddit)确认了分布偏移动力学很大程度上取决于人类数据。然后我们测试数据质量是否可能影响这一偏移的速度。我们发现在Twitter数据集上是如此,但在Reddit数据集上却不是。我们然后聚焦于一个Reddit数据集,并对其一大组数据集特性进行更详尽的评估。这项实验表明词汇多样性与更大的损害性偏移相关,而语义多样性与更小的损害性偏移相关,这表明融入具有高词汇(但有限语义)多样性的文本可能会加剧生成文本的退化。接下来我们关注政治偏见的发展,并发现观察到的偏移类型(偏差减少、放大或倒置)取决于人类(真实)分布的政治倾向。总体来说,我们的研究扩展了递归调优后果的现有文献,表明这一现象的高度依赖于训练所发生的人类数据特征。这表明互联网的不同部分(例如,GitHub,Reddit)可能会根据其特性经历不同类型的变化。