LLM2D

摘要

arXiv:2504.03814v1 类别: cross 摘要：大型语言模型（LLMs）正日益参与到互联网内容的创建中。这会形成一种反馈循环，即后续模型将被训练使用这些生成的合成数据。这一现象正受到越来越多的关注，尤其是因为先前的研究表明，这可能导致分布偏移——模型未能准确代表（人类数据）预期逼近的真实分布（例如，导致质量急剧下降）。在本研究中，我们研究了人类数据特性对迭代训练环中分布偏移动力学的影响。我们首先通过比较四个数据集（两个基于Twitter，两个基于Reddit）确认了分布偏移动力学很大程度上取决于人类数据。然后我们测试数据质量是否可能影响这一偏移的速度。我们发现在Twitter数据集上是如此，但在Reddit数据集上却不是。我们然后聚焦于一个Reddit数据集，并对其一大组数据集特性进行更详尽的评估。这项实验表明词汇多样性与更大的损害性偏移相关，而语义多样性与更小的损害性偏移相关，这表明融入具有高词汇（但有限语义）多样性的文本可能会加剧生成文本的退化。接下来我们关注政治偏见的发展，并发现观察到的偏移类型（偏差减少、放大或倒置）取决于人类（真实）分布的政治倾向。总体来说，我们的研究扩展了递归调优后果的现有文献，表明这一现象的高度依赖于训练所发生的人类数据特征。这表明互联网的不同部分（例如，GitHub，Reddit）可能会根据其特性经历不同类型的变化。