LLM2D
LLMs中递归训练循环的影响:训练数据属性如何调节生成数据中的分布偏移?
Recursive Training Loops in LLMs: How training data properties modulate distribution shift in generated data?
作者: Grgur Kova\v{c}, J\'er\'emy Perez, R\'emy Portelas, Peter Ford Dominey, Pierre-Yves Oudeyer
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03814v1

摘要

arXiv:2504.03814v1 类别: cross 摘要:大型语言模型(LLMs)正日益参与到互联网内容的创建中。这会形成一种反馈循环,即后续模型将被训练使用这些生成的合成数据。这一现象正受到越来越多的关注,尤其是因为先前的研究表明,这可能导致分布偏移——模型未能准确代表(人类数据)预期逼近的真实分布(例如,导致质量急剧下降)。在本研究中,我们研究了人类数据特性对迭代训练环中分布偏移动力学的影响。我们首先通过比较四个数据集(两个基于Twitter,两个基于Reddit)确认了分布偏移动力学很大程度上取决于人类数据。然后我们测试数据质量是否可能影响这一偏移的速度。我们发现在Twitter数据集上是如此,但在Reddit数据集上却不是。我们然后聚焦于一个Reddit数据集,并对其一大组数据集特性进行更详尽的评估。这项实验表明词汇多样性与更大的损害性偏移相关,而语义多样性与更小的损害性偏移相关,这表明融入具有高词汇(但有限语义)多样性的文本可能会加剧生成文本的退化。接下来我们关注政治偏见的发展,并发现观察到的偏移类型(偏差减少、放大或倒置)取决于人类(真实)分布的政治倾向。总体来说,我们的研究扩展了递归调优后果的现有文献,表明这一现象的高度依赖于训练所发生的人类数据特征。这表明互联网的不同部分(例如,GitHub,Reddit)可能会根据其特性经历不同类型的变化。