LLM2D
崩溃或繁荣?合成数据在自我生成世界中的风险与promise
Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World
作者: Joshua Kazdan, Rylan Schaeffer, Apratim Dey, Matthias Gerstgrasser, Rafael Rafailov, David L. Donoho, Sanmi Koyejo
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2410.16713v3

摘要

arXiv:2410.16713v3 宣布类型:替换交叉 摘要:当生成机器学习模型在包含早期模型生成的数据的大规模网络数据集上进行预训练时会发生什么?一些先前提到过"模型崩溃"的可能性,因为网络被合成数据所淹没;其他工作则认为可以通过管理用于预训练的数据来限制问题(即避免模型崩溃)。在本文中,我们报告了三种使用数据(训练流程)在三种生成模型任务设置(多元高斯估计、核密度估计和语言模型微调)上的实验,以进一步确认是否可以限制该问题:(a) 我们确认,在所有研究的任务设置中,通过依次用纯粹合成数据替换所有真实数据的训练流程确实会导致模型崩溃;(b) 我们考虑了一种积累合成数据并同时保留真实数据进行训练的流程,并确认尽管真实数据的比例最终会变为零,但在这种训练流程下,模型仍然保持稳定且其测试损失不会发散;(c) 我们考虑了一种流程,其中真实数据和合成数据一起积累,但在预训练的每一代中使用固定大小的数据子集。在这种流程中,我们观察到测试损失表现逐渐而不是突然下降。我们的见解在预测未来前沿生成模型是否会崩溃或繁荣时尤为重要,我们的结果为实证和数学地研究合成数据的上下文相关价值打开了道路。