LLM2D

摘要

arXiv:2505.04741v1 交叉类型：cross 摘要：在大规模语言模型（LLM）预训练中，数据质量被认为决定了模型质量。在本文中，我们从预训练和后训练协同设计的角度重新审视了“质量”的概念。具体而言，我们探索了在更多有毒数据上进行预训练是否能够导致在后训练中获得更好的控制，最终降低模型的输出毒性。首先，我们使用一个玩具实验研究数据组成如何影响表示空间中特征的几何形状。然后，通过使用不同比例的清洁和有毒数据训练的Olmo-1B模型进行可控实验，我们发现随着有毒数据的比例增加，毒性概念在表示中的线性表示变得不那么交织在一起。此外，我们展示了尽管有毒数据增加了基础模型的生成毒性，但它也使得毒性更容易去除。在应用推理时干预（ITI）等去毒技术时，Toxigen和真实毒性和提示的评估表明，使用有毒数据训练的模型在降低生成毒性与保持通用能力之间实现了更好的权衡。我们的研究发现，考虑到后训练的因素，糟糕的数据可能会导致优秀的模型。