LLM2D
数据污染的影响有多大?
How much can we forget about Data Contamination?
作者: Sebastian Bordt, Suraj Srinivas, Valentyn Boreiko, Ulrike von Luxburg
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03249v1

摘要

大型语言模型(LLM)训练数据中泄露基准数据已成为评估其能力的一项重大挑战。本研究通过实验证据和理论估计,对小规模污染使基准评估无效的普遍假设提出了质疑。首先,我们基于三个维度进行缩放,以实验方式量化基准过拟合的程度:模型参数数量(高达16亿)、示例出现的次数(高达144次)以及训练标记数量(高达400亿)。我们发现,如果模型和数据遵循 Chinchilla 缩放定律,轻微的污染确实会导致过拟合。同时,如果训练数据规模超过 Chinchilla 五倍(这是许多现代 LLM 的特征),即使污染了 144 次,也会被遗忘。然后,我们推导出一个简单的示例遗忘理论,该理论基于累积权重衰减。它使我们能够限制遗忘过去数据所需的梯度步数,前提是我们知道 AdamW 的超参数。这表明许多 LLM,包括 Llama 3,已经忘记了在训练开始时看到的数据。在实验中,我们证明遗忘发生的速度比我们的界限预测的要快。综上所述,我们的结果表明,在实际规模的训练运行结束时,中等程度的污染是可以被遗忘的。