LLM2D

摘要

大型语言模型（LLM）训练数据中泄露基准数据已成为评估其能力的一项重大挑战。本研究通过实验证据和理论估计，对小规模污染使基准评估无效的普遍假设提出了质疑。首先，我们基于三个维度进行缩放，以实验方式量化基准过拟合的程度：模型参数数量（高达16亿）、示例出现的次数（高达144次）以及训练标记数量（高达400亿）。我们发现，如果模型和数据遵循 Chinchilla 缩放定律，轻微的污染确实会导致过拟合。同时，如果训练数据规模超过 Chinchilla 五倍（这是许多现代 LLM 的特征），即使污染了 144 次，也会被遗忘。然后，我们推导出一个简单的示例遗忘理论，该理论基于累积权重衰减。它使我们能够限制遗忘过去数据所需的梯度步数，前提是我们知道 AdamW 的超参数。这表明许多 LLM，包括 Llama 3，已经忘记了在训练开始时看到的数据。在实验中，我们证明遗忘发生的速度比我们的界限预测的要快。综上所述，我们的结果表明，在实际规模的训练运行结束时，中等程度的污染是可以被遗忘的。