LLM2D

摘要

我们研究了 transformer 模型在算法生成数据集上重复训练样本次数变化时的性能表现。在三个数学问题上：最大公约数、模乘法和矩阵特征值，我们发现，对于固定数量的训练步骤，在较小重复样本集上训练的模型，其性能优于在较大单次使用样本集上训练的模型。我们还证明，两套训练 - 对一小部分随机样本集进行重复使用，并对其余训练集进行正常采样 - 可以实现更快的学习和更好的性能。这突出了重复训练带来的益处可能超过数据多样性的益处。这些数据集和问题提供了一个受控环境，可以阐明深度学习中泛化和记忆之间尚不完全清楚的相互作用。