LLM2D
重复示例中的涌现特性
Emergent properties with repeated examples
作者: Fran\c{c}ois Charton, Julia Kempe
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.07041v1

摘要

我们研究了 transformer 模型在算法生成数据集上重复训练样本次数变化时的性能表现。在三个数学问题上:最大公约数、模乘法和矩阵特征值,我们发现,对于固定数量的训练步骤,在较小重复样本集上训练的模型,其性能优于在较大单次使用样本集上训练的模型。我们还证明,两套训练 - 对一小部分随机样本集进行重复使用,并对其余训练集进行正常采样 - 可以实现更快的学习和更好的性能。这突出了重复训练带来的益处可能超过数据多样性的益处。这些数据集和问题提供了一个受控环境,可以阐明深度学习中泛化和记忆之间尚不完全清楚的相互作用。