摘要
arXiv:2410.18194v2 宣告类型: replace-cross
摘要: 数据选择对于优化语言模型(LM)在特定任务上的性能至关重要,但现有的大多数方法未能有效地考虑目标任务分布。
当前的方法要么完全忽略了任务特定的要求,要么依赖于无法捕捉到如自动形式化或代码生成等任务所需的细微模式的近似方法。
那些确实考虑目标分布的方法往往依赖于简单、有时是噪音较大的表示,比如哈希n-gram特征,这可能导致碰撞并引入噪音。
我们引入了ZIP-FIT,这是一种数据选择框架,使用gzip压缩直接度量潜在训练数据与目标任务分布之间的对齐程度。
在广泛的自动形式化和Python代码生成评估中,ZIP-FIT显著优于最新的基准方法如DSIR和D4。
使用ZIP-FIT选择的数据训练的模型,在交叉熵损失上比基准方法低至85.1%,这表明更好的任务对齐可以导致更高效的学习。
此外,ZIP-FIT的数据选择速度比DSIR快65.8%,比D4快一个数量级。
值得注意的是,ZIP-FIT表明,小而对齐良好的数据集通常优于大但不那么有针对性的数据集,这表明少量高质量的数据优于大量低质量的数据。
我们的结果表明,任务感知的数据选择对于高效领域适应至关重要,并且压缩提供了一种衡量任务对齐的有原则的方法。
通过展示有针对性的数据选择可以显著提高特定任务性能,我们的工作提供了关于数据质量、任务对齐和模型学习效率之间关系的新见解。