摘要
arXiv:2502.06733v1 声明类型: cross
摘要:在庞大的异质数据集上预训练大型语言模型(LLMs)对于在各种下游任务中实现最先进的性能至关重要。然而,当前的训练范式对所有样本一视同仁,忽视了整个训练过程中个别样本的重要性或相关性。现有的重新加权策略主要侧重于组级数据的重要性,未能利用细粒度实例级的信息,并且无法随着训练的进行动态适应个别样本的重要性。在本文中,我们引入了新的算法,用于动态、实例级数据重新加权,以提高LLM预训练的效率和效果。我们的方法根据每个训练样本的损失值在线动态调整其权重,使模型能够在当前训练阶段动态地关注更有信息量或更重要的样本。特别是,我们的框架使我们能够系统地设计重新加权策略,优先考虑冗余或无信息数据,我们发现这些策略往往表现最佳。此外,我们开发了新的理论框架,用于分析基于损失的重新加权对梯度优化收敛性的影响,这是首次正式描述这些策略如何影响收敛边界。我们通过各种任务对我们的方法进行了经验验证,从预训练包含70亿和140亿参数的LLM到较小规模的语言模型和线性回归问题,表明我们的基于损失的重新加权方法可以导致更快的收敛和显著提高性能。