摘要
arXiv:2505.00358v1 公告类型:交叉
摘要:数据混合策略成功地减少了训练语言模型的成本。尽管有希望,但这些方法存在两个缺陷。首先,它们依赖于预定义的数据领域(例如,数据来源、任务类型),这可能导致无法捕捉到关键的语义细微差别,从而在性能上有所缺失。其次,这些方法在计算上会产生不可行的扩展性问题,随着领域数量的增加而增加。我们通过R&B框架来解决这些挑战,该框架基于语义相似性重新划分训练数据(Regroup)以创建更细粒度的领域,并通过利用训练过程中获得的领域梯度诱导的Gram矩阵来高效优化数据组成(Balance)。与先前的工作不同,R&B消除了获取评价信息(如损失或梯度)所需额外计算的需求。我们在标准正则条件下分析了这种技术,并提供了理论洞察,证明了R&B在与非适应性混合方法相比的有效性。实验上,我们展示了R&B在五个不同的数据集上的有效性,这些数据集涵盖了从自然语言到推理和多模态任务的广泛类型。通过仅增加0.01%的额外计算开销,R&B匹配或超过了最新数据混合策略的性能。