LLM2D

摘要

arXiv:2505.00358v1 公告类型：交叉摘要：数据混合策略成功地减少了训练语言模型的成本。尽管有希望，但这些方法存在两个缺陷。首先，它们依赖于预定义的数据领域（例如，数据来源、任务类型），这可能导致无法捕捉到关键的语义细微差别，从而在性能上有所缺失。其次，这些方法在计算上会产生不可行的扩展性问题，随着领域数量的增加而增加。我们通过R&B框架来解决这些挑战，该框架基于语义相似性重新划分训练数据（Regroup）以创建更细粒度的领域，并通过利用训练过程中获得的领域梯度诱导的Gram矩阵来高效优化数据组成（Balance）。与先前的工作不同，R&B消除了获取评价信息（如损失或梯度）所需额外计算的需求。我们在标准正则条件下分析了这种技术，并提供了理论洞察，证明了R&B在与非适应性混合方法相比的有效性。实验上，我们展示了R&B在五个不同的数据集上的有效性，这些数据集涵盖了从自然语言到推理和多模态任务的广泛类型。通过仅增加0.01%的额外计算开销，R&B匹配或超过了最新数据混合策略的性能。