摘要
arXiv:2504.13227v1 类型: cross
摘要: 大型语言模型(LLMs)通常在多领域数据集上进行训练,其中领域采样策略会对模型性能产生显著影响,因为各个领域在下游任务中的重要性存在差异。现有方法在优化领域级采样策略时难以保持领域内的一致性并准确衡量领域影响。在本文中,我们提出了领域影响意识数据采样(DIDS)。为了确保领域内的一致性,提出了一种梯度聚类算法,根据训练数据的学习效果对其进行分组,其中使用代理语言模型和降维来减少计算开销。为了准确衡量领域影响,我们开发了一种由Fisher信息矩阵(FIM)引导的度量标准,该标准量化了领域特定的参数更新如何影响模型在下游任务上的输出分布,具有理论保证。此外,为了确定最佳采样比例,DIDS结合了FIM引导的领域影响评估和表明领域特定潜力的损失学习轨迹,同时考虑到边际收益递减的影响。广泛的实验表明,DIDS在保持类似训练效率的同时,平均性能提高了3.4%。