LLM2D
模拟模型权重以评估样本 utility 用于数据选择
Evaluating Sample Utility for Data Selection by Mimicking Model Weights
作者: Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2501.06708v2

摘要

arXiv:2501.06708v2 宣告类型: replace-cross 摘要:基础模型是在大规模网页抓取数据集上训练的,这些数据集通常包含噪声、偏差和无关信息。这促使使用数据选择技术,这些技术可以分为无模型变体——依赖于启发式规则和下游数据集——和基于模型的方法,例如使用影响函数。前者在设计上可能代价高昂,并且有可能引入不必要的依赖性,而后者通常在计算上是不可行的。 instead,我们提出了一种基于模型的有效方法,使用名为Mimic Score的新数据质量度量,它利用参考模型的权重来评估每个样本对训练新模型有用性。它依赖于参考模型诱导的梯度与目标方向的对齐。使用推导出的Mimic Score,我们开发了Grad-Mimic框架,该框架优先选择学习样本,创建有效的过滤器,并自动选择数据。经验上,使用Mimic Score指导训练提高了数据效率,在六个图像数据集上实现了一致的性能提升,并改进了CLIP模型。此外,基于Mimic Score的过滤器改进了现有的过滤方法,例如,在训练更好的CLIP模型时减少了470万样本,同时对训练数据集质量进行了准确的估计。