LLM2D

摘要

arXiv:2501.06708v2 宣告类型: replace-cross 摘要：基础模型是在大规模网页抓取数据集上训练的，这些数据集通常包含噪声、偏差和无关信息。这促使使用数据选择技术，这些技术可以分为无模型变体——依赖于启发式规则和下游数据集——和基于模型的方法，例如使用影响函数。前者在设计上可能代价高昂，并且有可能引入不必要的依赖性，而后者通常在计算上是不可行的。 instead，我们提出了一种基于模型的有效方法，使用名为Mimic Score的新数据质量度量，它利用参考模型的权重来评估每个样本对训练新模型有用性。它依赖于参考模型诱导的梯度与目标方向的对齐。使用推导出的Mimic Score，我们开发了Grad-Mimic框架，该框架优先选择学习样本，创建有效的过滤器，并自动选择数据。经验上，使用Mimic Score指导训练提高了数据效率，在六个图像数据集上实现了一致的性能提升，并改进了CLIP模型。此外，基于Mimic Score的过滤器改进了现有的过滤方法，例如，在训练更好的CLIP模型时减少了470万样本，同时对训练数据集质量进行了准确的估计。