摘要
arXiv:2502.01968v1 类型:交叉
摘要:最近的研究表明,在大型语言模型(LLMs)的监督微调(SFT)中,数据质量比数量更重要。尽管大多数数据清洗方法集中在过滤整个样本,但样本内的单个标记的质量可能会有很大差异。在预训练之后,即使在高质量的样本中,一些与任务无关的模式或短语也可能冗余或无信息性。继续在这些模式上进行微调可能会提供有限的好处,甚至会损害下游任务的性能。在本文中,我们从噪声标签的角度研究了标记质量,并提出了一种适用于SFT任务的通用标记清洗管道。我们的方法过滤掉无信息的标记,同时保留那些携带关键任务相关信息的标记。具体来说,我们首先通过检查模型更新对每个标记的影响来评估标记质量,然后应用阈值分离。标记影响可以用固定参考模型在一个通过中进行测量,也可以用自我进化的参考模型进行迭代测量。两种方法的优缺点通过误差上界进行了理论分析。广泛的实验结果显示,我们的框架在多个下游任务中一致地提高了性能。