LLM2D

摘要

arXiv:2502.01968v1 类型:交叉摘要:最近的研究表明，在大型语言模型（LLMs）的监督微调（SFT）中，数据质量比数量更重要。尽管大多数数据清洗方法集中在过滤整个样本，但样本内的单个标记的质量可能会有很大差异。在预训练之后，即使在高质量的样本中，一些与任务无关的模式或短语也可能冗余或无信息性。继续在这些模式上进行微调可能会提供有限的好处，甚至会损害下游任务的性能。在本文中，我们从噪声标签的角度研究了标记质量，并提出了一种适用于SFT任务的通用标记清洗管道。我们的方法过滤掉无信息的标记，同时保留那些携带关键任务相关信息的标记。具体来说，我们首先通过检查模型更新对每个标记的影响来评估标记质量，然后应用阈值分离。标记影响可以用固定参考模型在一个通过中进行测量，也可以用自我进化的参考模型进行迭代测量。两种方法的优缺点通过误差上界进行了理论分析。广泛的实验结果显示，我们的框架在多个下游任务中一致地提高了性能。