摘要
arXiv:2502.01968v1 公告类型: 交叉
摘要: 最近的研究表明,在大型语言模型(LLMs)的监督精细调整(SFT)中,数据质量比数量更为重要。尽管大多数数据清洗方法集中在过滤整个样本上,但样本中的个别 Tokens 质量可能会有很大差异。经过预训练后,即使在高质量的样本中,也可能存在与任务无关的冗余或无信息的模式或短语。继续在这些模式上进行精细调整可能提供的益处有限,甚至可能损害下游任务性能。在本文中,我们从噪声标签的角度研究了 Token 质量,并提出了一种通用的 Token 清洗流水线,适用于 SFT 任务。该方法过滤掉无信息的 Tokens,同时保留那些携带关键任务相关信息的 Tokens。具体来说,我们首先通过检查模型更新对每个 Token 的影响来评估 Token 质量,然后应用基于阈值的分离。Token 影响可以在使用固定参考模型的单一通过中进行测量,也可以通过自我进化的参考模型进行迭代测量。两种方法的优缺点通过误差上界进行理论分析。广泛的实验表明,我们的框架在多个下游任务中一致地提高了性能。