LLM2D
Token 清洗:面向LLM监督微调的细粒度数据选择
Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning
作者: Jinlong Pang, Na Di, Zhaowei Zhu, Jiaheng Wei, Hao Cheng, Chen Qian, Yang Liu
发布日期: 2/5/2025
arXiv ID: 2502.01968

摘要

arXiv:2502.01968v1 类型:交叉 摘要:最近的研究表明,在大型语言模型(LLMs)的监督微调(SFT)中,数据质量比数量更重要。尽管大多数数据清洗方法集中在过滤整个样本,但样本内的单个标记的质量可能会有很大差异。在预训练之后,即使在高质量的样本中,一些与任务无关的模式或短语也可能冗余或无信息性。继续在这些模式上进行微调可能会提供有限的好处,甚至会损害下游任务的性能。在本文中,我们从噪声标签的角度研究了标记质量,并提出了一种适用于SFT任务的通用标记清洗管道。我们的方法过滤掉无信息的标记,同时保留那些携带关键任务相关信息的标记。具体来说,我们首先通过检查模型更新对每个标记的影响来评估标记质量,然后应用阈值分离。标记影响可以用固定参考模型在一个通过中进行测量,也可以用自我进化的参考模型进行迭代测量。两种方法的优缺点通过误差上界进行了理论分析。广泛的实验结果显示,我们的框架在多个下游任务中一致地提高了性能。