LLM2D
数据清洁:为LLM监督微调的细粒度数据选择
Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning
作者: Jinlong Pang, Na Di, Zhaowei Zhu, Jiaheng Wei, Hao Cheng, Chen Qian, Yang Liu
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01968v1

摘要

arXiv:2502.01968v1 公告类型: 交叉 摘要: 最近的研究表明,在大型语言模型(LLMs)的监督精细调整(SFT)中,数据质量比数量更为重要。尽管大多数数据清洗方法集中在过滤整个样本上,但样本中的个别 Tokens 质量可能会有很大差异。经过预训练后,即使在高质量的样本中,也可能存在与任务无关的冗余或无信息的模式或短语。继续在这些模式上进行精细调整可能提供的益处有限,甚至可能损害下游任务性能。在本文中,我们从噪声标签的角度研究了 Token 质量,并提出了一种通用的 Token 清洗流水线,适用于 SFT 任务。该方法过滤掉无信息的 Tokens,同时保留那些携带关键任务相关信息的 Tokens。具体来说,我们首先通过检查模型更新对每个 Token 的影响来评估 Token 质量,然后应用基于阈值的分离。Token 影响可以在使用固定参考模型的单一通过中进行测量,也可以通过自我进化的参考模型进行迭代测量。两种方法的优缺点通过误差上界进行理论分析。广泛的实验表明,我们的框架在多个下游任务中一致地提高了性能。