LLM2D

摘要

arXiv:2502.01968v1 公告类型: 交叉摘要: 最近的研究表明，在大型语言模型（LLMs）的监督精细调整（SFT）中，数据质量比数量更为重要。尽管大多数数据清洗方法集中在过滤整个样本上，但样本中的个别 Tokens 质量可能会有很大差异。经过预训练后，即使在高质量的样本中，也可能存在与任务无关的冗余或无信息的模式或短语。继续在这些模式上进行精细调整可能提供的益处有限，甚至可能损害下游任务性能。在本文中，我们从噪声标签的角度研究了 Token 质量，并提出了一种通用的 Token 清洗流水线，适用于 SFT 任务。该方法过滤掉无信息的 Tokens，同时保留那些携带关键任务相关信息的 Tokens。具体来说，我们首先通过检查模型更新对每个 Token 的影响来评估 Token 质量，然后应用基于阈值的分离。Token 影响可以在使用固定参考模型的单一通过中进行测量，也可以通过自我进化的参考模型进行迭代测量。两种方法的优缺点通过误差上界进行理论分析。广泛的实验表明，我们的框架在多个下游任务中一致地提高了性能。