LLM2D

摘要

为了在交互驱动的任务中诱导大型语言模型 (LLM) 产生期望的行为，指令微调阶段通常使用下一个词预测 (NTP) 损失函数，在指令-响应对上训练 LLM。为了提高指令微调性能，以往的研究往往强调需要更高质量的监督微调 (SFT) 数据集，这通常涉及使用专有 LLM 进行昂贵的数据过滤或由人工标注者进行劳动密集型的数据生成。然而，这些方法并没有充分利用数据集的内在属性，导致计算和人工成本高昂，从而限制了可扩展性和性能提升。本文提出了 SFTMix，一种新颖的配方，它超越了传统的 NTP 范式，提升了指令微调性能，而无需精心策划的数据集。观察到 LLM 在语义表示空间中表现出不均匀的置信度，我们认为不同置信度水平的示例在指令微调过程中应该扮演不同的角色。基于这一见解，SFTMix 利用训练动态识别不同置信度水平的示例，然后应用基于 Mixup 的正则化来缓解对置信示例的过度拟合，同时传播监督信号以改进对相对不置信示例的学习。这种方法使 SFTMix 能够在广泛的指令遵循和医疗保健领域特定的 SFT 任务中显著优于 NTP，证明了其对不同 LLM 家族的适应性以及对任何规模数据集的可扩展性。全面的消融研究进一步验证了 SFTMix 设计选择的稳健性，强调了其在更广泛的自然语言处理应用中始终如一地提高不同 LLM 和数据集的性能的通用性。