LLM2D

摘要

arXiv:2410.05248v2 通知类型: replace-cross 摘要: 为了获得指令跟随能力，大型语言模型（LLMs）会经历指令微调，即使用下一个标记预测（NTP）在指令-响应对上进行训练。提高指令微调的努力通常集中在更高质量的监督微调（SFT）数据集上，通常需要使用专有LLM或人工标注的数据筛选。在本文中，我们采取了一种不同的方法，提出了SFTMix，这是一种新颖的Mixup基方法，可以将LLM指令微调提升到传统的NTP范式之上，而不依赖于精心筛选的数据集。鉴于LLM在语义表示空间中表现出不均匀的信心，我们认为不同信心水平的例子在指令微调中的作用应有所不同——信心高数据容易过拟合，而信心不足的数据难以泛化。基于这一见解，SFTMix 利用训练动态来识别不同信心水平的例子，将它们插值以弥合信心差距，并应用基于Mixup的正则化以支持在这些额外的插值例子上的学习。通过在不同信心区域传播监督信号并鼓励它们之间的线性行为，SFTMix 在信心高例子上缓解了过拟合，在信心不足的例子上增强了泛化。无论是在指令跟随还是特定于医疗保健的SFT任务中，我们都在不同的LLM家族和不同程度和质量的数据集上展示了SFTMix 的有效性，显示出一致的改进。通过对六个方向的广泛分析，突出了SFTMix 对数据筛选的兼容性、在计算受限场景中的适应性以及在更广泛应用中的可扩展性。