LLM2D
SFTMix:利用Mixup配方提升语言模型指令调优效果
SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe
作者: Yuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2410.05248v2

摘要

arXiv:2410.05248v2 通知类型: replace-cross 摘要: 为了获得指令跟随能力,大型语言模型(LLMs)会经历指令微调,即使用下一个标记预测(NTP)在指令-响应对上进行训练。提高指令微调的努力通常集中在更高质量的监督微调(SFT)数据集上,通常需要使用专有LLM或人工标注的数据筛选。在本文中,我们采取了一种不同的方法,提出了SFTMix,这是一种新颖的Mixup基方法,可以将LLM指令微调提升到传统的NTP范式之上,而不依赖于精心筛选的数据集。鉴于LLM在语义表示空间中表现出不均匀的信心,我们认为不同信心水平的例子在指令微调中的作用应有所不同——信心高数据容易过拟合,而信心不足的数据难以泛化。基于这一见解,SFTMix 利用训练动态来识别不同信心水平的例子,将它们插值以弥合信心差距,并应用基于Mixup的正则化以支持在这些额外的插值例子上的学习。通过在不同信心区域传播监督信号并鼓励它们之间的线性行为,SFTMix 在信心高例子上缓解了过拟合,在信心不足的例子上增强了泛化。无论是在指令跟随还是特定于医疗保健的SFT任务中,我们都在不同的LLM家族和不同程度和质量的数据集上展示了SFTMix 的有效性,显示出一致的改进。通过对六个方向的广泛分析,突出了SFTMix 对数据筛选的兼容性、在计算受限场景中的适应性以及在更广泛应用中的可扩展性。