LLM2D

摘要

监督微调（SFT）对于将大型语言模型（LLMs）适应特定任务至关重要。这项工作表明，训练数据的顺序会导致显著的训练不平衡，可能导致性能下降。因此，我们提出通过合并使用不同数据顺序进行微调的 SFT 模型来缓解这种不平衡，从而提高 SFT 的整体有效性。此外，我们引入了一种新技术，“参数选择合并”，它在五个数据集上优于传统的加权平均方法。此外，通过分析和消融研究，我们验证了该方法的有效性，并确定了性能提升的来源。