LLM2D

摘要

arXiv:2502.01697v2 宣告类型: 交叉摘要：随着对高质量数据在模型训练中的需求增加，研究人员和开发人员越来越多地生成合成数据以调整和训练大规模语言模型（LLMs）。关于合成数据的一个常见假设是，从指令调优模型中采样就足够了；然而，这些模型在生成多样性的输出方面存在困难——这是实现泛化的关键要求。尽管存在各种提示方法，但在本文中我们展示了从指令调优模型中实现有意义的多样性仍然是一项具有挑战性的任务。相比之下，我们发现未经后训练的基础模型显示出更大的多样性，但在指令跟随方面的能力较弱，因此质量较低。借鉴这一洞察，我们提出了Base-Refine（BARE）合成数据生成方法，通过两阶段过程将基础模型的多样性与指令调优模型的质量结合起来。通过最少的少量示例和编辑，BARE生成了多样且高质量的数据集，提高了下游任务的性能。我们展示了使用多达1,000个BARE生成的样本进行微调可以在LiveCodeBench任务中达到与最佳同等大小模型相当的性能。此外，使用BARE生成的数据进行微调在GSM8K上提高了101%的表现，在RAFT上比SOTA方法提高了18.4%。